Data, Knowledge & Life

Weiwei Cheng's blog

Archive for 二月 2009

Fun in real life

leave a comment »

Hey Marburger, you’ve probably already seen this picture. This commercial can be found at quite a lot of bus stops in Marburg, for example at Hans-Meerwein-Str where I found it in the very first place. This is, in my opinion, the most shocking commercial this year. Let me explain in what follow:

The idea of this commercial is to promote an upcoming event in Frankfurt called Frankfurter Varieté-Nacht. In the commercial, it quotes the words from a female resident of Frankfurt:
"Manchmal glaube ich, es gibt immer noch Menschen, die gar nicht wissen, was Frankfurt zu bieten hat."
OK, this is nice, aha? Now comes the shocking part: Look at this woman! She has a gun!!!!! She even wears a shoulder holsters! The gun is just under her left shoulder! WTF!!!
This is the thing waiting for people in Frankfurt? A gunman? What the hell???

……

I am so scared.

Check this out by yourself: http://tinyurl.com/ao59qo

Smile

Written by Weiwei

28/02/2009 at 20:58

发表在 杂话

Hitwise美国互联网搜索调查

with 2 comments

search_engine_stats.png

  Hitwise这次放出来的调查包括两个部分:一是截至09年一月份美国互联网搜索的市场份额;二是美国用户搜索时使用关键字的平均数目。数据显示美国互联网搜索市场一强皆弱的形式已经难以逆转,Google一家独大。在超七成市场占有率的情况下,Google依然保持了年9%的增长势头,与Yahoo和微软的持续颓废形成了明显的反差。Yahoo与微软截至09年一月份的市场占有率总合仅仅达到约23%,与Google的72%相比只能是望洋兴叹。这样的统计数据为二者可能的联姻蒙上了一层阴影:在搜索市场打倒Google这一目标,注定已经无法通过简单的合并来实现。

search_queries_length.png

  第二份数据更有意思:互联网用户使用的查询关键字变得越来越长。使用一个或两个关键字进行查询的用户行为—即便依然占到整个查询当中的一大部分—其比例已经在逐年缩小。用户开始逐渐倾向于使用更多的查询关键字。这是一个非常值得探讨的趋势,有很多可能的原因。一方面,随着互联网内容的持续膨胀,用户发现使用很短的查询关键字已经渐渐难以准确的捕捉到理想的查询结果;另一方面,用户面对搜索这一逐渐成熟的技术,变得更加的老练,他们开始逐渐适应使用相对复杂的查询方式。这些可能的理由对互联网搜索提供商提出了很多新的挑战。从搜索引擎的角度来讲,我们必须要对自身进行优化,以便能够让用户使用最少的查询关键字找到他们想要的资源。一种可行的方案就是针对用户的个人偏好定制搜索引擎。在这一方面,Google的Experimental Search虽然还不完美,但是已经在向这个方向迈进。另外一个挑战,随着查询关键字变得越来越长,搜索引擎也需要在读懂用户搜索意图的方面更下一番功夫。为了满足日益复杂的查询需求,搜索引擎也有必要进一步完善和强化自己的搜索语法,为日渐增多的高端用户提供更为强大的搜索解决方案。

  Hitwise的数据虽然只涵盖了美国市场的情况,但是鉴于美国市场在全球市场的地位,上述数据应该是可以概括到全球市场,尤其是英语搜索引擎市场的。

Written by Weiwei

25/02/2009 at 01:03

发表在 杂话

Google uses old-fashioned way to measure the search quality

leave a comment »

Anand Rajaraman has just posted a new blog article discussing how Google using “real people” to measure the qualities of different search algorithms. It’s quite unlike what we do in machine learning, that we first define a certain kind of “loss function” and then we optimize the ranking model based on this predefined metric. Google’s reasoning is, according to Anand, these metrics never change much during the tests on new ranking models.

I would not say I am that astonished. Not like in classification, there is no golden standard for the loss functions used in ranking problems. Some of the loss functions are quite local, e.g., one-error; some of them are global, e.g., correlation coefficient. You never know in which circumstance which error function can capture the user’s behavior. So why don’t just do it in an old-fashioned way?

Written by Weiwei

19/02/2009 at 00:37

发表在 杂话

韩国星际玩家相貌大比拼

leave a comment »

[image loading]

Nuclear Launch Detected! ROFL!!!
中文翻译版

Written by Weiwei

16/02/2009 at 01:42

发表在 转贴

A guide to laughing

leave a comment »

Written by Weiwei

15/02/2009 at 16:13

发表在 转贴

本来是想要玩真三国无双的……

leave a comment »

  今天晚上本该是带着关羽在真三国无双三里水淹七军的,谁知道把笔记本的电源落在办公室,回家只能对着台式机发呆。

  无聊的时候当然什么都会做:上网瞅瞅无关紧要的新闻,在线看两集Seinfeld,登录一下基本从来不去的social networks,上GoogleYahoo搜索自己……

  有一件事是理所当然的:上网搜自己这种事情,绝对是30%的臭美+70%的无聊;而当你把搜索引擎的结果翻到5页之上的时候,基本上你已经处于百无聊赖的境地了。只有这个时候你才会想:“For f**k’s sake,干点正事算了。”当搜索结果翻到第10页+的时候,我放弃了,开始看些最近发现的API。大约是因为知道自己无事可做吧,心境比较纯粹,效率特别好;心里面还嘀咕:“要是没有网络的话,早几个小时我就开始干活了,faint!互联网害死人。”

  无聊有时候就是动力。如果不是无聊,我猜牛顿殿下也不会没事缩在树下等着苹果砸;要不是专利局的工作无聊得要死,爱因斯坦也不会搞什么相对论;霍金,嗯,他肯定也是因为无聊。总之,没见过哪个科学巨擎date选美皇后的,不然哪有工夫做paper?

PS:要是没有互联网,我也不会写这个日志,又能节省XX分钟!

Written by Weiwei

13/02/2009 at 01:33

发表在 杂话

我为什么用Google不用Baidu – 之一

with one comment

搜索关键字:日本 导航

Googler看到的结果:

google by you.

Baiduer看到的结果:

这也可能是人们用Baidu的原因 🙂

Written by Weiwei

08/02/2009 at 21:55

发表在 杂话