Posts published during December, 2006

2 comments

高兴啊高兴啊

对于我这样的书呆子来说,还有什么比找到missing book 更高兴的呢,而且在刚考完所有考试寒假正式开始的时候。
Knuth的MMIXware 被我戏称为十大 Missing Book 第二名(第一名是TAOCP Vol4)原以为继续由Addison-Wesley 出版的,所以Springer的LNCS系列一直没注意。今天找论文,发现一本书封面赫然写着Knuth, 居然就是这个,天哪,我一直认为LNCS只出会议论文集,从不出单独著作的….估计在我眼皮底下已经略过好几回了,还是被我逮着了..
MMIXware: A RISC Computer for the Third Millennium
  (图片来自Amazon.com, 不过我借到的封面居然是红的,这可能也是我无数次忽略的原因)

高兴啊高兴啊,寒假第一天就这么爽,好,寒假好好看书,认真学习!

今天高兴的还有一件事情,Blogger (就是我的主博的BSP)告别beta 了。在Blogspot的官方网站上写到:

The new version of Blogger in beta is dead!
Long live the new version of Blogger!
(P.S. The old version of Blogger is not dead, but it would like to retire for a little while… maybe go to Hawaii or play World of Warcraft all day? It begs you to let it play World of Warcraft all day.)

翻译成中文就是:
老的Blogger Beta版终结啦
新的Blogger万岁(Blogger一语双关,也指写Blog的人)
(附注:其实老版本的Blogger没有终结,而是暂时退休一下下,恩,可能是去夏威夷度假了吧,要不就是整天玩魔兽世界? 它请求你让他整天玩魔兽世界的)

这个才是我熟悉的Go ogle的风格,这样的 Goo gle 谁不喜欢 :) (如果这个彩色的Google中间还是多出空格,那么Gmail的这个Bug还是没修好,我都report了差不多要一周年了)

对于我这样的书呆子来说,还有什么比找到missing book 更高兴的呢,而且在刚考完所有考试寒假正式开始的时候。
Knuth的MMIXware 被我戏称为十大 Missing Book 第二名(第一名是TAOCP Vol4)原以为继续由Addison-Wesley 出版的,所以Springer的LNCS系列一直没注意。今天找论文,发现一本书封面赫然写着Knuth, 居然就是这个,天哪,我一直认为LNCS只出会议论文集,从不出单独著作的….估计在我眼皮底下已经略过好几回了,还是被我逮着了..
MMIXware: A RISC Computer for the Third Millennium
(图片来自Amazon.com, 不过我借到的封面居然是红的,这可能也是我无数次忽略的原因)

高兴啊高兴啊,寒假第一天就这么爽,好,寒假好好看书,认真学习!

今天高兴的还有一件事情,Blogger (就是我的主博的BSP)告别beta 了。在Blogspot的官方网站上写到:

The new version of Blogger in beta is dead!
Long live the new version of Blogger!
(P.S. The old version of Blogger is not dead, but it would like to retire for a little while… maybe go to Hawaii or play World of Warcraft all day? It begs you to let it play World of Warcraft all day.)

翻译成中文就是:
老的Blogger Beta版终结啦
新的Blogger万岁(Blogger一语双关,也指写Blog的人)
(附注:其实老版本的Blogger没有终结,而是暂时退休一下下,恩,可能是去夏威夷度假了吧,要不就是整天玩魔兽世界? 它请求你让他整天玩魔兽世界的)

这个才是我熟悉的Go ogle的风格,这样的 Goo gle 谁不喜欢 :) (如果这个彩色的Google中间还是多出空格,那么Gmail的这个Bug还是没修好,我都report了差不多要一周年了)

其实每个学期也都要总结一下的,以前是写给自己,父母和女友,现在就写给大家了:)
(这次总结完全按照佳昱同学的模版展开)

匆匆的,四个月就从指间划过了;从上海浦东和家人分离的那一刻,我在想,以后就是我一个人了,无论是成功还是失败,痛苦还是快乐,要一个人面对所有的事情了。从一开始的好奇,到平淡;从学期开始的繁忙无措,到现在的规律生活;从前段时间心情糟透,到现在坦然面对很多事,这个半年成长了很多。 有点象刚到扬州中学的那个半年,也有点象刚入大学的那个半年,环境的变化让我变得更加坚强了。至于功过得失,先写下来,后来再评说吧。

于学业研究

这学期学业不错,估计A是无问题(其实大家都是这样)。研究方面进步很大,项目进展也很快,自己独立研究方向也看到一点苗头。我的宏伟读书计划进展不大,这学期读完9本书,比起本科还有差距,估计还是因为语言问题。 虽说很多人看不起读Ph.D.的,认为枯燥,不赚钱,我还是很有信心把这个博士读好的。我叔叔,在西门子工作的同事,还有我现在的导师都和我说过,没有有世界领先的研究的人以后工作必然有天花板。我现在对工作的认识还是停留在Google程序员级别,也就是凭聪明,钻研和对技术的狂热来工作。但我知道研究工作比技术工作更有挑战; 做出领先世界研究的张亚勤,李开复,包括唐俊,李彦宏,包括一些熟悉不熟悉的Bill Joy, Eric Schmidt, Scott McNealy,Google的两位创始人,他们都是拥有世界领先的研究成果然后投身工业界的。当然我拿这些牛人举例子绝不是说我也能这样,只是不断的提醒自己,这世界上还有比以前见到的更瑰丽的风光在更高的山峰上,值得去看看,哪怕我甚至都不知道那是什么样的风光。我不怕研究的枯燥,也不怕别人的嘲笑,而且还要保持微笑面对别人的嘲笑:)如果我当时留在北京上海,也许拿着不低的薪水,或许也有一帮朋友,腐败玩乐,估计会在北京买房,买车,结婚,然后一边想着普通人需要想的事情,一边舒服或者不怎么舒服的过完一生(我不是说留在北京上海的同学的选择不好,只是说我的性格不适合这样)。不过既然选择了出来,就是选择学业和研究的,就是选择耐得寂寞的。总的说,对这学期学业的进展可以打80分,下雪期继续努力。

于个人发展和人际关系

我不是什么太子党高干子弟,父母也不是有钱有势的一族,不属于美国人讲的 an accident of birth. 于个人发展上只有靠自己,靠其他人都是不可能的,我也从来没有指望过。而且在骨子里,我还佩服那些白手起家的人。可是我没有那种拿着一打牙刷就能推销赚钱的人的特殊才能,我只能用自己的才华和团队去取得成功。 因此,我所能做的,就是一方面提升自己的修养和层次,一方面交往更多志同道合的朋友。于个人,仍旧是不断修正自己过失;于朋友,是扩大自己的交往圈。这个分不好打,只觉得这学期变得更加坚强更加和人注意沟通了,于语言相信基本关已经过了,至少做报告聊天都不是问题,因此就给自己打75分吧。(我还是一个不够外向的人,朋友们也都知道,这个分高不起来)

于个人感情

其实这个本并不值得单独列出来,而且有些话说出来也不好。写在这里,是想让关心我的人放心。有句话叫做 "岂能尽如人意,但求无愧我心" ,我的态度就是这样,我自己无愧就很好了。至于处理方式,若是拖泥带水,永远会有问题想不通,永远对别人抱着既痛恨又期待的态度,永远破坏自己和他人以后的生活,永远不甘心或者老想站在道德高位鄙视别人。我和佳昱一样,直接采取手术刀式。或许经过寂寞浸泡过的男人都很果断,至少从我和佳昱身上体验出来的是这样。不过我倒没怎么麻烦朋友和家人,可能也是这事太特殊了 :)  如老魏所言,要耐得寂寞,享受寂寞。如果这点寂寞都承受不了,用北京话讲, 怂样,丫别丢人现眼了,尽装孙子,收拾收拾回家吧,你丫就他妈不是爷们儿。

我现在也颇为欣赏当时快刀乱麻的态度,本来想给自己打个85的,看了叶昕的FB小结和佳昱的Blog以后,决定还是给自己打个80好了,他们的生活态度才是我的标杆呢(叶同学又要说我和她互相吹捧,因此这次我特地让出沙发位置,并且打住  :)

除此外本学期无其他加分。因此,本学期个人总评B

=======其实我是一个GPL的分割线==================

此处引用几句朋友shengbao Blog中的话:


数年前,Steve Jobs问John Sculley,Do you want to sell sugar water for the rest of your life, or do you want to change the world?是的,我想改变世界。可是当我沉迷于很多事情的时候,我可曾考虑过这对改变世界有用吗?我需要一种征服的快感,一种作为战士的快感,一种改变世界的快感。所以当我以后浪费时间,为一些不可能的事情而徒劳的时候,不妨问自己一个问题: Can chasing girls change the world?


当年,Jobs拉Sculley入伙苹果,当年John Sculley是Pepsi可乐公司的总裁,Jobs就问了他这句很有煽动性的话:
你是想在你的余生卖糖水还是想改变这个世界 ,后来Sculley加盟苹果,成就了Macintosh, 成就了硅谷80年代最成功的公司,苹果公司。
身为一个Ph.D.我也没啥赚大钱做大官的宏伟蓝图,I want to change the world.

其实每个学期也都要总结一下的,以前是写给自己,父母和女友,现在就写给大家了:)
(这次总结完全按照佳昱同学的模版展开)

匆匆的,四个月就从指间划过了;从上海浦东和家人分离的那一刻,我在想,以后就是我一个人了,无论是成功还是失败,痛苦还是快乐,要一个人面对所有的事情了。从一开始的好奇,到平淡;从学期开始的繁忙无措,到现在的规律生活;从前段时间心情糟透,到现在坦然面对很多事,这个半年成长了很多。 有点象刚到扬州中学的那个半年,也有点象刚入大学的那个半年,环境的变化让我变得更加坚强了。至于功过得失,先写下来,后来再评说吧。

于学业研究

这学期学业不错,估计A是无问题(其实大家都是这样)。研究方面进步很大,项目进展也很快,自己独立研究方向也看到一点苗头。我的宏伟读书计划进展不大,这学期读完9本书,比起本科还有差距,估计还是因为语言问题。 虽说很多人看不起读Ph.D.的,认为枯燥,不赚钱,我还是很有信心把这个博士读好的。我叔叔,在西门子工作的同事,还有我现在的导师都和我说过,没有有世界领先的研究的人以后工作必然有天花板。我现在对工作的认识还是停留在Google程序员级别,也就是凭聪明,钻研和对技术的狂热来工作。但我知道研究工作比技术工作更有挑战; 做出领先世界研究的张亚勤,李开复,包括唐俊,李彦宏,包括一些熟悉不熟悉的Bill Joy, Eric Schmidt, Scott McNealy,Google的两位创始人,他们都是拥有世界领先的研究成果然后投身工业界的。当然我拿这些牛人举例子绝不是说我也能这样,只是不断的提醒自己,这世界上还有比以前见到的更瑰丽的风光在更高的山峰上,值得去看看,哪怕我甚至都不知道那是什么样的风光。我不怕研究的枯燥,也不怕别人的嘲笑,而且还要保持微笑面对别人的嘲笑:)如果我当时留在北京上海,也许拿着不低的薪水,或许也有一帮朋友,腐败玩乐,估计会在北京买房,买车,结婚,然后一边想着普通人需要想的事情,一边舒服或者不怎么舒服的过完一生(我不是说留在北京上海的同学的选择不好,只是说我的性格不适合这样)。不过既然选择了出来,就是选择学业和研究的,就是选择耐得寂寞的。总的说,对这学期学业的进展可以打80分,下雪期继续努力。

于个人发展和人际关系

我不是什么太子党高干子弟,父母也不是有钱有势的一族,不属于美国人讲的 an accident of birth. 于个人发展上只有靠自己,靠其他人都是不可能的,我也从来没有指望过。而且在骨子里,我还佩服那些白手起家的人。可是我没有那种拿着一打牙刷就能推销赚钱的人的特殊才能,我只能用自己的才华和团队去取得成功。 因此,我所能做的,就是一方面提升自己的修养和层次,一方面交往更多志同道合的朋友。于个人,仍旧是不断修正自己过失;于朋友,是扩大自己的交往圈。这个分不好打,只觉得这学期变得更加坚强更加和人注意沟通了,于语言相信基本关已经过了,至少做报告聊天都不是问题,因此就给自己打75分吧。(我还是一个不够外向的人,朋友们也都知道,这个分高不起来)

于个人感情

其实这个本并不值得单独列出来,而且有些话说出来也不好。写在这里,是想让关心我的人放心。有句话叫做 “岂能尽如人意,但求无愧我心” ,我的态度就是这样,我自己无愧就很好了。至于处理方式,若是拖泥带水,永远会有问题想不通,永远对别人抱着既痛恨又期待的态度,永远破坏自己和他人以后的生活,永远不甘心或者老想站在道德高位鄙视别人。我和佳昱一样,直接采取手术刀式。或许经过寂寞浸泡过的男人都很果断,至少从我和佳昱身上体验出来的是这样。不过我倒没怎么麻烦朋友和家人,可能也是这事太特殊了 :) 如老魏所言,要耐得寂寞,享受寂寞。如果这点寂寞都承受不了,用北京话讲, 怂样,丫别丢人现眼了,尽装孙子,收拾收拾回家吧,你丫就他妈不是爷们儿。

我现在也颇为欣赏当时快刀乱麻的态度,本来想给自己打个85的,看了叶昕的FB小结和佳昱的Blog以后,决定还是给自己打个80好了,他们的生活态度才是我的标杆呢(叶同学又要说我和她互相吹捧,因此这次我特地让出沙发位置,并且打住 :)

除此外本学期无其他加分。因此,本学期个人总评B

=======其实我是一个GPL的分割线==================

此处引用几句朋友shengbao Blog中的话:

数年前,Steve Jobs问John Sculley,Do you want to sell sugar water for the rest of your life, or do you want to change the world?是的,我想改变世界。可是当我沉迷于很多事情的时候,我可曾考虑过这对改变世界有用吗?我需要一种征服的快感,一种作为战士的快感,一种改变世界的快感。所以当我以后浪费时间,为一些不可能的事情而徒劳的时候,不妨问自己一个问题: Can chasing girls change the world?


当年,Jobs拉Sculley入伙苹果,当年John Sculley是Pepsi可乐公司的总裁,Jobs就问了他这句很有煽动性的话:
你是想在你的余生卖糖水还是想改变这个世界 ,后来Sculley加盟苹果,成就了Macintosh, 成就了硅谷80年代最成功的公司,苹果公司。
身为一个Ph.D.我也没啥赚大钱做大官的宏伟蓝图,I want to change the world.

2 comments

写字自恋一把

今天随机换了个桌面墙纸,正好是王羲之的兰亭。忍不住自己也手痒了。当然没有毛笔没有宣纸我写不了大字了,于是,我就马克笔为刀,白版为简,“”下 淡泊明志,宁静致远 八个篆字。这个,其中“远”我不会写,通过Google得到…

自恋的人写这几个字,是有点讽刺啊:)
不管了,自恋到底,贴上Blog.

既然出了个国学MM勾引孔子,俺们也在美国弘扬国学,把芙蓉JJ, 国学MM为代表的时代精神以国学为载体在异国他乡生根发芽,发扬光大。此举必将促进中美文化交流,使“我们古老的祖国像一个生气勃勃的自恋少女站在世界的面前”(此句修改自文化部部长孙家正原句,我把少年换成自恋少女)

今天随机换了个桌面墙纸,正好是王羲之的兰亭。忍不住自己也手痒了。当然没有毛笔没有宣纸我写不了大字了,于是,我就马克笔为刀,白版为简,“”下 淡泊明志,宁静致远 八个篆字。这个,其中“远”我不会写,通过Google得到…

自恋的人写这几个字,是有点讽刺啊:)
不管了,自恋到底,贴上Blog.

既然出了个国学MM勾引孔子,俺们也在美国弘扬国学,把芙蓉JJ, 国学MM为代表的时代精神以国学为载体在异国他乡生根发芽,发扬光大。此举必将促进中美文化交流,使“我们古老的祖国像一个生气勃勃的自恋少女站在世界的面前”(此句修改自文化部部长孙家正原句,我把少年换成自恋少女)

0 comments

什么叫做懂中文

读前提示:作者并不是搜索引擎和语言处理方面的专家,对自然语言和搜索引擎的理解仅限于读过的十几本书和五六篇论文,对于该领域的理解水平相当于普通计算机专业研究生。作者的观点可能带有主观看法。另外,本文不试图评价哪个更懂中文,只想告诉大家什么才是计算机领域所说的懂中文,免得简单的因为名字起得不好或者打错了字就说不懂中文,或者第一页是广告就说不懂中文,那样就有点好笑了。

先说几个标题, 都是关于懂中文的。 谷歌不太懂中文 百度真的比Google更懂中文么?, Google真的不懂中文? 雅虎比百度更懂中文 还有 百度,你只懂中文 ;作为普通的用户,不知道看到这些眼花缭乱的宣传会不会头晕。而且这些Blog文章,往往就是标题党,拿着一两个小点就开始发挥,而实际上有些并不是懂不懂中文的问题。因此,我在此写一个简要的介绍,告诉大家什么叫懂中文,免得以后看到类似的标题也高不清楚谁对谁错。

首先,人是评价技术的主观标准,如果一个中文搜索引擎给你的感觉是结果不好,无论是广告多了,排名靠后, 结果不相关,还是分词不对,它就是不太懂中文,这个标准是肯定的。但是,这个标准并不是全面的客观的。

我想解释一下,对于搜索引擎,什么叫懂中文,我们用什么样的客观标准去评价"懂中文".

要强调的是:搜索引擎定义的懂中文和自然语言处理定义的懂中文是不一样的

我们知道,中国人都懂中文(当然少数民族不说汉语的咱不讨论)。懂也就是说能理解中文的意思,不管是不是文盲。我们说某老外懂中文,是说他能理解中文的意思。同理,计算机懂不懂中文,关键是计算机能不能理解中文的意思。计算机自然语言处理的本质,是对句子或文章进行词法分析(哪几个汉字是一个词),句法分析(好比说 主谓宾),语义分析(句子是什么意思),最后把汉语变成一种中间语言,或者一种叫语义网络的东西。 人可以验证计算机生成的语义和我们想表达的语义是否一样,从而验证计算机是否懂中文。

而搜索引擎定义的懂中文,不是理解中文的意思,而是决定能否由中文关键字得到想要的结果。 搜索引擎通过抓取网页或其他资源,编制索引,而用户输入关键字,则可以取出匹配的结果。因此,搜索引擎的懂中文可以理解成这几个方面:

1. 能否正确抓取中文网页
这一点的是评价搜索引擎中文质量的一个标准,但是并不是评价懂不懂中文的好标准。
首先,如果是蜘蛛抓取的面不够广,我们可以说这个引擎最终质量不一定会高。但是不代表这个引擎不懂中文。比如一个人收藏了很多书签,每次从书签中返回一个结果给我。他就是一个智能但是搜索面很窄的引擎。当然,如果一个蜘蛛蠢到不能应对多种汉字编码,那么,的确可以说不懂中文。

2. 能否正确编制索引
这一点牵涉到两个方面,一个是分词,一个是索引,其中分词是评价一个搜索引擎懂不懂中文的很好标准。
什么叫分词呢,我们知道,英语单词与单词之间是有空格的,因此字母是字母,词是词。但是中文很不一样,有个笑话说:老师让小明用 如果造句,小明说,汽水不如果珍味道好。如果搜索引擎把这个句子断成这样,其结果的质量可想而知。这个例子当然和极端,但实际上搜索引擎不会分词的现象普遍存在,比如 live 搜索共和国家,第一条结果就把" "分成一个词了。 yahoo第一条也不对。再看看Google 的第三条也不对。相比之下, baidu 分词完全正确,分成两个词。当然具体的结果相关性在这里我们先不讨论。分词,有时候也可以理解为 能否正确辨认用户输入关键字,在搜索网页时候结果可能受排名影响而不容易看出优劣,但在小结果集合中效果明显。比如 地图分词, 邮件搜索分词,站内搜索分词,这些结果如人饮水,冷暖自知,大家可以客观的评价。至于百度的广告: 我知道你不知道我知道你不知道我知道你不知道我知道你不知道,只是表示他有中文分词/句能力,并不一定表示百度真的能把这句话理解。(我认为这句话存在不可判决路径,连人也可以分出几种意思,计算机又怎么可能分对?)

第二是索引,现在的搜索引擎,在链接下面往往会有一些小的片断帮助你筛选信息。实际上,这些小片断的选择很重要。 Microsoft Research 就曾经做过一个研究, 根据这些小片断做聚类。 小片断的好坏实际上表现了搜索引擎对这个关键字的理解。我们 可以用八荣八耻做测试,看看哪个能在小片断中体现相关信息。但是讽刺的是,恰恰是 live 的小片断的质量最差,有些片断和八荣八耻无法关联。Google, baidu  和 yahoo 小片断质量类似,其他关键字我未尝试,此处仅为一例,不作为论据。

3 . 能否正确输出匹配结果
Baidu 饱受诟病的一个原因就是竞价排名影响结果。其实这也是一种商业模式。但是这个模式不可避免的影响了结果。相当多的人在此批评百度不懂中文。客观的说,懂不懂中文和这个关系不大。不过减去广告后的比较的确很有价值,也的确能说明问题。有些文章写的很客观,有些纯粹拿着一个点发挥。

4. 扩展一:能否自动对大规模相似文本聚类
 这个主要用在新闻上, baidu 的新闻质量和 Google 的新闻质量都很高,这方面尚未有任何比较,如果下面再有文章关于这个,相信大家有自己的眼光了。附带说一个,sogou的作者风格评实在是很好的点子很糟糕的技术,可能和样本太少也有关系,聚类结果差强人意。顺着这个,就牵涉到上下文相关广告和垃圾邮件处理,当然现在 英文领先的还是 Google, 中文也没有相关的比较出来。这是懂中文的一个非常重要的标准。

扩展二:能否进行高质量机器翻译
这一点是自然语言处理的本质,不敢做这个或者做不好这个都是不懂中文,或者在理解中文上有问题。这方面也是 Goolge 世界领先,(没办法,这个拼的就是语料库和计算能力,这个是我认为的"懂中文"的一个核心)

扩展三:拼音识别和相近词识别
有人说这个拼音识别 和近义词有什么难的?不就是输入法+词典么。对的,说的很对,就是输入法加词典(当然也有复杂的技术我就不讲了)。可是如果这都做不好,谈什么懂中文呢 。

结语:判断"懂中文" 有客观标准,大约是 机器翻译 50%,  分词20%,  聚类+搜索质量30%。
其他主观标准,我尊重你的判断,但是请不要用不懂中文这样的标题吓人,大家都是中国人,都懂你不懂什么叫不懂中文,都知道你不知道我知道你不知道我知道。附带说一句,从语义分析角度来说,新华字典懂汉字,不懂中文。

读前提示:作者并不是搜索引擎和语言处理方面的专家,对自然语言和搜索引擎的理解仅限于读过的十几本书和五六篇论文,对于该领域的理解水平相当于普通计算机专业研究生。作者的观点可能带有主观看法。另外,本文不试图评价哪个更懂中文,只想告诉大家什么才是计算机领域所说的懂中文,免得简单的因为名字起得不好或者打错了字就说不懂中文,或者第一页是广告就说不懂中文,那样就有点好笑了。

先说几个标题, 都是关于懂中文的。 谷歌不太懂中文 百度真的比Google更懂中文么?, Google真的不懂中文? 雅虎比百度更懂中文 还有 百度,你只懂中文 ;作为普通的用户,不知道看到这些眼花缭乱的宣传会不会头晕。而且这些Blog文章,往往就是标题党,拿着一两个小点就开始发挥,而实际上有些并不是懂不懂中文的问题。因此,我在此写一个简要的介绍,告诉大家什么叫懂中文,免得以后看到类似的标题也高不清楚谁对谁错。

首先,人是评价技术的主观标准,如果一个中文搜索引擎给你的感觉是结果不好,无论是广告多了,排名靠后, 结果不相关,还是分词不对,它就是不太懂中文,这个标准是肯定的。但是,这个标准并不是全面的客观的。

我想解释一下,对于搜索引擎,什么叫懂中文,我们用什么样的客观标准去评价”懂中文”.

要强调的是:搜索引擎定义的懂中文和自然语言处理定义的懂中文是不一样的

我们知道,中国人都懂中文(当然少数民族不说汉语的咱不讨论)。懂也就是说能理解中文的意思,不管是不是文盲。我们说某老外懂中文,是说他能理解中文的意思。同理,计算机懂不懂中文,关键是计算机能不能理解中文的意思。计算机自然语言处理的本质,是对句子或文章进行词法分析(哪几个汉字是一个词),句法分析(好比说 主谓宾),语义分析(句子是什么意思),最后把汉语变成一种中间语言,或者一种叫语义网络的东西。 人可以验证计算机生成的语义和我们想表达的语义是否一样,从而验证计算机是否懂中文。

而搜索引擎定义的懂中文,不是理解中文的意思,而是决定能否由中文关键字得到想要的结果。 搜索引擎通过抓取网页或其他资源,编制索引,而用户输入关键字,则可以取出匹配的结果。因此,搜索引擎的懂中文可以理解成这几个方面:

1. 能否正确抓取中文网页
这一点的是评价搜索引擎中文质量的一个标准,但是并不是评价懂不懂中文的好标准。
首先,如果是蜘蛛抓取的面不够广,我们可以说这个引擎最终质量不一定会高。但是不代表这个引擎不懂中文。比如一个人收藏了很多书签,每次从书签中返回一个结果给我。他就是一个智能但是搜索面很窄的引擎。当然,如果一个蜘蛛蠢到不能应对多种汉字编码,那么,的确可以说不懂中文。

2. 能否正确编制索引
这一点牵涉到两个方面,一个是分词,一个是索引,其中分词是评价一个搜索引擎懂不懂中文的很好标准。
什么叫分词呢,我们知道,英语单词与单词之间是有空格的,因此字母是字母,词是词。但是中文很不一样,有个笑话说:老师让小明用 如果造句,小明说,汽水不如果珍味道好。如果搜索引擎把这个句子断成这样,其结果的质量可想而知。这个例子当然和极端,但实际上搜索引擎不会分词的现象普遍存在,比如 live 搜索共和国家,第一条结果就把”
“分成一个词了。 yahoo第一条也不对。再看看Google 的第三条也不对。相比之下, baidu 分词完全正确,分成两个词。当然具体的结果相关性在这里我们先不讨论。分词,有时候也可以理解为 能否正确辨认用户输入关键字,在搜索网页时候结果可能受排名影响而不容易看出优劣,但在小结果集合中效果明显。比如 地图分词, 邮件搜索分词,站内搜索分词,这些结果如人饮水,冷暖自知,大家可以客观的评价。至于百度的广告: 我知道你不知道我知道你不知道我知道你不知道我知道你不知道,只是表示他有中文分词/句能力,并不一定表示百度真的能把这句话理解。(我认为这句话存在不可判决路径,连人也可以分出几种意思,计算机又怎么可能分对?)

第二是索引,现在的搜索引擎,在链接下面往往会有一些小的片断帮助你筛选信息。实际上,这些小片断的选择很重要。 Microsoft Research 就曾经做过一个研究, 根据这些小片断做聚类。 小片断的好坏实际上表现了搜索引擎对这个关键字的理解。我们 可以用八荣八耻做测试,看看哪个能在小片断中体现相关信息。但是讽刺的是,恰恰是 live 的小片断的质量最差,有些片断和八荣八耻无法关联。Google, baidu 和 yahoo 小片断质量类似,其他关键字我未尝试,此处仅为一例,不作为论据。

3 . 能否正确输出匹配结果
Baidu 饱受诟病的一个原因就是竞价排名影响结果。其实这也是一种商业模式。但是这个模式不可避免的影响了结果。相当多的人在此批评百度不懂中文。客观的说,懂不懂中文和这个关系不大。不过减去广告后的比较的确很有价值,也的确能说明问题。有些文章写的很客观,有些纯粹拿着一个点发挥。

4. 扩展一:能否自动对大规模相似文本聚类
这个主要用在新闻上, baidu 的新闻质量和 Google 的新闻质量都很高,这方面尚未有任何比较,如果下面再有文章关于这个,相信大家有自己的眼光了。附带说一个,sogou的作者风格评实在是很好的点子很糟糕的技术,可能和样本太少也有关系,聚类结果差强人意。顺着这个,就牵涉到上下文相关广告和垃圾邮件处理,当然现在 英文领先的还是 Google, 中文也没有相关的比较出来。这是懂中文的一个非常重要的标准。

扩展二:能否进行高质量机器翻译
这一点是自然语言处理的本质,不敢做这个或者做不好这个都是不懂中文,或者在理解中文上有问题。这方面也是 Goolge 世界领先,(没办法,这个拼的就是语料库和计算能力,这个是我认为的”懂中文”的一个核心)

扩展三:拼音识别和相近词识别
有人说这个拼音识别 和近义词有什么难的?不就是输入法+词典么。对的,说的很对,就是输入法加词典(当然也有复杂的技术我就不讲了)。可是如果这都做不好,谈什么懂中文呢 。

结语:判断”懂中文” 有客观标准,大约是 机器翻译 50%, 分词20%, 聚类+搜索质量30%。
其他主观标准,我尊重你的判断,但是请不要用不懂中文这样的标题吓人,大家都是中国人,都懂你不懂什么叫不懂中文,都知道你不知道我知道你不知道我知道。附带说一句,从语义分析角度来说,新华字典懂汉字,不懂中文。