谁比Google 懂中文?

一年前, 你要是问我这个问题. 我会小心翼翼的说: 在某些关键词上, 百度质量稍微好一点. 但是Google 抓的双语网页和英文网页多, 在其他关键词上Google质量好, 两家各有仲伯, 不能说谁更加懂中文. 为此我还专门写了一篇文章帮大家评判什么是懂中文.

可是现在, 你要是问我这个问题. 我会毫不犹豫的告诉你: 比Google 更懂中文的公司诞生了. 其名字是两个字: 不是雅虎, 不是中搜, 不是搜狗, 不是有道, 不是天网, 不是百度, 不是汤姆, 答案是: “!!!谷歌!!!” (嘹亮的山谷之歌响起)

不信? “《财经》杂志封面报道:谷歌重来”一文中, 有段对谷歌技术总监王劲的采访, 原文如下:

“美 国工程师不懂中文,无法准确分词,常常造成可笑的问题。”谷歌中国技术总监王劲说。比如,用户输入“电脑”两个字,正常的情况是,页面左侧应出现电脑的搜 索结果,右边应该出现电脑产品广告,但美国工程师不懂中文,可能会把“电脑”分成“电”和“脑”两个字,出现的结果和广告是关于“电”和“脑” 的,令人啼笑皆非。

虽然我无法确定百度和Google 之间谁牛, 但是瞧瞧人家谷歌, 把多差的一个Google”汉字”搜索引擎变成一个多好的谷歌 “汉词” 搜索引擎啊 (Tinyfool 对此句亦有贡献). 谷歌青出于蓝, 十八个月以来终于让 “电脑” 不是 “电”+”脑” 了, 多么大的成就啊! 谷歌的确比Google懂中文, 这下大家相信了吧?

或许在中国把 Google.com 转到 谷歌 是有道理的, 人家比Google 更懂中文, 你们咋不用呢. 咋不知道体会人家的良苦用心呢? 下次谁再说 Google 懂中文, 请自费到中关村谷歌大楼外面壁.

相关文章:[伟大的谷歌]谷歌技术人员成功将google汉字搜索引擎进化为汉词搜索引擎

// 我有时间了得写个英文版, 让全世界人民, 包括Google总部的所有人, 看到我们 谷歌 在中文搜索上做出的杰出的贡献.

Update:

对于中文分词我是只听过, 没做过的门外汉, 不过我发现了一个测试Baidu 和 Google 搜索引擎分词结果的简单实用的方法, 对于想测试他们分词性能的人可以尝试一下, 不知道这个是不是我先发现的:)

对于百度, 最近百度出现了快照, 只要把鼠标停到网页快照的链接上,浏览器状态栏就会出现一个链接。这个链接中你会发现关键词被用分号隔开了, 而这个就是分词结果。 比如说,我搜索: “百度不懂中文分词算法”这个关键字,百度切分成了 “百度;不;懂;中文;分词;算法” 而且从最后快照上面的提示看, 百度把“分词”这个词和前后都重新组成了一个新词.

百度 中文分词 分词算法

对于Google 要相对麻烦一点, 同样还是用快照(可能大陆不能用), 点快照进去后, 不同的颜色就是分开的词, 比如说:”谷歌不懂中文分词算法” 被分成了这个”谷; 歌; 不; 懂; 中文; 分; 词; 算法”:

中文 算法

就这个例子看, 谷歌的工程师可能不光把“电+脑”组合成”电脑” 就结束了, 起码要把 “谷+歌” 变成完整的 “谷歌”, 把”分+词” 变成完整的 “分词” 吧. 或许这个例子的象征意义远大于它的实际意义. 谷歌在本地化的路上不是比美国工程师多解决了一个”电脑”就行的, 还要解决”谷歌”和”分词”

我只是抛砖引玉,各位研究分词的高手可以评判他们的优劣.