我的圣诞节

今天是圣诞节，大部分商店都关门了。我照例出门到Starbucks, 一杯炭烧一块面包。打开电脑查邮件，开始一天的编程工作。中午回来的时候顺手抄了本TIME, 看看今年的年度人物，也就是所谓的 “YOU”（你）。

互联网使用者当选《时代》周刊年度人物(图)

我看到的TIME封面和这个新浪网上的不一样。在YOU的地方，实际上是一个反射的聚合树脂材料（有点像汽车窗隔光热的）。因此，你可以在这个镜子中看到自己的样子。（你看我省了一块镜子钱）(补充：关于文章的中文翻译和真实的封面，可以参见和菜头的文章)

文章中有句话很经典，

It’s about the many wresting power from the few and helping one another for nothing and how that will not only change the world, but also change the way the world changes.

国内的有些歪脖二点灵的同学开始欢呼了，我觉得没有必要，一来TIME也说，现在也不知道这条路的前途如何(而且后面给的例子基本上都是美国相关的人物，除了我们的三表哥的不许联想）二来说实话，这个年度人物是给向社区和他人贡献内容的YOU, 不是给贡献流氓软件和流氓平台的网站制作者，当然，也不是给这样的用户网民：

“1楼：沙发。
2楼：板凳。
3楼：楼上的，不要老坐沙发好不好？
4楼：今天真靠前，顶一下。
5楼：支持博主，永远支持你。
6楼：我觉得博主就是个傻逼。
7楼：楼上的，说话文明点好不好？
8楼：激情电影下载、在线观看（省略数十条链接）
9楼：欢迎到我的博客观光，链接地址为……
10楼：寻找性伴侣，加我QQ,号码：×××××××××
11楼：支持国货的中国人请到这里投票，地址为……
12楼：博主我操你妈，博主我操你妈，博主我操你妈，博主我操你妈，博主我操你妈，博主我操你妈……
13楼：看你的博客很久了，越来越喜欢你。
14楼：博主终于更新了。
15楼：博主，我们交换个连接吧。
16楼：如何让自己更加坚挺，点击下面链接：《男人坚挺的十大秘诀》。
………” （摘自王三表的不许联想）

（大家有习惯的照抢沙发啊，我只是就歪脖二点灵说事）

＝＝＝＝＝＝＝＝＝＝＝（我是无语的分割线）＝＝＝＝

附带说一个问题，怕自己忘掉。最近月光Blog就Google出现的机器翻译中侮辱中国的问题发表了一篇文章。我看着觉得有点纳闷。当然我不是NLP(Nature Language Processing)的专家，甚至连入门都没有。不过我觉得他说的至少有两个问题：

我分析这个错误可能是这么产生的，就是在Google的自动机器学习过程中，主要学习的是一些西方文献以及其翻译结果，由于西方对于中国的评价大多都是负面的，因此某些”不好的字眼”经常和”中国”一道出现，当出现的频率很高的时候，Google就根据以往的常识，将这个”不好的字眼”和”中国”进行了一定关联，于是就出现了这种智能推测，导致了所谓的”Google辱华翻译事件“。

(假设按照月光所说，Google的词对齐全部按照双语网页作为收集 )shame 和中国联系的假设肯定不正确。

如果说美国人第一眼看到shame, 联系起来的绝对是Bush, 而不是China. ［和shame 搭配的词太多了，China的概率肯定不是最大的，shame+bush返回的网页就比shame+china多的多，而且问题是不光shame联系起china, 还有很多词，说实话我平时听那些词的时候好像从来没有和China搭配］

总的来说，Google放弃传统的翻译方式，改而使用机器自动分析统计识别的方法，是一大进步，极大提高了文章的翻译质量，后续Google应该做的是优化识别统计算法，使得翻译的结果更加准确。

我不知道月光是否理解机器翻译和统计语言模型，说话MS前后矛盾。如果结果不正确是语料库的问题，那么应该优化/扩大语料库，和算法没什么关系才是。

当然我是同意月光所说的”技术问题”而非”政治问题”的，只是有点小疑问写下来。想起大半年前在Google面试时曾向李开复博士请教他的语音识别（很汗的是这个居然是我问他的面试问题附加问题，据说标准的问题应该是 “您认为Google在中国怎样本土化或者怎样迎接baidu挑战” 以便让人觉得面试者对Google有很好了解滴~~ sigh, 当年多么勤奋好学~~)，他也曾和我说过是用类似HMM的模型。这个很好理解了，Google有最庞大的网页，因此相邻状态转移概率很好算，参见黑板报的统计语言模型，但是实际上不可能在所有的英文单词和中文词组中做全局的搜索，这里还有一个词典（当然也是统计意义上的）。月光假设说这个词典存在，shame就是翻译成和中国有关，我不大相信，我看熊猫也没翻译成中国熊猫，李宇春也没翻译成中国超女李宇春，他们与中国的相关度都比 shame-中国高的多。还有就是”优化识别统计算法” 说的实在比较模糊。如此辟谣有点糊弄大众。

关于机器翻译，统计模型也未必最好，目前变结构的翻译（英文从句在后，中文就在前了）还有保证没语法错误的翻译也还不是太完美。

一些参考文献：

关于Google机器翻译的介绍在这里

关于统计语言模型在这里（此文正好发布在我在Google面试结束回南京第二天，记忆尤其深刻）

关于HMM对语言翻译的处理在这里

附：本Blog于2007年新年将有一篇重量级客座文章发表。自即日起为钓起大家胃口，暂停发布几天