别拿技术忽悠人

本文自由转载(CC 署名 非商业)。作者:美国华盛顿大学计算机科学系博士生Eric You XU, 研究方向是人工智能。

附:这是我第一次写文章拿出头衔,不是吓人,是为了避免人以为我拿技术忽悠人。我是有点不爽写这篇文章的,言辞上可能激烈了点,本文对事不对人。

每次谷歌出了什么问题,总有这样的句式出来:”这个这个问题嘛,技术上是这样这样的,你们不懂技术,来讲谷歌的坏话,不是Baidu的间谍就是XX的狗腿,要不就是愤青! “。 比如说,上次出现中国翻译成不好的词事件,月光出来辟谣了说这个么,是不好的词和中国的概率关联大了,所以翻译成不好的词了。 上次 方军竖中指,又有人说这个么,就是按照搜索频率排序的,你们不懂技术和算法,所以不能怪谷歌。 这次 谷歌的输入法不幸和搜狗的一样而更不幸的是和自家搜索提示给的不一样的时候,晨钟暮鼓又出来辟谣了, 说这个么,很显然谷歌没抄,网民搜出的网络词库当然是是一样的阿。 好吧,你们总是用技术来说理,你们总是说,谷歌的技术是没有问题的,问题出在群众的智慧上,谁让群众都去搜黄色的,谁让群众都去搜搜狗开发人员名字的,谁让群众偏要把中国和不好的词联系起来的。一个个出来讲话的好像都是研究计算机方向的教授,元老,技术领袖。 网民就是被你们教训的,愤青就是被你的鄙视的,没文化就是被你们教育的。我在这里表明一下我强烈的不赞同态度。我认为, 澄清一件事情,不是用伪技术的谣言去驱赶另一个谣言,不是用大家都不懂其实自己也不懂的东西再次侮辱网民的智商。

我们说,技术不是一切,任何做技术的都要考虑到实际,经验非常重要,这就是为什么老程序员和新程序员写出的程序不一样,为什么人月神话讲优秀的程序员和一般人效率差十倍。我们首先要承认,谷歌的团队还很新,的确有考虑不到的地方,谷歌应当通过这些事情调整自己的团队,而不是把个人技术失误推到群众头上,这个是技术人员第一要务。 我在谷歌有几个好朋友,在Google总部也有,我问他们到底出现这些失误的时候怎么办,他们无一例外的都说是技术人员考虑不周, PM管理不严,我倒没看到他们把责任推到网民头上的。现在反而现在出来帮谷歌辟谣的人倒是技术领袖了,非要把技术上的事情推到用户上。 其实本来我想顺着说几句狂妄的话一一指出这些”懂技术的人”技术上的荒谬,不过我想想没王三表的文采就不要学老罗的骂街,况且理应对事不对人。我就想问,你们辟谣的各位高手中,懂机器翻译和自然语言处理的有几个,懂输入法的有几个,懂关键词提取和过滤的又有几个,包括前几天一个朋友和另一个朋友争论的时候(名字我隐去),一个人非要说趋势的算法是那样那样,不是这样这样,那么懂Google趋势是按照什么近似算法来提取日志的又有几个? 认真在技术上粉Google, 看过什么叫BigTable, 知道什么是MapReduce, 知道GFS, 会自己搭机群,了解数据挖掘,认真处理过中文语料,写过输入法,知道中文处理的大概内容的又有几个。别以为上过大学,看了TAOCP就是专家。当然,我自己也不是专家,我也不敢说我全懂,不过我一眼就知道有些人简直什么都不懂。

为了避免口水,也为了不偏重技术让这篇文章不可读,我不想一一指出这些错误了,我只希望我们学习计算机的和搞技术的,了解到这一点:”出了问题,就是技术人员和PM的责任,和用户无关“,拿用户说事的互联网,是Web 0.5, 是时代的倒退,就算在单机软件时代我也没有看到过这样推卸责任的。

我是一个忠实的Google 粉丝,我每天使用Google各项产品的次数多达百次,包括搜索,Gmail Reader Blogspot Talk Map Earth Code …, 我也有很多好朋友在Google/谷歌工作,我对Google的映印象一直非常好, 但是我不希望有人用伪技术或者假装懂技术为谷歌的技术失误辩护。 技术失误也是失误,考虑不周也是失误,不要往算法和”相信群众”上推,哪个年轻的团队没有失误呢, Google 一开始不也被SEO 和作弊严重困扰么。关键是认识到经验的不足,迅速修正,对广大网民做出交代,而不是啥事情都往技术上推,说技术领先,算法 自动产生,网民给的数据就是这样,不能怪谷歌。 啥叫技术领先呢,做出网民满意的结果才叫技术领先,技术领先,比的是最后的结果效率,不是一两句忽悠人的概念。还有,不懂技术的人少假装懂技术忽悠人,别 以为自己有多了不起,不知道一年才读了几本书看了几段代码。我这篇的主要目的就是提醒大家注意某些伪装懂技术的人,伪技术装起来比没技术更可怕。好比科学打假,这个不行那个不行,人家是伪科学你是真科学,妈的 自己到底懂多少科学? 当然我也怕你们用同样的话说我,所以我先退一步摆个姿态,我也一样,我也没读多少书,看多少论文,不过上面的几个领域,我都称得上中等研究水平,所以有底 气说这些。我写在这里,希望大家自由转载,是不想让互联网成为被谷歌 PR后的粉饰太平的文章堆或者不懂装懂人的炫耀场。

回到主题:澄清一件事情,不是用伪技术的谣言去驱赶另一个谣言,不是用大家都不懂其实自己也不懂的东西再次侮辱网民的智商。

附技术片段:

月光的话:

我推测这个错误可能是这么产生的,就是在Google的自动机器学习过程中,主要学习的是一些西方文献以及其翻译结果,由于西方对于中国的评价大多都是负 面的,因此某些”不好的字眼”经常和”中国”一道出现,当出现的频率很高的时候,Google就根据以往的常识,将这个”不好的字眼”和”中国”进行了一 定关联,于是就出现了这种智能推测。当然,这个技术问题解决起来也不难,就是扩大Google翻译的机器学习资料库,从不同的环境多分析一些资料(比如也分析一下人民日报的信息),这样推测词义出现的偏差可能会小一些,结果也会更为”中立”一些。然而令人不解的是,某些怀有不可告人动机的人不去研究技术和算法上的问题,而专门去找一些奇怪的缺陷错误,并将这种纯粹的技术问题上升到政治层面。

我的评语:月光同学可能不知道圣经语料库和Google联合国语料库这回事,月光同学了解基本的HMM模型,但是没了解语料库是怎么搜集的。的确要研究算法上的问题,不过不了解算法的人不能把问题全部推到算法上,这个肯定是技术失误而不是算法,退一步讲,如果算法出这个错,那就是模型有问题。

庄表伟的话:

我不知道这个方军什么来头,只怕是毫不懂法,及不懂算法,也不懂法律。更不要说美国的法律。


我的评语:算法根本不值钱,如果算法值钱的话,要这么多老程序员干什么。就算你懂算法,做了这个东西,难道没考虑过滤黄色内容不是失误么。这里的确是谷歌的技术失误,美国法律明文禁止暴露性内容,如果Google在美国没有做技术处理,老早就被抗议电话打爆了。


晨钟暮鼓的话:

因为Google输入法与搜狗输入法都是充分的利用网络词汇作为词库,而取词都是来自于网络以及用户进行搜索的关键词,因此在词库上具有相似性是很正常的一件事。 再说词汇的注音错误的问题,其实这个更容易反驳。搜狗输入法也曾经有过这些错误的注音错误,只是现在人工改正了过来。这说明这些错误是因为通过网 络词库,网络取词而造成的,而同样的,Google输入法也是网络取词,因此出现同样的错误也是很正常的。错就错在Google对竞争对手的关注太少,没 有汲取对手的教训,而被对手抓住把柄。基于以上几点,关于Google输入法盗用搜狗输入法词库的问题无非是搜狗在面临强大对手时的无赖之举,而Google输入法不要被这些东西纠缠不清,踏踏实实地加紧开发进度,解决目前已发现的bug,因为你离我想象中的还差很多。

我的评语:相似的可以的,但是问题不是相似,是重合,除去你的那一个例子,其他搜狗开发人员在谷歌搜索提示中都没有,也没有正确结果。相反, 网络词库只会告诉你有这些词,频率是多少,而不是告诉你这个词读什么, 因为汉字的多音性,词的读音必须要手工标记,而实际上谷歌网络搜索建议的结果是正确,fenggong 等在Google搜索框中都是正确的结果, 为什么到输入法的时候词频就错了呢,如果采用网络词库,这不是前后矛盾么。 这个地方我怀疑作者并不不了解输入法的实现技术。

5 Comments »

  1. aaa said,

    April 5, 2007 @ 10:40 am

    好牛啊,这都可以写?你了解多少呢?我怕你也有不了解的地方,这样说会被拍死

  2. Eric said,

    April 5, 2007 @ 11:18 am

    的确我有不了解的地方,我说的是不要不懂装懂。出了这个领域我也不敢说我全懂,但是我可以肯定的说,拿所谓的技术为技术失误辩护是站不住脚的。懂这些的高手很多,我不敢说我懂多少,但是有些人明显是不懂装懂。

  3. Anonymous said,

    April 5, 2007 @ 10:59 pm

    就怕流氓有文化说的就是这个啊。

  4. Solrex Yang said,

    April 6, 2007 @ 6:42 am

    鸟多了,林子才热闹啊
    也可以从另一个角度看
    不懂装懂的人忽悠够了
    自然会有本来很懂却本来很懒的人出来回击
    这样大家才能更清楚嘛

  5. » 眼前有景道不得, 崔颢题诗在上头 | 4G Spaces and Web 2.3 said,

    June 3, 2008 @ 8:31 pm

    [...]  一年前我在写别拿技术忽悠人之后, 就想专门写一篇文章, 讲讲中文输入法的实现方法.   后来有人批评小企鹅的代码风格不好, 我还专门看了小企鹅的源代码, 写了不该指责别人代码风格的10个原因. 再后来因为自己的G4老苹果上使用 FIT 输入法速度比较慢,  为了给个别地方做优化, 又细看了 FIT 的源代码,  基本上把 FIT 的架构也弄得很清楚了.  所以, 一直想专门写一篇文章, 讲讲输入法里面的前缀树, 统计语言模型等好玩的有趣的东西. 可是一直拖着, 也比较懒, 就从来没下决心动笔. 我喜欢研究中文输入法的原因也很好理解. 这个东西麻雀虽小, 五脏俱全. 从发展的过程来看, 以前的中文输入法就是字母到汉字的映射, 一点都不能错. 比如五笔型. 后来慢慢的以词为单位的输入, 很多用拼音的人速度开始超过用五笔型的. 再慢慢的, 微软出了微软拼音, 整句输入开始占上风. 打整个句子非常顺畅.  所有的这些, 其实都是底下数学模型的发展和词库数据的不断完备带来的, 虽然一般的用户并不觉察. 现在中文输入法趋势都是基于机器学习中的统计语言模型.  这些一代一代的输入法的变迁, 正好反映了从简单机械的程序到机器学习的应用的变迁.  实现一个输入法, 要比实现一个语音识别简单多了, 但是模型却大差不离.   输入法里几行编程的技巧, 几个简单的模型,  或者小小的数据结构的优化, 都能让效果立刻体现,  因此输入法是一个非常好的学习实验编程和机器学习理论的试验田. [...]

RSS feed for comments on this post · TrackBack URI

Leave a Comment