Apr 4, 2007 - 别拿技术忽悠人

Comments

本文自由转载(CC 署名 非商业)。作者:美国华盛顿大学计算机科学系博士生Eric You XU, 研究方向是人工智能。

附:这是我第一次写文章拿出头衔,不是吓人,是为了避免人以为我拿技术忽悠人。我是有点不爽写这篇文章的,言辞上可能激烈了点,本文对事不对人。

每次谷歌出了什么问题,总有这样的句式出来:”这个这个问题嘛,技术上是这样这样的,你们不懂技术,来讲谷歌的坏话,不是Baidu的间谍就是XX的狗腿,要不就是愤青! “。 比如说,上次出现中国翻译成不好的词事件,月光出来辟谣了说这个么,是不好的词和中国的概率关联大了,所以翻译成不好的词了。 上次 方军竖中指,又有人说这个么,就是按照搜索频率排序的,你们不懂技术和算法,所以不能怪谷歌。 这次 谷歌的输入法不幸和搜狗的一样而更不幸的是和自家搜索提示给的不一样的时候,晨钟暮鼓又出来辟谣了, 说这个么,很显然谷歌没抄,网民搜出的网络词库当然是是一样的阿。 好吧,你们总是用技术来说理,你们总是说,谷歌的技术是没有问题的,问题出在群众的智慧上,谁让群众都去搜黄色的,谁让群众都去搜搜狗开发人员名字的,谁让群众偏要把中国和不好的词联系起来的。一个个出来讲话的好像都是研究计算机方向的教授,元老,技术领袖。 网民就是被你们教训的,愤青就是被你的鄙视的,没文化就是被你们教育的。我在这里表明一下我强烈的不赞同态度。我认为, 澄清一件事情,不是用伪技术的谣言去驱赶另一个谣言,不是用大家都不懂其实自己也不懂的东西再次侮辱网民的智商。

我们说,技术不是一切,任何做技术的都要考虑到实际,经验非常重要,这就是为什么老程序员和新程序员写出的程序不一样,为什么人月神话讲优秀的程序员和一般人效率差十倍。我们首先要承认,谷歌的团队还很新,的确有考虑不到的地方,谷歌应当通过这些事情调整自己的团队,而不是把个人技术失误推到群众头上,这个是技术人员第一要务。 我在谷歌有几个好朋友,在Google总部也有,我问他们到底出现这些失误的时候怎么办,他们无一例外的都说是技术人员考虑不周, PM管理不严,我倒没看到他们把责任推到网民头上的。现在反而现在出来帮谷歌辟谣的人倒是技术领袖了,非要把技术上的事情推到用户上。 其实本来我想顺着说几句狂妄的话一一指出这些”懂技术的人”技术上的荒谬,不过我想想没王三表的文采就不要学老罗的骂街,况且理应对事不对人。我就想问,你们辟谣的各位高手中,懂机器翻译和自然语言处理的有几个,懂输入法的有几个,懂关键词提取和过滤的又有几个,包括前几天一个朋友和另一个朋友争论的时候(名字我隐去),一个人非要说趋势的算法是那样那样,不是这样这样,那么懂Google趋势是按照什么近似算法来提取日志的又有几个? 认真在技术上粉Google, 看过什么叫BigTable, 知道什么是MapReduce, 知道GFS, 会自己搭机群,了解数据挖掘,认真处理过中文语料,写过输入法,知道中文处理的大概内容的又有几个。别以为上过大学,看了TAOCP就是专家。当然,我自己也不是专家,我也不敢说我全懂,不过我一眼就知道有些人简直什么都不懂。

为了避免口水,也为了不偏重技术让这篇文章不可读,我不想一一指出这些错误了,我只希望我们学习计算机的和搞技术的,了解到这一点:”出了问题,就是技术人员和PM的责任,和用户无关“,拿用户说事的互联网,是Web 0.5, 是时代的倒退,就算在单机软件时代我也没有看到过这样推卸责任的。

我是一个忠实的Google 粉丝,我每天使用Google各项产品的次数多达百次,包括搜索,Gmail Reader Blogspot Talk Map Earth Code …, 我也有很多好朋友在Google/谷歌工作,我对Google的映印象一直非常好, 但是我不希望有人用伪技术或者假装懂技术为谷歌的技术失误辩护。 技术失误也是失误,考虑不周也是失误,不要往算法和”相信群众”上推,哪个年轻的团队没有失误呢, Google 一开始不也被SEO 和作弊严重困扰么。关键是认识到经验的不足,迅速修正,对广大网民做出交代,而不是啥事情都往技术上推,说技术领先,算法 自动产生,网民给的数据就是这样,不能怪谷歌。 啥叫技术领先呢,做出网民满意的结果才叫技术领先,技术领先,比的是最后的结果效率,不是一两句忽悠人的概念。还有,不懂技术的人少假装懂技术忽悠人,别 以为自己有多了不起,不知道一年才读了几本书看了几段代码。我这篇的主要目的就是提醒大家注意某些伪装懂技术的人,伪技术装起来比没技术更可怕。好比科学打假,这个不行那个不行,人家是伪科学你是真科学,妈的 自己到底懂多少科学? 当然我也怕你们用同样的话说我,所以我先退一步摆个姿态,我也一样,我也没读多少书,看多少论文,不过上面的几个领域,我都称得上中等研究水平,所以有底 气说这些。我写在这里,希望大家自由转载,是不想让互联网成为被谷歌 PR后的粉饰太平的文章堆或者不懂装懂人的炫耀场。

回到主题:澄清一件事情,不是用伪技术的谣言去驱赶另一个谣言,不是用大家都不懂其实自己也不懂的东西再次侮辱网民的智商。

附技术片段:

月光的话:

我推测这个错误可能是这么产生的,就是在Google的自动机器学习过程中,主要学习的是一些西方文献以及其翻译结果,由于西方对于中国的评价大多都是负 面的,因此某些”不好的字眼”经常和”中国”一道出现,当出现的频率很高的时候,Google就根据以往的常识,将这个”不好的字眼”和”中国”进行了一 定关联,于是就出现了这种智能推测。当然,这个技术问题解决起来也不难,就是扩大Google翻译的机器学习资料库,从不同的环境多分析一些资料(比如也分析一下人民日报的信息),这样推测词义出现的偏差可能会小一些,结果也会更为”中立”一些。然而令人不解的是,某些怀有不可告人动机的人不去研究技术和算法上的问题,而专门去找一些奇怪的缺陷错误,并将这种纯粹的技术问题上升到政治层面。

我的评语:月光同学可能不知道圣经语料库和Google联合国语料库这回事,月光同学了解基本的HMM模型,但是没了解语料库是怎么搜集的。的确要研究算法上的问题,不过不了解算法的人不能把问题全部推到算法上,这个肯定是技术失误而不是算法,退一步讲,如果算法出这个错,那就是模型有问题。

庄表伟的话:

我不知道这个方军什么来头,只怕是毫不懂法,及不懂算法,也不懂法律。更不要说美国的法律。


我的评语:算法根本不值钱,如果算法值钱的话,要这么多老程序员干什么。就算你懂算法,做了这个东西,难道没考虑过滤黄色内容不是失误么。这里的确是谷歌的技术失误,美国法律明文禁止暴露性内容,如果Google在美国没有做技术处理,老早就被抗议电话打爆了。



晨钟暮鼓的话:

因为Google输入法与搜狗输入法都是充分的利用网络词汇作为词库,而取词都是来自于网络以及用户进行搜索的关键词,因此在词库上具有相似性是很正常的一件事。 再说词汇的注音错误的问题,其实这个更容易反驳。搜狗输入法也曾经有过这些错误的注音错误,只是现在人工改正了过来。这说明这些错误是因为通过网 络词库,网络取词而造成的,而同样的,Google输入法也是网络取词,因此出现同样的错误也是很正常的。错就错在Google对竞争对手的关注太少,没 有汲取对手的教训,而被对手抓住把柄。基于以上几点,关于Google输入法盗用搜狗输入法词库的问题无非是搜狗在面临强大对手时的无赖之举,而Google输入法不要被这些东西纠缠不清,踏踏实实地加紧开发进度,解决目前已发现的bug,因为你离我想象中的还差很多。

我的评语:相似的可以的,但是问题不是相似,是重合,除去你的那一个例子,其他搜狗开发人员在谷歌搜索提示中都没有,也没有正确结果。相反, 网络词库只会告诉你有这些词,频率是多少,而不是告诉你这个词读什么, 因为汉字的多音性,词的读音必须要手工标记,而实际上谷歌网络搜索建议的结果是正确,fenggong 等在Google搜索框中都是正确的结果, 为什么到输入法的时候词频就错了呢,如果采用网络词库,这不是前后矛盾么。 这个地方我怀疑作者并不不了解输入法的实现技术。

Apr 3, 2007 - Guest Blog-6 Story of ECHO–By Zhendong Zhao

Comments

作者介绍: 赵振东,南京邮电大学ECHO工作室创建者之一。他做硬件出身,自称是个GEEK,涉及过单片机,DSP,FPGA,ARM,Linux应用和内核,P2P流量识别,PSO和SVM。对于计算机,电子电路,算法研究都有兴趣。目前他的目标是能在象牙塔内,扩展知识面,领会优秀思想,并且在最后的几年内能在一个或者两个方向上做出深度研究. 能成为一个一流的工程师是他一直的梦想。他常说, 用PSO的观点来看,粒子初期的多样性会带来更好的全局优化结果,希望用尽一生能找到最适合的那个值,一生无悔. 闲暇时间他喜欢踢球, 运动和逗ARM玩, 你可以通过 zhaozhendong AT gmail.com 联系他.

我是通过鲍盛(Forrest) 认识徐宥(Eric) 的。因为听Forrest说,Eric是学数学的, 但是会用AVR的单片机, 顿觉得此人不简单. 去年夏天,Eric在我们ECHO工作室呆了一段时间,关系很是融洽,后来他去了美国,俺们却依然平静的生活。直到大约三、四个月以前,Eric让我给写篇客座BLOG,我欣然同意。只是面临期末大考,不敢懈怠,因此此文也拖到今天,实在抱歉.

我是工科出身,几近疯狂的喜欢电子和计算机。本科的生活过得很简单,天天呆在实验室,梦想着做出令自己和别人赞不绝口的东西。所以没有什么时间来想别的事情,好像我的生活只有那些CPU,电路板,芯片和计算机. 后来,很是”奇怪”的被保了研,就读于本校本系。但是,越来越多的各种失望慢慢让感到我崩溃–不光是对于学校的失望,还有对于读研、对读研同学精神状态的失望,而自己,仿佛是另类一样。

于是我崩溃了.

但是和一些人崩溃的方法不同,我使用了爆发的方式,但不是骂街,不是游行,更不是用武力。我重建了ECHO工作室。这个当年源自于学生科学爱好者协会的组织,却因为成员毕业了而自动解散。很幸运的是,我的倡议得到了数十位同样是技术爱好者的强烈响应。于是,一切都从零开始。我们几乎用尽了各种方法,向通信信息学院,自动化学院,学校团委等很多部门争取场地和资金。作为交换,我们肩 负着帮助他们锻炼学生的责任。我们慢慢有了房间,仪器,一些简单的设备,更重要的是有了十几颗年轻而热血澎湃的心。正是这些为了理想而异常努力的精神,对于真知的渴求和好奇心,还有乐于帮助别人的热心,让这个”车库型”的实验室有了些雏形。

我一直很喜欢以前读到过的故事:在UC- Berkley,学生总是工作到凌晨4、5点,然后睡到10点,起来吃饭。下午光着脚,在学校的操场上踢球,阳光撒下来,很舒服。这也许就是我们向往的生活–自由的做自己热爱的事情,虽然听起来有些疯狂,背后更多的是激情。我们很热衷的做一些事情(也是Forrest喜欢的事情):宣传开源思想,追求学术自由,追逐年轻梦想,虽然听上去很大话,但这就是我们ECHO的精神。我们没有办法去帮助每一个人,但是我们尝试去拯救那些有梦想,但是无法看到却极其渴望光明的人。我们几乎每周搞一个小型讲座和讨论会,分别由各个组的成员负责,同时会请一些牛人们来讲。我们现在基本分两个组:计算智能和算法部,嵌入式系统组。当然之下还有各个小的子方向。人不多,但是氛围还是很不错的。说到这里听上去仿佛在给ECHO做广告了,真诚的欢迎各位有空到我们这来作客,讨论些好玩的事情:)

最后说说我做这些事情的感想:

  1. 对于好的东西,除了追逐之外,还有种方法可以得到,那就是创造。

  2. 人世间最开心的事情莫过于和志同道合的朋友在一起奋斗。

  3. 尊重和帮助别人,即是尊重和帮助自己。

附: ECHO 简介:

ECHO(Electronic & Computer Hobby Organization),就像她的名字一样,是由电子与计算机的爱好者组成的。在这个组织里,会有不定期的技术讲座和讨论会。也会有些实际的Projects,需要大家合作完成。ECHOer 几乎都是Geek,有的热衷于算法,有的喜欢于硬件,有的则偏向于软件设计。总之,是充满激情的爱好者。所以ECHOer几乎是清一色的男人,而且几乎都是单身:)ECHOers 大都数都是有梦想和”野心”的,但是也不乏那种把对某种技术的热爱当作生命的人;ECHOers 也是友好的,非常乐于结交志同道合的朋友,和乐于和外人讨论或者合作。

ECHO 的BBS: http://bbs.njupt.edu.cn/cgi-bin/bbsdoc?board=Circuit

Apr 1, 2007 - 愚人节玩笑

Comments

昨天和大家开了个不大不小的玩笑,把签名改成:”I fall in love with that Korean girl, we will marry next month in China!” 并且煞有介事写了短篇小说一篇。到现在,累计被骗33人: Gtalk 上16,MSN上11,空间上2, 百合上4. 不管你有没有上当,感谢大家关心了, 希望这个善意的玩笑没让大家觉得不舒服,让大家笑笑乐乐我也很开心。

除了感谢一直关心我的朋友,我要特别感谢一些不熟悉的人,他们看到我的签名后,都发来恭喜。一个师弟说他也有个韩国女友,因此特意祝贺我。一个法国的教授发来一句:”tous mes voeux de bonheur et félicitations !” 和特意让他懂中文的儿子翻译的 “zhu ni hunyin kuai le, xu you!”(祝你婚姻快乐,徐宥). 很多仅仅是一面之缘的人和朋友都直接发信发消息祝贺。Spaces 中的微神和老冒先生也给了很诚挚的祝贺,不知道是不是UUZone 的那位,总之我很荣幸。 只有02几个和我比较熟的上来就说不可能,哈,还是你们了解我啊。无论怎样,各位相识不相识的朋友给我的祝贺我都收下了,感谢你们的祝福。等我真正那一天的时候,我一定会请你们参加的.

愚人节快乐,这篇不是骗人的 :)

Mar 31, 2007 - A big decision

Comments

人生重大决定!

今天下午我拿着我的机器人在楼下玩,Susan牵着她的小狗和我不期而遇。(Susan是我常说的韩国MM的名字,她会说中文). 我们常常一起在图书馆的咖啡厅聊天,常常出去玩。 今天她有点不一样,我也说不清楚到底哪里。她说,时间还早,我们去公园走走吧。我把机器人放下,等它径直带着我们和她的小狗,慢慢走在公园的梨花小路上。

Susan问我,你会回中国么,我说会。她又问,你喜欢韩国的文化么,我说喜欢,我喜欢韩国很多东西,比如你。她笑了,停下来,说,我知道你喜欢我,你想过结婚么。我说想过,不过都是想别人结婚的时候我该送什么,比如你结婚的时候。她又笑了,说,或许你不需要费这些心思去想,或许你知道什么最合适的礼物。 我理解了,立刻暴力掰下机器人上的一个环扣,迅速扣上她纤细的无名指。失去环扣的机器人开始原地转动,小狗紧张的看着它,我紧张的看着她,她笑笑,把我笨拙扣上的红色环扣调整了一下,看来任凭怎么掰都取不下来了。

我很幸福,在又一瓣梨花随风落下的一刻,我做了一个人生的重大决定,下个月,拿着那个环扣和环扣连着的柔荑,去教堂!

请大家记住这个幸福的日子:中国时间2007年4月1日

Mar 28, 2007 - LEGO 探路者

Comments

上次给大家秀了一把我的LEGO BMW, 这次再秀一下我的”探路者” LEGO 机器人 (根据一本书上的模型搭建的)

我是探路者:

p054.jpg

 

 

给个笑脸:

p055.jpg

报告,发现目标:

p056.jpg

现在这个机器人巨笨,只会看到物体向后退,转90度继续走。下次等全做好了发视频

我和 郝培强常常感慨,小孩小时候能玩到这些该是多么幸福(为此他已经面向社会诚招小侄了),其实我小时候也玩过LEGO砖块,不过砖块和这些还是不能比的。哪个小朋友愿意开发智力的,多来和我和培强交流啊。还有一个网站最近就要上线了,到时候喜欢LEGO的玩家可以常去转转(等正式发布了我给出链接)