Archive for June, 2007

读者来信

读者来信:

我 是一个云南的高中毕业生,现在常用 Archlinux, WMII, Emacs, Opera 等等,以前也做过网页写过blog,高三后几乎没有了…两三个星期前发现你的 blog,回溯了几页读了读,也订着 RSS.. 这几天高考分数出来了,正在考虑报志愿, 我的分数可以上云大比较冷的专业。下面的问题,烦请花几分钟简要回答一下.

我既喜欢电脑又喜欢数学,大概数学稍多一点,对算法方面可能更感兴趣,只是对大学的课程没有更多的了解,自己也拿不准。像我这样的情况,是学数学与应用数学好,还是学信息与计算科学好呢?我想因为你本科读的是信息与计算科学,或许可以听听你的意见。

另外,如果我计划四年后的首要目标是留美,你觉得我在大学中最需要放注意力的核心问题的是哪些呢?

之前说到关于牛不牛的问题。我觉得像我们这样有那么一点聪明的小孩,总有一天会认识到这世界上不止有很多很多和自己一样聪明的人──其中很多还比自己努力得多,更严重的是似乎有一些人是比自己聪明得多,好像不怎么努力也能比自己更好更强。面对这种情况,很少有人会不焦虑、浮躁的吧。那要怎么办呢?

一个比较正面的想法是,不管别人如何,我应该脚踏实地地做我该做的事情,做有意义的事情,而事情是否有意义也是取决于你自己。踏踏实实地学习和创造,这应该是最有效的心灵药剂。这些道理从古至今都在以不同面貌持续出现,只是如果不亲身去体验一些事情,恐怕是没有人会明智或愚蠢到不加思索地接受的。并且,不知是幸或不幸,即使是深刻体验的事情,真有过令自己感觉醍醐灌顶的道理,我们的大脑也倾向于将它遗忘,这种遗忘不是说无法回忆,而是说不在状态。大脑又重新被疑惑、焦虑、恐惧占据而难以自拔。不过好在我们还能认识到这种不足,可以尽量地去避免它。

大学期间,我没有谈恋爱的打算(除非无意中撞上真正合适的,但那概率恐怕是小到可以不计的吧),一来觉得确实有太多重要性多过风月的事情,二来觉得现在对自己都认识得不甚清楚,又加上看了一些你推荐的blog,觉得真没必要。baosheng 问 Can chasing girls change the world?以此作为不关心的理由,我也是赞同一大半的。另外不赞同的一小半是:Certainly you can’t change the world
by chasing a girl, but it may change your whole own world. 一味地想要改变外在世界,也不一定就是一件好事。或许是因为性格使然,也可能是还不够”成熟”,我认为,至少,我们也应该放一些注意力在自己的──或者说自我的世界上。

就写到这里吧,如果这封信让你想到些什么,比如该给一个大学新生一些怎样的建议,我觉得除了给我回信,更好的方法是可以写一篇
blog,也好有更多和我一样的人看到,更多和你一样的人加入讨论、提出建议。而我的信,如果愿意的话,也可以自由地全文或部分引用。

真的很感谢这个读者的来信, 其实我高中毕业的迷茫程度更加严重, 而心智程度程度, 却未必比得上这位读者. 其实我真的想多写写自己的一些经验体会, 不过一来精力极其有限, 而来不想把自己搞成邮箱里的灯光或者开复学生网, 一无实力, 二无说服力. 所以婉拒了很多次这种要求, 至今还欠一个师弟一封回信, 正好借这个机会一并写了.

先回答细节问题, 信息与计算科学就是计算数学, 应用数学就是基础数学. 两者如果设立在同一个系下, 专业课可以互相蹭着听. 信息与计算科学与计算机专业差别较大, 除非自学, 否则毕业出来并不占优势. 如果想出国走计算机方向, 可选前者, 如果出国走其他方向, 比如数学, 物理, 可选后者. 实际上都在数学系, 只要主观能动, 差别不算大, 况且这两个专业的设置在我看来就是互补的, 人各取所需的学更加好.

再说大学计划问题, 这个题目太大, 实在难以展开. 立好精英意识, 少耽于浪费时间的无聊事情, 多交朋友, 多泡图书馆, 大约也就是我这个书虫的一点浅薄的启发了. 我的”相关信息”中也有不少材料, 不想重复太多了, 如果有用, 大家可以看看. 想出国, 核心就是英语和专业, 除此, 没什么捷径.
浮躁的时候, 练练字, 看看星空, 这是我的看法. 至于要不要另一半, 我觉得因人而异. 我大学四年有一个很好的女友, 给我鼓励和帮助, 即使现在结局有点尴尬, 我还是觉得如果大学四年没有她, 我还不一定是现在的样子. 我在改变外部世界的时候, 也改变了自己, 我觉得这个经历也算是人生的一笔宝贵财富吧.

我自己其实在很多的Blog 文章中, 说的也够多了. 其实很多仅仅是很粗浅的见识, 而仅是身上罩着一点没用的光环和头衔而显得意见很不错而已. 我的朋友和同学中也有很多很优秀的, 多阅读他们的Blog, 也能收益良多. 另外, 我也邀请大家一起来讨论, 来分享. 我邮箱里没灯光, 也不想弄个学生网, 如果有点东西能让小我四岁五岁的渴望上进的人看到, 我也很满足了, 因为我觉得, 我是写给四年五年前的自己.

Comments (11)

“科学”证明的科学性和作用

方舟子先生说柴静记者是文科傻妞, 本来就是一时讽刺之语. 想不到新语丝的网人评一篇接一篇非要证明方先生不是讽刺之语, 而是”科学的”得到文科傻妞这个结论的. 这样的论证科学么? 柴记者是文科出生, 因为是女性, 也可算妞, 于是新语丝的同学们只需要拼命证明人家傻. 其实证明一个人傻需要劳师动众么, 只要给人家寄一份智商测试题, 结果就昭然了. 可问题就在这里, 柴记者既然自己不做测试题, 外人想去遥控测智商, 我看这个事情是无论如何也测不了的. 从逻辑上说, 要想测一个人的智商, 难度和给小狗小猫测智商差不多–很难. 假如凭小狗小猫叫得好不好听, 顺不顺自己的意思, 以及叫声是否节约能源 符合某种科学规律来测智商, 似乎不大科学. 据我观察, 连证明别人是傻的公理体系还没建立呢, 因此除了说不证自明, 好像也没什么太好的办法科学的证明别人傻, 智商低. 要是装模作样用理科生的方法来科学证明人家是文科傻妞, 我看说不通. 当然, 方舟子先生可以自由的宣称某个人是文科傻妞, 只是为啥众粉丝非要科学的证明这句话呢? 还是这句话本来就是一个漏洞, 只能以攻为守摆出科学大旗来保护?

再说林妹妹被中医害死了这个事情. 其实这句话本来就是一个强调性质的论断. 可是总有一帮人, 非要科学的证明这句话有科学依据, 还列出abcde. 我们乡下的老太太都知道林妹妹是被癌症害死的. 中医最多是间接伤害. 这些科学的理科生们偏偏忘了逻辑. 其实如果想证明林妹妹就是中医害死的, 至少要证明以下两点: 1. (充分性) 在多个双盲测试中, 排除其他影响, 中医疗法杀死了患者, 而没有使用中医疗法对照组的另一个患病林妹妹乳腺癌却没死. 而且临床上显著表明, 只要中医一出, 电光闪过, 绝大多数林妹妹都被杀了, 而对照组林妹妹存活率较高; 这才能说明中医能导致林妹妹死亡. 2. (必要性) 在同时使用各种不同疗法的对照中, 只有中医杀了林妹妹. 也就是说, 林妹妹不可能被其他原因害死, , 没他, 就算深度癌细胞扩散天打雷劈都杀不死林妹妹, 她就是中医害死的. 这样, 用正反两个方面才能证明中医是杀害林妹妹的充分必要条件. 问题是, 这个能证明么?

还有证明老罗是傻比的, 要是老罗真的被证明成傻比, 相信科学的老罗估计得很彪悍的去治病了, 牛博网也关门大吉了. 当然老罗嘴比我利索多了, 这些粉丝的科学民主大论战没能得逞, 最终老罗也没有因为被证明是傻比而去医院看病; 今年柴静也没有辞职高考上理科, 这就表明, 就算你”科学的”证明了别人是傻比, 还是没用.

总有人拿鸡毛当令箭, 拿教主的话一句当一万句. 这种无条件崇拜科学教主的爱科学, 根本不是科学精神. 不该证明的就不要证明, 就算教主, 也有正常说话情绪激动气急骂人的时候. 每句话都有科学依据, 都要粉丝去证明修补, 那干脆出科学语录好了. 中国人民好久没读语录了, 估计情结又来了.

Comments (6)

牛语录

1. 历史只会记住修改它的人,而忘却那些顺从它的. [Source]

2. 有人说,美国很好啊,对,美国很好,因为他在吸全世界的血. [Source ]

3. 辩证的思考…其实是三岁小儿游戏的二合一升级版….让人认为自己脑中控制世界终极真理, 从此思维止步不前. [Source]

4. 没有金刚钻,揽不了雌器活. [ Source]

5. 再丑的男生, 再矮的男生, 在钱-地位的衬托下,也变得性感. 再俊美的小白脸, 没有地位-钱, 也终会消散光芒. [Source]

6. 但男人, 有时候是靠肾上腺素和多巴氨聚集起来的动物, 那挫折后到达终点,登上顶峰的感觉是什么都替代不了的, 那才是美国所谓的”be a man” [ Source]

7. Many people think they are full of niubility, and like to play zhuangbility, which only reflect their shability. [Source] (三个 -ility 请用拼音理解)

8. 一块纯棉布料, 本来可以用来做最有创意的T恤, 可你非把它做成高档西装, 傻B才会埋单呢. [Source]

9. http://www.greatfirewallofchina.net/

10 . “要知临敌过招,那是生死系于一线的大事,全力相搏,尚恐不胜,哪里还有闲情逸致,讲究甚么钟王碑帖?” [ Source]

11. 海岩和海南香蕉的造谣者都没抓住,当然,中国的国情是,你不能对县长造谣,一造谣就要抓起来判刑,其他都可以,反正也没人管,连立案都不行. [Source]

12. 有人说我的文章是我父亲写的… 又有人说, 逼着你背出来再凭记忆写的. 总之就是我爸逼的. 碰上这样的人, 我只能说, 不是我爸逼的, 而是你妈逼的. [Source]

Comments (2)

I Love Linkin Park

Linkin Park 是我最喜欢的摇滚乐队, 最近的专辑叫Minutes To Midnight, 借用末日之钟(Doomsday Clock) 说明人类离核战争和灭亡到底还有多远. [如果你在祖国大陆打不开这个链接, 原因是伟大的长城墙为了保持广大人民思想的先进性, 把 wiki 和谐了]


听不懂英语也没有关系, 看看从巨石阵, 圣索非亚大教堂, 帕提农神庙 金字塔和佛教到达芬奇的图画, 这些对人和神的敬畏. 从文艺复兴到甘地, 林肯纪念堂 3K党这些对天赋人权的追求和践踏, 从二战 希特勒 墨索里尼到奥斯维辛集中营这些对人类的自我残杀. 从60年代冷战, 核威胁, 到卡斯特罗, 民权运动这些迷惘中的反思, 从斯大林, 到我朝先祖, 到德兰修女, 这些对人类的或拯救或迫害; 从工业时代的全球变暖 污染 滥杀海洋生物 到生物的灭绝, 从中东战争 萨达姆绞死, 到中东的儿童的仇恨和欠发达国家儿童的饥饿; 从世界老大美国被恐怖袭击到年轻人只能吸毒放纵. 这就是我们的文明, 我们的世界…Linkin Park 不光能唱出潮流, 唱出一堆不计其数的粉丝, 唱出唱片销量第一, 还能还唱出了人类心底的声音. 我爱Linkin Park.PS: 听其歌适合编程序或者敲键盘, 工作效率超级高, 而且充满激情, 本人对此绝对切身体会.

Comments (8)

近况汇报

最近很忙, 大致忙以下几件事情.

A: 研究上, 想一个巨难的问题, 编一个巨大的程序,  写一个巨长的论文

B: 生活上, 准备搬家到新地方

C: 课外学习上.

把Lucene 源码看了个底朝天, 实测了好多组件的性能;

研究了一下中文分词, 基本上最近可以做个不那么傻的基于 CRF 或者最大熵的, 准备开源出来给大家用;

派出 Nutch 爬虫抓了某些整站, 抓坏本人硬盘一只, 准备败多台机器+SCSI 硬盘(又缺钱了);

和一个同学学着Django 框架; 推广好几个人转投 Linux 怀抱, 兼写一些开源的文档.

所以, 很忙, 准备 Blog 降低更新频率.

Comments (4)

“我不会”与“我要去学” [zz]

作 者: baosheng
标 题: “我不会”与“我要去学”
时 间: Fri Jun 15 11:52:31 2007
原文地址

遇到一个新的东西(比如一个新的算法,或者一个新的软件),一种人说“我不会”,然后就跑开了,另外一种人说“我要去学”

于是大学四年这样的过程周而复始,repeat了多少次之后,这两种人的差距就拉大了。后一种人往往实现了自己满意的人生目标(想加入的公司,想就读的大学, etc.) ,而前一种人则开始抱怨诸如“出国形势不好是因为xx系烂”或者“自己被学校耍了”。

比如很多人号称要学linux,当你真的把一个运行linux的计算机放到她面前的时候,她说什么不会用。而另外一种人听说”Linux has many exciting features”,于是自己就去学。四年后,这两种人已经没有共同的语言了。

不过中国的大学里面说“我不会”的人是远多于说“我要去学”的人,所以大部分的大学生是除了老师上课讲的那些东西,就其他什么都不知道了。所以我们的大学只是分为白天的宿舍和晚上的宿舍罢了。

无数的人坐在教室里面听临毕业的学长介绍经验,但是他们的心还是停留在“我不会”的阶段,空想如何成为学长那样的牛人,却又没有“我要去学”的实际行动。

于是不会TeX的人,终究还是不会TeX,虽然他和数模的队友一起知道TeX这个东东;不会Linux的人终究还是不会Linux,虽然他和舍友一起听学长介绍Linux;没做过project的人终究还是两手空空,虽然他和同学一起去找老师号称要进实验室;没发过paper的人还是不知道简历上写什么,虽然他总想着要看多少书;没玩过ARM的同学终究还是没有看到Qtopia如何在开发板上跑起来,虽然他和师兄一起去买ARM开发板。

四年,人的差距就是这样拉开。后面的岁月,差距会继续拉大。Palo Alto的天才在改变着世界,而你也许只有在别人提到新的奇迹的时候说,“我和xx是同学”,但是你却记不得和他的往事,也许当你在追mm的时候,他正在图书馆看书。

Comments (8)

Google 如此找人, 让我害怕

两个月前收 到Google 一个猎头的邀请我去谈谈的信后, 今天又收到另一个 Google 猎头的 Hello from Google. 其实只是被猎头找找聊聊, 这种事情也没啥值得拿出来炫耀, 只是我真的很奇怪, 不知道他们这些人是怎么用人肉搜索引擎发现我的邮箱的. 除了我的Blog 和几个个人主页, 我在网上从没留过邮箱. 我的Blog 和个人主页 PageRank 都是0, 怎么会被人发现呢?

面对 Google 猎头这些”套词”信件, 我真的对眼前这个巨头感到害怕起来.

1. 可以想象, 每年无数优秀的人会被这样套词. 也有很多的人就此选择和Google面试.

2. Google 是世界上最受欢迎的雇主, 拿了 offer 去的比例算是非常非常高的.

3. 听我在Google 的朋友说, Google 每个人的员工号都是唯一的, 就算实习生以后走了, 员工号也就空在那里. 据说李开复的员工号已经是10000+了. 我曾经打算要是博士毕业加盟Google, 指不定能搞到 32768 (2^15), 但据朋友说此号码已经分配了. 估计等到我毕业的时候, 65536 (2^16) 也没有了.

4. 据说如果 Google 猎头招到优秀的人, 是有奖励的. 这也是猎头不停发邮件的原因. 可问题是再这样无序的满地招人, 到处发信(我个人的感觉), 这个公司就不是求贤若渴, 而是圈人运动了. 如果一个公司的架构不能适应这样的招人速度, 越多的牛人进来, 问题只会越尖锐.

5. 如果Google 架构很好, 可以养这么多牛人, 他们要是不造 Google 牌航天飞机, 把总部搬到火星, 或者造宇宙终极计算机, 还真对不起他们的智商和Google 赚的钱.

总之, 一方面, 我觉得要是真的这样到处发信招人, 即使是求贤若渴, 也绝对不是健康发展的 Google; 另一方面, 如果Google 真的这样健康发展, 几年后Google 是不是真的该造出什么终极的让其他互联网公司根本无力抗衡的东西出

来? 无论怎样, 说实话, 这样的Google, 让我害怕.

现在, 我只想做个普通的学生. 希望等我毕业的时候, Google 还是如日中天, 并且我能顺利加入这家伟大的有趣的公司. 至于我的员工号, 我希望是111111(十进制).

猎头: 我现在对我从事的项目非常感兴趣,我感觉到我正在做一些了不起的研究和应用; 而且,我必须先完成我博士学业。所以,我暂时不会加盟其他公司。如果将来加盟其他公司,我的第一选择是 Google.

Note to recruiters: Please don’t offer me a job now. I am quite proud of my current research and project. Additionally, I have to finish my Ph.D. study first.

Google will be my first choice in the future.

另: 哪位朋友想加盟Google, 我或许可以代为推荐, 我在Google 也有能帮助推荐的朋友. 可以坦率的说, 推荐的分量比自己投简历要重要得多.


有人说, 等我有了钱, 养一只狗取名叫古狗,养一只鸽子叫谷鸽. 本文和这句话一样, 纯属ZB, 请用自己智力判别.

Comments (10)

芝加哥一日行

昨天在芝加哥参加  ACNW Optimization. ACNW 是 Argonne National Laboratory, University of Chicago, Northwestern University, University of Wisconsin 的缩写. 就是由能源部阿岗国家实验室, 芝加哥大学, 西北大学和威斯康星大学(麦迪逊) 一起合搞的一个小型研讨会. 老板很照顾我, 带我去见见市面. 此行收获很大, 一一记下.

怎么去的暂且不表, 一个经验就是到机场大约25分钟, 安检最近大约要40分钟. 芝加哥市区到机场大约20分钟, 坐小火车需要50分钟. 下次如果坐飞机, 时间规划可以巧妙一点.

今年主要议题是Optimization and Machine Learning, Mixed Integer Nonlinear Programming. 先是 UTexas 的 Inderjit Dhillon 讲 Matrix Nearness Problem, 超级多的公式看不懂. 唯一感兴趣的就是他用一个比较好的框架处理了 Machine Learning 中的一堆问题, 很有启发. 然后是 IBM T.J. Watson 研究所的 Jon Lee. 这哥们是 IBM 离散优化问题的主管, 做的报告幻灯片搞笑无比. 讲的 MINLP 问题深入浅出, 后悔当时没带DV, 否则应该把过程记录下来, 好好学习技巧.

中午吃饭, 老板说要培养 network, 要善于结识别人. 所以后来也胆大了, 和 ANL, Wisconsin, 还有 UIUC 的几个学生和教授都说了几句话. 然后认识了一堆牛人. 这些牛人很有个性, 很有意思.

Jorge More 是ANL 的牛人, 开发 TAO 和 NEOS (开放的优化问题解题服务器)的人. 看上去超级随意, 而且还和西北大学开玩笑, 说因为 cookie 是西北赞助的原因, 就不说西北大学坏话了. Svan Leyffer 也是ANL的牛人, 是老板的好朋友, 他的一个 FilMINT solver 老板说是世界上最好的解 MINLP 的了. 这哥们也超级爱开玩笑. Jorge Nocedal 是西北 EECS 和管理的双面教授, 是师弟李刚同学的未来老板. 反应极快, 问问题一针见血, 好几个做演示的人都被他一问就知道自己想法有问题了. 不过这个牛人挺丢三落四的, 组织的会议要收注册费, 不过他忘带收据了, 秘书也找不着了, 只要打白条 :).  Michael Ferris 是威斯康星 CS 和 工业系统工程双面教授, 也是超级聪明, 人和主页上图片一样, 似乎N多年都是一样年轻. Robert Fourer 是西北的教授, 当年在贝尔实验室搞出了 AMPL (另两个开发者是 David M. Gay 和 Brian W. Kernighan), 一下子成了我们的行业标准. 他是个标准的 geek, 说话比较模糊嘟囔, 用一个超级小的装着Linux的计算机, 背一个大破包, 超级酷.

Optimization 问题是一项跨学科的事情, 昨天遇到很多超级多的工业工程的, 管理的, 计算机的, 系统工程的, 统计的, 当然还有数学的, 感觉这个行业很有应用, 我要好好学习, 认真解决点有用的问题.

Comments (6)

应当有点精英意识

和朋友打电话, 不知道怎么说到了精英意识. 而我, 这几天, 又目击了某个身边朋友的一次”黑鹰坠落”.

其实我有些浅陋的人生体会一直想对有些师弟师妹和朋友说: “我们应当有一点精英意识“. 大学再怎么扩招, 我们周围的同学都至少是百里挑一的, 我们必须在头脑中种下这个理念, 并且反过来要求自己百里挑一. 精英意识不是站在高位去鄙 视他人, 是要高标准要求自己. 我倒不是说追求圣人般清心寡欲或超人般凡事得第一的那种高标准, 而是说尽量不要浪费时间在无聊的事情上, 不要在这个浮躁, 虚拟的世界里放纵自己的欲望. 我在南大四年, 一届一届的无数经验告诉我, 凡是游戏打得昏天黑地的, 最后人生都昏天黑地; 我们这 个时代, 可以浪费时间的玩物, 可以使人堕落的诱惑, 都实在太多了. 玩物可以怡情, 丧志就让关心你的人痛心了.

学习和生活基本都是相通的, 基本上如果没有一种责任, 道德和积极的生活态度, 学习基本上也弄不好. 生活上该怎样, 我自己也组织不好语言, 总之, 我觉得积极健康而负责任的生活方式是好的, 值得追求的.

中 国有句话叫 “尔曹身与名俱灭,不废江河万古流”. 昆德拉也有一句意思相近的话叫做”人类一思考,上帝就发笑”. 是的, 个人相比于这个广袤的宇宙太渺小了,无论怎样的成功或者失败, 无论个人怎样的出色或者沉沦, 其实都是渺小的. 即使如此, 作为一个个体的人, 还是要立志立常志,做人做大人; 金钱、权力和高人一等的优越感只能塑造一 点可怜的傲慢, 只有良好的社会责任感, 高水平的人生追求和敢于冒险敢于挑战的精神, 以及通过自身努力赢得的骄人的成就, 才能赢得别人的尊敬和尊重. (放心, 我们都是普通人, 我决不是在传教, 而是作为一个理想主义者一样, 在探索我的人生价值. 其实我在说这些话的时候也在脸红.)

我 们都是受中国文化影响深重的人. 从小就知道别人夸奖的时候, 说一声: 我不行. 要隐到人群中去做一个中庸的普通人. 不过受了西方文化的影响后, 我倒觉得, 就是要有点精英的意识, 如果哪天别人夸奖你的时候, 能够体面地有底气有自信地说一声”谢谢”, 那该是人生多么自豪和美好的时刻啊!

此文送给我那个暂时不得志但是以后一定很优秀的朋友, 以及我自己. 我以后的人生旅途, 未必能如现在一样把这个问题想得这么透彻而积极.

Comments (13)

拼写检查器的一点注记

拼写检查这个东西, 其实就是求文本集合与词典集合的差集. 因此, 使用一点简单的命令行技巧, 就可以发现拼写错误.

可是实际情况不这么简单, 因为面对的可能不仅仅是纯文本, 比如我在 Linux 下, 最需要拼写检查的是我的网页和我的论文, 也就是 HTML 文件 和 TeX 文件. 不过, Linux 下这些工具早就有了. Aspell 就是这样一个强大的工具.

Word 和其他的工具都可以执行拼写检查, 不过Gmail 的简单拼写检查实在是方便无比, 强烈推荐大家在需要拼写检查的时候使用.

说到Google, 让我们看看 AI 大牛, Google 研究主任 Peter Norvig 怎样用 20 行 Python 代码写一个基于概率模型的拼写检查器. 我利用闲暇时间把这篇文章翻译成了中文 [这里].

如果在内存受限系统上开发, 比如嵌入式系统上, Peter Norvig 的方法就不太可行了. 因为连词典存下去都够呛. 这时候, 比较好的方法肯定是用 hash 表. 不过单一 hash 表错误率比较高, 我们可以使用 Bloom Filter [wiki], 这里提供了一个简单的实现. 这个实现非常有启发性, 因为他考虑了词的变形, 比如 -es -ing 后缀. Peter Norvig 虽然在文中提到这个问题, 却没有解决这个问题, 有兴趣的读者可以尝试自己重写一下 Peter Norvig 的代码. 我把 Bloom Filter 实现拼写检查的代码重新写了注释在此.

补几句废话:

1. Python 语言简洁迷人, 这20行代码说明了一切 :)

2. 时间都是挤出来的, Peter Norvig 这篇文章是我陆陆续续每天睡觉前敲几行字翻译出来的. 翻译完了觉得, 人贵有恒.

3. 写这篇完全出于好玩, 我既不是搞自然语言的专家, 也不是Python 高手. 研究方向也和这些不搭边. 因此如果有见识浅陋的地方, 或者遗漏了一些, 大家多交流.

Comments (2)

« Previous entries