我也写总结

Dec 20, 2006

其实每个学期也都要总结一下的,以前是写给自己,父母和女友,现在就写给大家了:)

(这次总结完全按照佳昱同学的模版展开)

匆匆的,四个月就从指间划过了;从上海浦东和家人分离的那一刻,我在想,以后就是我一个人了,无论是成功还是失败,痛苦还是快乐,要一个人面对所有的事情了。从一开始的好奇,到平淡;从学期开始的繁忙无措,到现在的规律生活;从前段时间心情糟透,到现在坦然面对很多事,这个半年成长了很多。 有点象刚到扬州中学的那个半年,也有点象刚入大学的那个半年,环境的变化让我变得更加坚强了。至于功过得失,先写下来,后来再评说吧。

于学业研究

这学期学业不错,估计A是无问题(其实大家都是这样)。研究方面进步很大,项目进展也很快,自己独立研究方向也看到一点苗头。我的宏伟读书计划进展不大,这学期读完9本书,比起本科还有差距,估计还是因为语言问题。 虽说很多人看不起读Ph.D.的,认为枯燥,不赚钱,我还是很有信心把这个博士读好的。我叔叔,在西门子工作的同事,还有我现在的导师都和我说过,没有有世界领先的研究的人以后工作必然有天花板。我现在对工作的认识还是停留在Google程序员级别,也就是凭聪明,钻研和对技术的狂热来工作。但我知道研究工作比技术工作更有挑战; 做出领先世界研究的张亚勤,李开复,包括唐俊,李彦宏,包括一些熟悉不熟悉的Bill Joy, Eric Schmidt, Scott McNealy,Google的两位创始人,他们都是拥有世界领先的研究成果然后投身工业界的。当然我拿这些牛人举例子绝不是说我也能这样,只是不断的提醒自己,这世界上还有比以前见到的更瑰丽的风光在更高的山峰上,值得去看看,哪怕我甚至都不知道那是什么样的风光。我不怕研究的枯燥,也不怕别人的嘲笑,而且还要保持微笑面对别人的嘲笑:)如果我当时留在北京上海,也许拿着不低的薪水,或许也有一帮朋友,腐败玩乐,估计会在北京买房,买车,结婚,然后一边想着普通人需要想的事情,一边舒服或者不怎么舒服的过完一生(我不是说留在北京上海的同学的选择不好,只是说我的性格不适合这样)。不过既然选择了出来,就是选择学业和研究的,就是选择耐得寂寞的。总的说,对这学期学业的进展可以打80分,下雪期继续努力。

于个人发展和人际关系

我不是什么太子党高干子弟,父母也不是有钱有势的一族,不属于美国人讲的 an accident of birth. 于个人发展上只有靠自己,靠其他人都是不可能的,我也从来没有指望过。而且在骨子里,我还佩服那些白手起家的人。可是我没有那种拿着一打牙刷就能推销赚钱的人的特殊才能,我只能用自己的才华和团队去取得成功。 因此,我所能做的,就是一方面提升自己的修养和层次,一方面交往更多志同道合的朋友。于个人,仍旧是不断修正自己过失;于朋友,是扩大自己的交往圈。这个分不好打,只觉得这学期变得更加坚强更加和人注意沟通了,于语言相信基本关已经过了,至少做报告聊天都不是问题,因此就给自己打75分吧。(我还是一个不够外向的人,朋友们也都知道,这个分高不起来)

于个人感情

其实这个本并不值得单独列出来,而且有些话说出来也不好。写在这里,是想让关心我的人放心。有句话叫做 “岂能尽如人意,但求无愧我心” ,我的态度就是这样,我自己无愧就很好了。至于处理方式,若是拖泥带水,永远会有问题想不通,永远对别人抱着既痛恨又期待的态度,永远破坏自己和他人以后的生活,永远不甘心或者老想站在道德高位鄙视别人。我和佳昱一样,直接采取手术刀式。或许经过寂寞浸泡过的男人都很果断,至少从我和佳昱身上体验出来的是这样。不过我倒没怎么麻烦朋友和家人,可能也是这事太特殊了 :) 如老魏所言,要耐得寂寞,享受寂寞。如果这点寂寞都承受不了,用北京话讲, 怂样,丫别丢人现眼了,尽装孙子,收拾收拾回家吧,你丫就他妈不是爷们儿。

我现在也颇为欣赏当时快刀乱麻的态度,本来想给自己打个85的,看了叶昕的FB小结和佳昱的Blog以后,决定还是给自己打个80好了,他们的生活态度才是我的标杆呢(叶同学又要说我和她互相吹捧,因此这次我特地让出沙发位置,并且打住 :)

除此外本学期无其他加分。因此,本学期个人总评B

=======其实我是一个GPL的分割线==================

此处引用几句朋友shengbao Blog中的话:

数年前,Steve Jobs问John Sculley,Do you want to sell sugar water for the rest of your life, or do you want to change the world?是的,我想改变世界。可是当我沉迷于很多事情的时候,我可曾考虑过这对改变世界有用吗?我需要一种征服的快感,一种作为战士的快感,一种改变世界的快感。所以当我以后浪费时间,为一些不可能的事情而徒劳的时候,不妨问自己一个问题: Can chasing girls change the world?


当年,Jobs拉Sculley入伙苹果,当年John Sculley是Pepsi可乐公司的总裁,Jobs就问了他这句很有煽动性的话:
你是想在你的余生卖糖水还是想改变这个世界 ,后来Sculley加盟苹果,成就了Macintosh, 成就了硅谷80年代最成功的公司,苹果公司。

身为一个Ph.D.我也没啥赚大钱做大官的宏伟蓝图,I want to change the world.


写字自恋一把

Dec 19, 2006

今天随机换了个桌面墙纸,正好是王羲之的兰亭。忍不住自己也手痒了。当然没有毛笔没有宣纸我写不了大字了,于是,我就马克笔为刀,白版为简,“”下 淡泊明志,宁静致远 八个篆字。这个,其中“远”我不会写,通过Google得到…

自恋的人写这几个字,是有点讽刺啊:)

不管了,自恋到底,贴上Blog.

既然出了个国学MM勾引孔子,俺们也在美国弘扬国学,把芙蓉JJ, 国学MM为代表的时代精神以国学为载体在异国他乡生根发芽,发扬光大。此举必将促进中美文化交流,使“我们古老的祖国像一个生气勃勃的自恋少女站在世界的面前”(此句修改自文化部部长孙家正原句,我把少年换成自恋少女)


什么叫做懂中文

Dec 17, 2006

读前提示:作者并不是搜索引擎和语言处理方面的专家,对自然语言和搜索引擎的理解仅限于读过的十几本书和五六篇论文,对于该领域的理解水平相当于普通计算机专业研究生。作者的观点可能带有主观看法。另外,本文不试图评价哪个更懂中文,只想告诉大家什么才是计算机领域所说的懂中文,免得简单的因为名字起得不好或者打错了字就说不懂中文,或者第一页是广告就说不懂中文,那样就有点好笑了。

先说几个标题, 都是关于懂中文的。 谷歌不太懂中文

百度真的比Google更懂中文么?, Google真的不懂中文? 雅虎比百度更懂中文 还有 百度,你只懂中文 ;作为普通的用户,不知道看到这些眼花缭乱的宣传会不会头晕。而且这些Blog文章,往往就是标题党,拿着一两个小点就开始发挥,而实际上有些并不是懂不懂中文的问题。因此,我在此写一个简要的介绍,告诉大家什么叫懂中文,免得以后看到类似的标题也高不清楚谁对谁错。

首先,人是评价技术的主观标准,如果一个中文搜索引擎给你的感觉是结果不好,无论是广告多了,排名靠后, 结果不相关, 还是分词不对,它就是不太懂中文,这个标准是肯定的。但是,这个标准并不是全面的客观的。 我想解释一下,对于搜索引擎,什么叫懂中文,我们用什么样的客观标准去评价”懂中文”.

要强调的是:搜索引擎定义的懂中文和自然语言处理定义的懂中文是不一样的

我们知道,中国人都懂中文(当然少数民族不说汉语的咱不讨论)。懂也就是说能理解中文的意思,不管是不是文盲。我们说某老外懂中文,是说他能理解中文的意思。同理,计算机懂不懂中文,关键是计算机能不能理解中文的意思。计算机自然语言处理的本质,是对句子或文章进行词法分析(哪几个汉字是一个词),句法分析(好比说 主谓宾),语义分析(句子是什么意思),最后把汉语变成一种中间语言,或者一种叫语义网络的东西。 人可以验证计算机生成的语义和我们想表达的语义是否一样,从而验证计算机是否懂中文。


而搜索引擎定义的懂中文,不是理解中文的意思,而是决定能否由中文关键字得到想要的结果。 搜索引擎通过抓取网页或其他资源,编制索引,而用户输入关键字,则可以取出匹配的结果。因此,搜索引擎的懂中文可以理解成这几个方面:

1. 能否正确抓取中文网页
这一点的是评价搜索引擎中文质量的一个标准,但是并不是评价懂不懂中文的好标准。
首先,如果是蜘蛛抓取的面不够广,我们可以说这个引擎最终质量不一定会高。但是不代表这个引擎不懂中文。比如一个人收藏了很多书签,每次从书签中返回一个结果给我。他就是一个智能但是搜索面很窄的引擎。当然,如果一个蜘蛛蠢到不能应对多种汉字编码,那么,的确可以说不懂中文。
2. 能否正确编制索引
这一点牵涉到两个方面,一个是分词,一个是索引,其中分词是评价一个搜索引擎懂不懂中文的很好标准。
什么叫分词呢,我们知道,英语单词与单词之间是有空格的,因此字母是字母,词是词。但是中文很不一样,有个笑话说:老师让小明用 如果造句,小明说,汽水不如果珍味道好。如果搜索引擎把这个句子断成这样,其结果的质量可想而知。这个例子当然和极端,但实际上搜索引擎不会分词的现象普遍存在,比如 live 搜索共和国家,第一条结果就把”
“分成一个词了。 yahoo第一条也不对。再看看Google 的第三条也不对。相比之下, baidu 分词完全正确,分成两个词。当然具体的结果相关性在这里我们先不讨论。分词,有时候也可以理解为 能否正确辨认用户输入关键字,在搜索网页时候结果可能受排名影响而不容易看出优劣,但在小结果集合中效果明显。比如 地图分词, 邮件搜索分词,站内搜索分词,这些结果如人饮水,冷暖自知,大家可以客观的评价。至于百度的广告: 我知道你不知道我知道你不知道我知道你不知道我知道你不知道,只是表示他有中文分词/句能力,并不一定表示百度真的能把这句话理解。(我认为这句话存在不可判决路径,连人也可以分出几种意思,计算机又怎么可能分对?)
第二是索引,现在的搜索引擎,在链接下面往往会有一些小的片断帮助你筛选信息。实际上,这些小片断的选择很重要。 Microsoft Research 就曾经做过一个研究, 根据这些小片断做聚类。 小片断的好坏实际上表现了搜索引擎对这个关键字的理解。我们 可以用八荣八耻做测试,看看哪个能在小片断中体现相关信息。但是讽刺的是,恰恰是 live 的小片断的质量最差,有些片断和八荣八耻无法关联。Google, baidu 和 yahoo 小片断质量类似,其他关键字我未尝试,此处仅为一例,不作为论据。 3 . 能否正确输出匹配结果
Baidu 饱受诟病的一个原因就是竞价排名影响结果。其实这也是一种商业模式。但是这个模式不可避免的影响了结果。相当多的人在此批评百度不懂中文。客观的说,懂不懂中文和这个关系不大。不过减去广告后的比较的确很有价值,也的确能说明问题。有些文章写的很客观,有些纯粹拿着一个点发挥。
4. 扩展一:能否自动对大规模相似文本聚类
这个主要用在新闻上, baidu 的新闻质量和 Google 的新闻质量都很高,这方面尚未有任何比较,如果下面再有文章关于这个,相信大家有自己的眼光了。附带说一个,sogou的作者风格评实在是很好的点子很糟糕的技术,可能和样本太少也有关系,聚类结果差强人意。顺着这个,就牵涉到上下文相关广告和垃圾邮件处理,当然现在 英文领先的还是 Google, 中文也没有相关的比较出来。这是懂中文的一个非常重要的标准。
扩展二:能否进行高质量机器翻译
这一点是自然语言处理的本质,不敢做这个或者做不好这个都是不懂中文,或者在理解中文上有问题。这方面也是 Goolge 世界领先,(没办法,这个拼的就是语料库和计算能力,这个是我认为的”懂中文”的一个核心)
扩展三:拼音识别和相近词识别
有人说这个拼音识别 和近义词有什么难的?不就是输入法+词典么。对的,说的很对,就是输入法加词典(当然也有复杂的技术我就不讲了)。可是如果这都做不好,谈什么懂中文呢 。
结语:判断”懂中文” 有客观标准,大约是 机器翻译 50%, 分词20%, 聚类+搜索质量30%。
其他主观标准,我尊重你的判断,但是请不要用不懂中文这样的标题吓人,大家都是中国人,都懂你不懂什么叫不懂中文,都知道你不知道我知道你不知道我知道。附带说一句,从语义分析角度来说,新华字典懂汉字,不懂中文。

用户体验--叔叔给我上的课

Dec 16, 2006

背景介绍: 我的叔叔,朴实的介绍是这样的:高中毕业后当兵,后自学无线电,自学电脑,再后自学单片机,现在担任开发工程师:)
高调的介绍是这样的:我叔叔自学成材,研究电器修理术光学技术印刷术计算机编程嵌入式开发业余时间常常和我讨论人工智能和传感器网络问题。(我计算机和电子的入门相当程度上是叔叔领入的. 因为叔叔搞这些研究, 我小学三年级就有一堆坏收音机电视机和一大堆透镜棱镜玩,小学要毕业的时候有486玩,再后来初中有染料和照排系统玩,上了大学又有单片机开发版玩。就一直通过叔叔给我的玩具学到了很多知识。)

叔叔也是一个网民,也常常上我的这个Blog, 除了作为家里人看看我的文章以外,还作为一个普通的用户提出了很有代表性的一些建议。在这些建议中,我深有感触的就是:在新窗口中打开链接 这一条

我叔叔,与广大普通用户一样,使用IE作为浏览器(请某人不要argue说为什么不用火狐,因为中国现状就这样),并且遇到感兴趣的链接就直接一点。 IE对于链接都是直接Forward, 而不是在新窗口中打开。想必很少人知道按着Ctrl键点击就可以了。而FF和Safari, 都是有插件,把链接网空白地方一拖,就默认在新标签中打开了,因此我一直没有注意到普通用户使用习惯。 后来叔叔说每次点了链接,看完了,叉掉,发现我的Blog的页面没了,只好重来。 因此,要求我把所有的链接改称默认从新窗口中打开。 这个小小的改变其实在技术上没什么,但是方便了大家。回想无论Google还是baidu, 都可以设置是否在新窗口中打开链接,的确是很有道理。 因此大家看我的右边多了一个选择框。 叔叔给我上的这个小小的课也是在提醒我,不能因为自己的使用习惯去猜想用户的使用习惯,而是要去用技术适应用户的使用习惯。


好了,列位,如有对界面等意见,本人欣然接纳 :)

=========================小样, 我分割你们 ============================

PS: 接着培强, 带着说一下谷歌一个让用户失望的事情。 大家知道谷歌有 google.cn 和guge.com (至少)两个域名,其中按照道理,guge.com底下的子域名是中文拼音,而google.cn的子域名应该是英语,好比 pinyin.guge.comenglish.google.cn 才对。

但是我惊讶的发现,google.cn这个英文域名就是拒绝英文,而guge.com这个汉语拼音域名就是管显示英文的。


ditu.google.cn OK 中国地图
ditu.guge.com -> 英文googlemaps
ditu.guge.cn -> 中国地图

maps.guge.com ->404 找不到服务器
maps.google.cn ->404 找不到服务器
maps.guge.cn ->404 找不到服务器

你说咋能这样,这不逼着人学洋泾浜英语么? 一个会汉语拼音的用户满怀信心上谷歌倒康母,咚,一个美国地图…

一个懂英文的哥们在中国想找中国地图, maps.google.cn. 咚,啥都没有

除此之外,只有懂ditu的人才能看中国ditu. 咱中国的下一代,瞧见了吧,汉语拼音和英语一样重要,要不定哪天真指不定找不着北…


我就弱弱的问谷歌一句,这样搞虾米意思。

(我是GFan, 不打嘴仗)


GuestBlog-2. 谷歌的失败正好证明Google的成功 by Tinyfool

Dec 14, 2006


作者介绍:Tinyfool 郝培强, 活跃于CSDN的著名程序员,也是知名的Blogger,Web2.0观察者和 Google Fans, 他在网上留下的足迹包括 Donews, CSDN 微尘程序员网,和 ZMap全能之眼。难能可贵的是在繁忙的工作之余,Tinyfool 向社区贡献了Google Maps API中文同步文档, 他同时也是Wikipedia 的见习编辑. 我从大学二年级就开始关注他并在最近利用 Orkut和他结识。 在闲暇时间,他喜欢 音乐、篮球和看书, 你可以访问他的 个人主页或者通过 tinyfool[A@T]gmail.com 联系他。 </p><div>
谷歌的失败正好证明Google的成功
–原发 TV的Google观察Blog 原文链接
</p>

在偏执狂才能生存的世界,放弃偏执放弃理想,就放弃了你与众不同的那一点,也就失去了存在的价值。

谷歌这个名字

谷歌这个名字的诞生,就意味着自信的Google文化并没有跟李开复先生一起抵达中国。谁规定说在中国的产品就必须有一个中文名字?IBM的中文名字是什么?国际商用机器公司,有几个人知道?

退 一万步说,如果中文名字是真的必须的,那么你在地址栏是不是还要输英文字母。谷歌这个名字诞生了这么久,开复先生能不能给我一个统计数字,告诉我中国的用 户更喜欢输入guge.cn和guge.com着两个域名呢?如果,他们真的喜欢这两个名字,那为什么还要把这两个地址转向到google.com或者 google.cn上去?


Google.cn这个域名

除了IT圈子的老鸟,我想知道,有多少人知道Google.cn这个域名,有多少人知道它和Google.com的区别。Google.cn的搜索结果和伟大的Baidu.com一样纯洁,绝对不会引起屏蔽。但是为什么大家抛弃Google投到Baidu门下, 首要的理由都是无法访问呢?

Google黑板报写了这么多篇了,有一篇告诉用户如果你的Google.com访问不了的时候,你可以用Google.cn来代替么?

当GFans都承认在全中文的搜索情况下,Google的结果确实可能比Baidu更差(虽然没有出售的排名带来的不公平,但更多的SEO,更多排名本地化问题)。 Google.cn除了去掉一些可以导致危险的结果以外, 还做了什么?

Power By MapABC的ditu.google.cn

对 这个产品,我不想多说,只能说新版虽然样子跟maps.google.com越来越接近,但是它彻头彻尾是一个OEM产品,技术和数据都不来自 Google或谷歌。数据很好理解,由于政策因素,购买或者租用国内地理信息服务公司的数据顺理成章。但是技术就完全说不过去了, Maps.Google.com是目前同类产品中最好的(Yahoo和微软还在追赶)。有人可能觉得我太技术倾向了,但是我最关心的其实是用户体验, ditu.google.cn中的分词,地址查找等等都垃圾得一塌糊涂。

在国内有go2map和百度地图这样的对手前提下,OEM这么一个产品,对市场分额没好处,用户满意度没好处,唯一的好处是,你看,我们谷歌也在努力工作呢,但是唯一的结果是给 谷歌其实不懂中文这一论点提供了论据。

谷歌不是Google

这段时间,谷歌努力地向我们证明,一个公司的基因,不是它的资本构成,不是它漂亮的办公大楼,不是员工的双屏电脑(我倒宁愿是,现在我也是双屏了,我比他们还强,我有一台PC和一台MacBook一起用。So酷, http://www.flickr.com/photos/chinapodcast/319506132/),不是随便取用的饮料和食品,不是高薪的大厨,不是20%的创新时间,甚至不是公司总部任命的全球副总裁。

所以,在Google全球业务蒸蒸日上的时候,我们迎来了一个 新的年度搜索报告

在以新标准公布的数据中,谷歌(Google)的网页搜索市场份额首次跌破20%,仅为14.9%,而根据稍早前CNNIC和正望咨询从其他角度分析的数据,谷歌2006年在中国搜索引擎市场上的份额分别为25.3%和20.6%,都不同程度表明了其市场份额萎缩的趋势。

如果这个报告准确的话,那么Google通过建立一个叫做谷歌的公司来退出中国市场的伟大计划,又得到了进一步的成果。

如果对比,谷歌进入之前的市场份额,那么我的题目就不算离谱了”谷歌的失败正好证明Google的成功”。

</div>