Archive for April, 2007

闲话图书馆

从小到大我就爱泡图书馆。 这个习惯是从高中养成的,直到现在也保持这个习惯。我泡过的学校图书馆包括扬州中学图书馆,南京大学图书馆,北京大学图书馆,还有现在WUSTL的图书馆。 这里随便写几个对这几个图书馆的映象。

扬州中学的图书馆是我最怀恋的图书馆。 或许大家都想像不到,扬州中学图书馆中有两个书架的理科老书,基本涵盖大学理科所有教材。我估计是当年扬大流落过来的,或者是当年我们高中太牛了, 高中生学大学知识。 那些书 都是60年代文革前的,书后面的借书记录密密麻麻。 我常常看着那些记录,想像若干年前是不是也有一个和我一样的人,躲在图书馆的一角,啃着这本书。除了这些理科书,更多的是校友捐赠的书, 那些校友都是知名的企业家,院士等。 我当年看到一套通俗数学名著译丛,就是上海的某个院士校友捐赠的。这套书我在其他图书馆一直没找全过。 扬州中学的图书馆就好像是cygwin, 把一个强大的世界引入了一个本来不强大的系统。当然,玩转cygwin 显然是需要 Linux 基础的,所以当年啃那些书,就和学习cygwin 一样,其实是事倍功半的。不过反过来,相比较于其他高中的图书馆,我们学校的图书馆实在是天堂。要知道,现在有些高中图书馆,彻底不能算图书馆,因为除了教辅书没其他书。我们以前还能借到金庸红楼梦,可想我们高中自由的风气了。

南大图书馆藏书其实不算多,珍本我们也看不到,书很普通,也不多,因此我才立下宏愿要看完几书架。 南大图书馆正书少,小说多。就是因为书少,大家都去看小说了,剩下我们看非小说的就很容易了。正书总在架上等你借,从来没有被人借了要等的情况。南大有很多92年前的书单独分类,在这里我发现我高中的每本老书这里都有,所以一度很高兴。不过上面我提到的通俗数学名著译丛这套书在南大只有两本,真不知 道他们怎么采购的。南大图书馆也有一个缺点,就是难借难用。首先,如老罗定理的推论所说: 每个大学的图书馆都有一个更年期的女人负责,你想问什么情况时候她总是不搭理你, 你不想她打扰的时候她总是烦你;其次,南大分鼓楼和浦口两个校区,好书都在鼓楼,想借需要跨馆手续。 南大几乎每个系都有图书馆,我们系藏书甚多,但只对研究生开放,加上我一心搞计算机,所以我也没去过几次。 南大的图书馆就属于老版本UNIX, 朴实无华, 器钝但坚, 和校训诚朴雄伟相得益彰,既不张扬,也不冒进,全是普通的有用的书,新书和善本都不算很多,但是做日常的事情,这个图书馆也就够了。

北大图书馆是我研究生复试的时候拿前女友学生证混进去自习才熟悉的。不过书没好好看倒是把图书馆的结构摸了个清楚。 北大图书馆书的确多,善本珍本也多。 我那会儿要准备生物考试,其实生物一窍不通,于是想借一本生物化学临阵磨枪。去一看,乖乖,就光是书脊上写了生物化学这四个字书的数目就比我在南大看的所有小说书占的书架还要多。这个是什么概念呢,就是说,依我的看书速度(3天/本快速扫描),假如我真在北大读五年生物信息学研究生,最后结果是生物化学书都没读完,而生物化学其实只是生物学的一个不算大的子学科。不过北大计算机科学方面的书貌似不算多。我这么说第一是因为影印本的书我没发现几本; 第二是我用Knuth为关键字只发现四本书,就是TAOCP和具体数学, 还没南大多呢。其他图灵奖获得者的书北大也很少,因此我怀疑牛X的书全跑计算机系了。 当时我就想啊,什么时候把北大图书馆的计算机书囫囵看完我就牛X了,结果这个愿望实现不了了,所以我到现在也不牛X…… 说了这么多一塔湖图的好话,再说点不好的。北大图书馆我不太喜欢,个人原因是因为我大模大样跑进去看书居然被保安发现我用前女友的卡,罚了我20块钱,心疼啊!不过这当然不是主要的了,主要因为两点,第一,它的索书体系需要学习好长时间才能明白,北大图书馆的确历史深厚,基本没有采用中图分类法,这意味着如果你对国家图书馆很熟悉,去北大找书,肯定撞墙或者撞书架,当然也有小概率撞美女,但你绝对撞不到要找的书。 第二是书架上的书放置顺序比较不讲究,几乎等于我不知道算法的hash表。我找一本书,左右两本相邻编号的书我都发现了,但是这本书硬是要在离他三个书架 远的地方找到。可以想象北大学生找书的时候肯定和众里寻她千百度一样采用O(n)顺序查找而不是O(log n)的折半查找,当然不排除他们采用O(1)的哈希我不知道。如果北大图书馆的书过一个sort 管道或者被Google 爬一次,估计效率会上升很多。 第三是重复书太多太多了,有的书我发现十本甚至更多放一起,我几乎怀疑北大的书过一个uniq 管道,藏书就剩下原来的 1/4 不到了。 当然,这些重复的书还是很有必要的。 如果要打比方,北大图书馆就是CPAN, 超级巨大,精华和不精华的都有,只要你能找,总能找到想要的。当然,你也可以说是以前很流行的wuarchive 里的软件了, 那个库里啥软件都有,啥事都能干,关键是要能找的到。

然后就说到现在学校的图书馆了。显然,分类法是美国分类,我学了好半天才学会(我喜欢把分类表自己记下,直接随机存取,从不问管理员)。我们学校的图书馆 是我见到的迄今分类最科学,我用着最舒服的图书馆了。 首先,想找的书永远在他的位置上,这一点不得不佩服老美的敬业,还有读者的高素质。 其次,因为历史原因,很多书是支持全文检索的,因此我可以很方便找到想要的。 最后,我可以预约借书,也就是说,我只要在网上选好了书,一个小时后直接去拿书,直接刷个卡就行了。当然这也和美国大的学术气氛有关系,在国内你借书是欠学校的,在这里你借书是天经地义的,你借书不爽那是学校欠你的,直接可以提意见,运气好还能奖励你纪念品。现在我们学校的图书馆,好比 Linux, 属于另一个体系,很高效,成本也低。一旦学会了这个体系,你就很喜欢,效率很高。

我也知道有不喜欢图书馆的哥们,什么书都是自己买,买回来看一次立即做枕头,好比windows底下一个一个正版软件往回买一样,那真是有钱啊! 我就老想等俺有钱了,啥也不着急搞,就先搞个图书馆,专门把小学的书放幼儿园书架,把初中书放小学书架,把高中书放初中书架,把大学书放高中书架,把研究生书放在大学本科书架,把研究生书架放上几本大师作品。策略上不光免费借书还送额外礼物,再和douban啊,amazon 啊该合作的全合作一下,和一流的版商作者联系搞些精品图书,专门培养牛人。不是说书非借不能读么,我就不信书那么难读,不信我的图书馆没人来借书 :)

Comments (3)

推荐阅读: 砍柴不误磨刀功

李笑来老师是新东方的一个老师,我不认识。昨天从霍炬的Blog中连过去,一下子就喜欢上了他的一篇文章: 砍柴不误磨刀功。

他提到, 虽然说磨刀不误砍柴功,我们常常能看到的却是很多人天天“磨刀”却从不“砍柴”。 这样,怎么能保证自己磨出一把好刀,而不是把可塑之降魔杵磨成了一无是处绣花针呢?

他提到了两个例子, 一个是一本书中的一句话:经过多年观察,我们发现,最悲惨的事情莫过于大量的人正是由于没有目标所以才一直处于学习阶段之中。 是啊,学习变成了社会的正确价值选择, 好像只要你在磨刀,就是对的, 就是准备砍柴的, 可是有没有人好好想想,我这把刀,到底是不是要去砍柴呢, 将来是要去砍什么样的柴呢? 如果前面没多少荆棘的话,先揣一把钝刀,使用时候越来越快,可能也是一个方法。 另一个例子是丁磊。大家都知道,丁磊没有搜狐张朝阳那样显赫的海龟背景,也没有新浪那么好的政府关系,可是三大门户中,作为企业最成功的是网易。 他想做营销,但是他不懂,他不是报个MBA 躲到学校躲几年,而是通过关系先找到段永平这样的能人帮助,然后一边实践,一边学习。 从这件小事情也可以看出,丁磊是个真正的商人,是个做大事情的人。

结合我自己,我大学四年的经历让我明白两个道理,第一是有机会一定要尝试一下,不要错过机会;第二是先做出东西,让他能跑起来,再想着怎么把这个东西做完美,而不是空想了一个月结果没时间做了。 现在想想,其实第二点就是砍柴不误磨刀功。我们从小接受的教育就是要完全准备,不打无准备之仗,强调知识积累,不讲挑战和实践。有句话叫没有金刚钻,别揽 瓷器活,其实回来想想,或许你本来就是金刚钻,只是环境和机遇暂时没有眷顾你,使得你认识不到自己。既然有了瓷器活,上去揽一揽,就知道自己是不是金刚钻 了,再说年轻人,就算有点失败,回头一看,路还和天一样宽呢。

我推荐大家去读这篇“砍柴不误磨刀功”。李笑来老师在新东方想必阅学生无数,说的很有道理,很符合很多人的实际。

Comments (4)

关于版权说几句

今天关于输入法网上流行一篇文章,叫谷歌输入法,是个丑闻,但和版权无关。这个事情我已经说了很多话了,不想继续说两家公司了。不过作者说词库属于数据库范畴,所以和版权保护不大一样,在我国不受保护。本来看过就算的,可是让我担心的是这篇文章被keso推荐阅读,也在奇迹上发表了,也就是说非常多人会读到。我觉得在这个问题上我有点不同认识,想说一下。

1. 从技术角度说,词库不是一般意义的数据库。

为什么呢,词库的确是个数据库,但是这个数据库不是把网络上所有词放在一起就行了,如果认真研究谷歌词库的格式,就会发现当中有一个项是词频,还有一个项是注音。因为这两条,这个数据库的意义就不一样了。为什么呢,举个例子吧,假设Google 没有PageRank, 自己把所有网页抓起来,建了一个数据库,那么,这个数据库是符合辛勤采集原则的,因为网页目录仅仅是一个目录,因此很难说Yahoo!对网页目录有版权,或者Google 和其他公司有版权。但是这个词频就让数据库的意义变了。为啥呢,可以想像,到底是PageRank是Google搜索质量的核心呢还是Google的海量数据库呢,答案当然是前者,因为假设Baidu也拿到了PageRank, 理论上Baidu 也能做出一样的质量。那么,附加在网页库上的PageRank 指标能不能被保护呢,要不要被保护呢。当然要,因为这个数据是支撑Google 质量的灵魂。同样,词频是支撑输入法首字正确的灵魂,因此,当一个数据库中包含自己生成的数据的时候,就不是辛勤采集原则了。好比咨询公司的市场调查报告中估计了各个公司以后的发展方向,财务走向,那么这就不是简单把财务报表放在一起的数据库,而是带有自身贡献的受法律保护的作品了。

2. 数据和算法代码的不可分性

输入法这个例子很特殊,而且为了自定义词库扩充,技术上把算法代码和词库分开了。那么,分开的受不受知识产权保护呢,答案是肯定的。一来,sogou 没有单独发布这个官方词库作为一个开放数据库,而是作为sogou 输入法这个产品的部件发布的。二来无论怎么说,这个库有EULA, 谷歌没有遵守。如果举证恰当,这个侵犯著作权的官司谷歌肯定吃亏。三来,只是在这个特例中词库是纯文本易于获得的形式,试想如果sogou 把这个词库封装成dll的话,对他的使用就构成软件反向工程和著作权侵犯了。按照我们国家一般对软件的规定,封装成目标代码的模块和原模块是同一事物。法律也不会因为不同的封装形式作出不同的判定。 因此,从这个意义上说,只是这个判例形式特殊,本质上sogou 的词库的确属于软件产品的一部分,具有不可分性,并不能用法律上不完善的数据库资源来界定。

3. 中国网民相关知识的缺乏

由于中国的开放源代码运动不如国外,盗版软件使用非常多,再加上教育本身不强调公开可获得与公开可利用的区别,造成很多GFan 对这个事情有误解。我举个小例子,假如你使用了国家统计局的一些资料写一篇报告,在美国,你必须自己转述这些话,而不能原样抄,结尾也要给参考文献,尽管这些资料是公开可获得的,你也必须对资料源给出应有的尊重。如果资料源公开且声明版权,那么使用时必须遵循版权声明。以前大家有个错误的观念,认为公开发表的资料是随意可以拿来修改再发布的。开放源代码运动就会告诉你,修改再发布必须要遵循怎样的原则,商业用途和非商业用途的区别在什么地方。再说个例子或许更好理解了,珊瑚虫QQ做的很好,裁剪原来的QQ, 添加新功能,然而,腾讯并没有授予珊瑚虫修改再发布部件的权利,因此这个官司显然会输掉。 现在帮谷歌在版权问题上洗白已经是徒劳了,只希望他们两家好好协商把这个事情处理过去。

提醒大家:sogou 输入法词库不是简单的数据库资料,作为软件部件一样受法律保护,这个不是Google快照那些层次的版权争议,这个是软件著作权层次的,这个上面,谷歌是理亏而且法律上无法反击的,只要sogou 举证到位,谷歌法律上麻烦比较大。

Comments (2)

酷Linux 专栏: Linux 和音乐潮流-1

题外话: 作为一个坚定的*nix系统使用者,我常常向我周围的人推荐使用Linux/UNIX, 而他们通常都以不熟,不好用拒绝我,即使我答应帮他们装Linux系统。他们总认为Linux难用,可是事实不是这样的,给发展中国家使用的一百美元笔记本(OLPC)上就是 Linux, 世界上最眩的操作系统 MacOSX 底下也是UNIX/BSD. 有时候 Linux/UNIX 缺少的就是一些日常应用的杀手级程序。实际上杀手应用甚至决定了系统选择: Apache 让很多人再也不用 Windows 架设服务器,iPod 让美国很多人转而投身苹果。同样,我觉得我们支持Linux的人或许可以换一个角度,举出一些 Linux 能做的强大的酷的事情,让更多的人了解这个系统,从而爱上这个系统。其实从我的角度看,系统不酷,而是工作效率高,不过为了吸引一些用户,我不得不从酷的角度去说服别人。因此我准备开一个专栏,专讲在Linux下面可以做在Windows下做不到的酷事情,希望有人因此喜欢上 Linux. 这个专栏的文章都不长,技术都不复杂,以吸引人为主。如果你想感受Linux, 网上现有的怎么装的教程很多,也可以用LiveCD, 不过那不是我这个专栏所能讲清楚的。我的主要目的是吸引对 Linux 没感觉的人到 Linux 平台 :)

好吧,先说我抓音乐的小例子。我来到美国之后,感觉要融入美国文化,首要的就是融入潮流文化. 于是,我开始到网上找哪些音乐电影流行,我就拿下来看。这个当然要被很多人鄙视说俗了,现在流行的是小众小资的东西了。不过既然俗,咱也得俗的有技术含量是吧。一开始,我每天看Google Music Trend, 看到新的歌我就下载,然后用文本文件存我下了哪些歌。因此,第一步,我只需要一个浏览器。然后我就发现人工管理的缺陷的,因此我就想自动从Google Music Trend 中把我的歌生成一个列表。在这一步,我使用了我需要一个Linux 命令叫 wget, 简单的说,

wget some_url

就可以把一个网页或者资源下载到自己机器上。
好,我们先试验这个命令:

wget http://www.google.com/trends/music -O music.list

-O 表示另存为后面的文件,简单吧。

然后,我们再学一个命令叫cat. cat 不是小猫,是把文件的内容输出到屏幕. cat 后面可以接多个文件,具体可以用 cat –help 看帮助。这个地方,我们用 cat filename 输出文件。

cat music.list

怎么样,cat 输出了一个HTML的文件吧。这个HTML文件就是你的浏览器看到的. 然后你要说了,我怎么把这个html文件变成一个格式整齐的列表呢。不着急,下回我告诉你,这次先打一段天书一样的代码(这是一整行内容,注意第一行结束后有一个空格):

cat music.list |tr "\n" " "|egrep -o "song\">[^<]*" |tr ">" "\t"|cut -f 2|sort|uniq >mylist.new

好了,你就发现mylist.new 中全是格式正确的歌曲名了。这段天书怎么理解您无须担心,你可以发现原来在windows下需要copy 20次得到的文本文件一行命令就得到了。那么,学这段天书要多久呢?只要你常来看我的专栏,看三次,每次十分钟,肯定能理解。如果一生做一次,从头学这个天书效率当然不如手工,不过要是天天赶潮流,您就需要考虑用这个命令了。

好了,最后贴出一个喜欢听王小峰推荐歌曲的人要用的一个下载脚本,每次三表同学新歌上线,你轻轻一敲回车,歌曲全到你硬盘,多让人羡慕啊(当然,这个别太传,本来就是偷偷通过他的xml 发现歌曲链接的,传过了三表要发火了)。这个脚本是python 写的,但是因为windows下没有wget, 所以是Linux 专用的 :) 快用这个让美女/闺蜜/帅哥羡慕你吧


#!/usr/bin/python
# Download all the music recommended by wangxiaofeng.net
# Author: Eric You XU
# GPLv2
import os
import commands
os.popen("wget www.wangxiaofeng.net/mp3player.xml -O mp3player.xml")
str="""cat mp3player.xml|egrep -o path=[^3]+mp3|tr "\\"" "\\n"|grep http >wangxiaofeng.list"""
print str
os.popen(str)
f=open("wangxiaofeng.list")
for g in f.read().split('\n'):
print g
a="wget \""+g+"\""
os.popen(a)

注意: 最后三行是有缩进的。可以把这个存成 a.py, 然后 chmod +x a.py. 然后执行 ./a.py 具体的原理我下次讲。如果有问题,请留言。预祝你抓取所有王小峰歌曲成功。

课后作业:

1. 练习用wget 抓一下 baidu 的500个金曲, 链接是: http://list.mp3.baidu.com/topso/mp3topsong.html
2. 通过cat 命令研究一下baidu 的 html 和 Google 的 html. 看看哪家的让你觉得舒服. 下节课我们继续讲怎么处理这两个HTML.

下节课预告:1. 那段天书的原理是什么 2. 我怎么抓baidu 的流行榜单

过几天等有时间我还会给大家介绍优盘上的Linux, 光盘上的Linux 和最酷的Linux XGL桌面 还有给基督徒用的Linux 和给学前儿童用的Linux. 其实Linux远比一般人想像的简单而且酷。

本专栏欢迎投稿,暂无稿费。

Comments (13)

复活节 独立日

今天是复活节,我正式从被封的Blogspot 搬家到自己的独立域名: http://blog.youxu.info
以后再也不要担心被封了,现在搬家很方便,那么多文章和评论,一键搞定。

我知道很多同学都是在 MSN 上看我Spaces 更新的,所以无论怎样,Spaces 还保持更新,只是不时会提醒我搬家了 :) Blogspot 已经自动指向新的地址。donews 的备份不再需要,账号我已经放弃,以后就认真经营自己的这个一亩三分地了,也不怕被封了。

今天是复活节,也是我的 Blog 独立日。

友情提醒第一次,我的Blog 变成 http://blog.youxu.info 请更新收藏夹。原来使用RSS订阅的请检查订阅的是Feedburner, 如果是Blogspot,请重新订阅, 如果是Feedburner, 无须更新,我已经重新烧过RSS.
订阅地址是:http://feeds.feedburner.com/xumathena (RSS)

Comments (7)

GuestBlog-7 公共资源和几个网站Beta By Angke Chen

作者介绍: Angke Chen, 川大-华大(University of Washington)交换本科生,目前在美国交换学习。他关注人类学、社会学和互联网。作为研究人类学和社会学专业的学生,他对互联网有独到的认识,为此他还专门学习了互联网相关的编程设计技术。我几个月前通过搜索引擎发现他的Blog并认识。闲暇时间他喜欢玩mac, 逛digg 和打篮球。你可以访问他的 Blog 或者通过 manchor AT gmail.com 联系他。这篇文章是他庞大的写作计划的一个小部分,因此标题中带一个Beta,他还计划通过对一些社区行为的研究写一篇论文作为这个小 文章的扩充版本, 他对数据挖掘和数据库技术也有研究。各位读者中如果在douban 等社区网站工作或有联系的不妨联系他,他也希望能通过和社区网站的合作得到更准确的社区研究资料并反过来帮助社会网站发展.

本文CC, 署名非商业.

公共资源,被定义成“any goods such that, if any person … in a group … consumes it, it cannot feasibly be withheld from the others in that group” (pp129, Olson) [注: 可翻译为 一切可以不被他人独占而被群体内一切人所使用的资源被称为公共资源]。由此看来,一些网站上的数据,其实是公共资源的一种。比如digg.com上用户提交的故事按照被推荐的数量排序,成为一种公共资源,任何人都可以使用,没有人可以阻止其他人的享用。比如douban.com上用户提交的书评,根据相同的原因,也成为一种公共资源。

当然,这些公共资源因为有数字技术这个载体,具有了一些传统公共资源所不具有的特性。依照Lessig的说法,分为rivalrous和non-rivalrous [注: 可翻译成冲突性和共享性]两种(pp21, The Future of Ideas [1])。大致来说,前者指总量会减少的资源,比如道路资源,有人上路就意味着可以利用的空间少了一些,影响了别人的使用;后者指不会因为人的使用而减少的资源,比如可以复制的DVD等。
digg 和douban 上用户贡献的数据可以归于后一种non-rivalrous 的资源。

non-rivalrous 的资源虽然没有了rivalrous资源在利用上会产生冲突的问题,却同样享有任何公共资源缺乏创造动力的问题。一位用户凭什么要为douban写书评,凭什么要为digg贡献文章或者帮助顶文章?相对应的,toodou.com, zhuaxia.com上都有类似digg的按钮, 用来推荐内容,可是使用者寥寥。

我觉得要说清楚这个问题,需要先将用户分成两类:生产用户和寄生用户。不论动机如何,生产用户产出网站上的内容,而寄生用户被这些内容吸引。举例来说,为digg提供文章的人是生产用户,而仅仅看digg首页的人则是寄生用户,我通常用RSS看digg首页,因此我也算是寄生用户。网站需要生产用户产生资源,才能吸引到大量的寄生用户。我武断的说很多网站,如digg, youtube, flickr的寄生用户数量大大多于生产用户。虽然没有数据支撑,但是我相信这一点很多人不会质疑。

网站吸引贡献用户的手段不同,又可以把他们分成两类。一种是免费提供用户没有的资源,比如在线大容量存储(youtube,flickr, 想想看如果都用.mac来代替前两者的空间,花费会增加多少)。另外一种则是通过建立社区。YouTube 更多时候的用法是上传自己觉得好玩的视频,方便在其他地方的朋友观看。flickr 也是类似。而论坛、豆瓣这些地方,人们更多的是靠社区、第三地方系在一起的。所以论坛会有灌水,而对于豆瓣,很早就有人声称成了豆瓣小组的天下 (要是有机会,一定搜集数据来测试这句话是否正确)。关于第三地点的详细特征,可以参看Ray Oldenburg[3]的 The Great Good Place(Cafes, Coffee Shops, Community Centers, Beauty Parlors, General Stores, Bars, Hangouts, and How They Get You Through the Day),内中虽然是描述咖啡馆、啤酒店的,却和在线社区的特性惊人吻合。

另外一个比较值得注意的现象是,似乎社区和免费提供昂贵资源这两个特征在混合之后比较能够吸引用户,避免网站走上两种极端。比如picasaweb的用户多半就不容易像flickr上一样主动去查看其他用户的照片,而更多的是把它做为纯粹的在线存储,这是因为picasaweb在社区化上做的不够。而如果豆瓣没有书评功能,那么就只能沦为一个一般的社区BBS,在新用户面前完全没有吸引力。

对于社区网站来说,除非你的用户都是一掷千金的人,那么一定要想到一种低价提供昂贵服务的办法,否则吸引新用户会很困难。而对于低价提供昂贵服务的网站来说,最好能够提供一些社区的功能,否则用户只会精明的利用你提供的免费资源,在你风投耗完之前转出数据安全离开。

------
参考书目:
1 Lessig, Lawrence, The Future of Ideas, Random House, 2001.
Olson, Mancur, The Logic of Collective Action
内里有对rivalrous和non-rivalrous资源的分析。

2 Contemporary Sociological Theory, Blackwell Publishing, 2004
内里Olson的一篇文章分析了为什么共同利益在理论上就不容易达到。

3 Oldenburg,Ray,The Great Good Place(Cafes, Coffee Shops, Community Centers, Beauty Parlors, General Stores, Bars, Hangouts, and How They Get You Through the Day)
分析了第三地点(除了工作,家庭的朋友聚会、聊天处,通常是啤酒店,咖啡馆这些地方)对于生活的巨大作用,也解释了这些地点的强大吸引力。虽然描述对象是实体社区,却完全可以看作是对在线社区的一个详尽描述。

Comments (1)

别拿技术忽悠人

本文自由转载(CC 署名 非商业)。作者:美国华盛顿大学计算机科学系博士生Eric You XU, 研究方向是人工智能。

附:这是我第一次写文章拿出头衔,不是吓人,是为了避免人以为我拿技术忽悠人。我是有点不爽写这篇文章的,言辞上可能激烈了点,本文对事不对人。

每次谷歌出了什么问题,总有这样的句式出来:”这个这个问题嘛,技术上是这样这样的,你们不懂技术,来讲谷歌的坏话,不是Baidu的间谍就是XX的狗腿,要不就是愤青! “。 比如说,上次出现中国翻译成不好的词事件,月光出来辟谣了说这个么,是不好的词和中国的概率关联大了,所以翻译成不好的词了。 上次 方军竖中指,又有人说这个么,就是按照搜索频率排序的,你们不懂技术和算法,所以不能怪谷歌。 这次 谷歌的输入法不幸和搜狗的一样而更不幸的是和自家搜索提示给的不一样的时候,晨钟暮鼓又出来辟谣了, 说这个么,很显然谷歌没抄,网民搜出的网络词库当然是是一样的阿。 好吧,你们总是用技术来说理,你们总是说,谷歌的技术是没有问题的,问题出在群众的智慧上,谁让群众都去搜黄色的,谁让群众都去搜搜狗开发人员名字的,谁让群众偏要把中国和不好的词联系起来的。一个个出来讲话的好像都是研究计算机方向的教授,元老,技术领袖。 网民就是被你们教训的,愤青就是被你的鄙视的,没文化就是被你们教育的。我在这里表明一下我强烈的不赞同态度。我认为, 澄清一件事情,不是用伪技术的谣言去驱赶另一个谣言,不是用大家都不懂其实自己也不懂的东西再次侮辱网民的智商。

我们说,技术不是一切,任何做技术的都要考虑到实际,经验非常重要,这就是为什么老程序员和新程序员写出的程序不一样,为什么人月神话讲优秀的程序员和一般人效率差十倍。我们首先要承认,谷歌的团队还很新,的确有考虑不到的地方,谷歌应当通过这些事情调整自己的团队,而不是把个人技术失误推到群众头上,这个是技术人员第一要务。 我在谷歌有几个好朋友,在Google总部也有,我问他们到底出现这些失误的时候怎么办,他们无一例外的都说是技术人员考虑不周, PM管理不严,我倒没看到他们把责任推到网民头上的。现在反而现在出来帮谷歌辟谣的人倒是技术领袖了,非要把技术上的事情推到用户上。 其实本来我想顺着说几句狂妄的话一一指出这些”懂技术的人”技术上的荒谬,不过我想想没王三表的文采就不要学老罗的骂街,况且理应对事不对人。我就想问,你们辟谣的各位高手中,懂机器翻译和自然语言处理的有几个,懂输入法的有几个,懂关键词提取和过滤的又有几个,包括前几天一个朋友和另一个朋友争论的时候(名字我隐去),一个人非要说趋势的算法是那样那样,不是这样这样,那么懂Google趋势是按照什么近似算法来提取日志的又有几个? 认真在技术上粉Google, 看过什么叫BigTable, 知道什么是MapReduce, 知道GFS, 会自己搭机群,了解数据挖掘,认真处理过中文语料,写过输入法,知道中文处理的大概内容的又有几个。别以为上过大学,看了TAOCP就是专家。当然,我自己也不是专家,我也不敢说我全懂,不过我一眼就知道有些人简直什么都不懂。

为了避免口水,也为了不偏重技术让这篇文章不可读,我不想一一指出这些错误了,我只希望我们学习计算机的和搞技术的,了解到这一点:”出了问题,就是技术人员和PM的责任,和用户无关“,拿用户说事的互联网,是Web 0.5, 是时代的倒退,就算在单机软件时代我也没有看到过这样推卸责任的。

我是一个忠实的Google 粉丝,我每天使用Google各项产品的次数多达百次,包括搜索,Gmail Reader Blogspot Talk Map Earth Code …, 我也有很多好朋友在Google/谷歌工作,我对Google的映印象一直非常好, 但是我不希望有人用伪技术或者假装懂技术为谷歌的技术失误辩护。 技术失误也是失误,考虑不周也是失误,不要往算法和”相信群众”上推,哪个年轻的团队没有失误呢, Google 一开始不也被SEO 和作弊严重困扰么。关键是认识到经验的不足,迅速修正,对广大网民做出交代,而不是啥事情都往技术上推,说技术领先,算法 自动产生,网民给的数据就是这样,不能怪谷歌。 啥叫技术领先呢,做出网民满意的结果才叫技术领先,技术领先,比的是最后的结果效率,不是一两句忽悠人的概念。还有,不懂技术的人少假装懂技术忽悠人,别 以为自己有多了不起,不知道一年才读了几本书看了几段代码。我这篇的主要目的就是提醒大家注意某些伪装懂技术的人,伪技术装起来比没技术更可怕。好比科学打假,这个不行那个不行,人家是伪科学你是真科学,妈的 自己到底懂多少科学? 当然我也怕你们用同样的话说我,所以我先退一步摆个姿态,我也一样,我也没读多少书,看多少论文,不过上面的几个领域,我都称得上中等研究水平,所以有底 气说这些。我写在这里,希望大家自由转载,是不想让互联网成为被谷歌 PR后的粉饰太平的文章堆或者不懂装懂人的炫耀场。

回到主题:澄清一件事情,不是用伪技术的谣言去驱赶另一个谣言,不是用大家都不懂其实自己也不懂的东西再次侮辱网民的智商。

附技术片段:

月光的话:

我推测这个错误可能是这么产生的,就是在Google的自动机器学习过程中,主要学习的是一些西方文献以及其翻译结果,由于西方对于中国的评价大多都是负 面的,因此某些”不好的字眼”经常和”中国”一道出现,当出现的频率很高的时候,Google就根据以往的常识,将这个”不好的字眼”和”中国”进行了一 定关联,于是就出现了这种智能推测。当然,这个技术问题解决起来也不难,就是扩大Google翻译的机器学习资料库,从不同的环境多分析一些资料(比如也分析一下人民日报的信息),这样推测词义出现的偏差可能会小一些,结果也会更为”中立”一些。然而令人不解的是,某些怀有不可告人动机的人不去研究技术和算法上的问题,而专门去找一些奇怪的缺陷错误,并将这种纯粹的技术问题上升到政治层面。

我的评语:月光同学可能不知道圣经语料库和Google联合国语料库这回事,月光同学了解基本的HMM模型,但是没了解语料库是怎么搜集的。的确要研究算法上的问题,不过不了解算法的人不能把问题全部推到算法上,这个肯定是技术失误而不是算法,退一步讲,如果算法出这个错,那就是模型有问题。

庄表伟的话:

我不知道这个方军什么来头,只怕是毫不懂法,及不懂算法,也不懂法律。更不要说美国的法律。


我的评语:算法根本不值钱,如果算法值钱的话,要这么多老程序员干什么。就算你懂算法,做了这个东西,难道没考虑过滤黄色内容不是失误么。这里的确是谷歌的技术失误,美国法律明文禁止暴露性内容,如果Google在美国没有做技术处理,老早就被抗议电话打爆了。


晨钟暮鼓的话:

因为Google输入法与搜狗输入法都是充分的利用网络词汇作为词库,而取词都是来自于网络以及用户进行搜索的关键词,因此在词库上具有相似性是很正常的一件事。 再说词汇的注音错误的问题,其实这个更容易反驳。搜狗输入法也曾经有过这些错误的注音错误,只是现在人工改正了过来。这说明这些错误是因为通过网 络词库,网络取词而造成的,而同样的,Google输入法也是网络取词,因此出现同样的错误也是很正常的。错就错在Google对竞争对手的关注太少,没 有汲取对手的教训,而被对手抓住把柄。基于以上几点,关于Google输入法盗用搜狗输入法词库的问题无非是搜狗在面临强大对手时的无赖之举,而Google输入法不要被这些东西纠缠不清,踏踏实实地加紧开发进度,解决目前已发现的bug,因为你离我想象中的还差很多。

我的评语:相似的可以的,但是问题不是相似,是重合,除去你的那一个例子,其他搜狗开发人员在谷歌搜索提示中都没有,也没有正确结果。相反, 网络词库只会告诉你有这些词,频率是多少,而不是告诉你这个词读什么, 因为汉字的多音性,词的读音必须要手工标记,而实际上谷歌网络搜索建议的结果是正确,fenggong 等在Google搜索框中都是正确的结果, 为什么到输入法的时候词频就错了呢,如果采用网络词库,这不是前后矛盾么。 这个地方我怀疑作者并不不了解输入法的实现技术。

Comments (5)

Guest Blog-6 Story of ECHO–By Zhendong Zhao

作者介绍: 赵振东,南京邮电大学ECHO工作室创建者之一。他做硬件出身,自称是个GEEK,涉及过单片机,DSP,FPGA,ARM,Linux应用和内核,P2P流量识别,PSO和SVM。对于计算机,电子电路,算法研究都有兴趣。目前他的目标是能在象牙塔内,扩展知识面,领会优秀思想,并且在最后的几年内能在一个或者两个方向上做出深度研究. 能成为一个一流的工程师是他一直的梦想。他常说, 用PSO的观点来看,粒子初期的多样性会带来更好的全局优化结果,希望用尽一生能找到最适合的那个值,一生无悔. 闲暇时间他喜欢踢球, 运动和逗ARM玩, 你可以通过 zhaozhendong AT gmail.com 联系他.

我是通过鲍盛(Forrest) 认识徐宥(Eric) 的。因为听Forrest说,Eric是学数学的, 但是会用AVR的单片机, 顿觉得此人不简单. 去年夏天,Eric在我们ECHO工作室呆了一段时间,关系很是融洽,后来他去了美国,俺们却依然平静的生活。直到大约三、四个月以前,Eric让我给写篇客座BLOG,我欣然同意。只是面临期末大考,不敢懈怠,因此此文也拖到今天,实在抱歉.

我是工科出身,几近疯狂的喜欢电子和计算机。本科的生活过得很简单,天天呆在实验室,梦想着做出令自己和别人赞不绝口的东西。所以没有什么时间来想别的事情,好像我的生活只有那些CPU,电路板,芯片和计算机. 后来,很是”奇怪”的被保了研,就读于本校本系。但是,越来越多的各种失望慢慢让感到我崩溃–不光是对于学校的失望,还有对于读研、对读研同学精神状态的失望,而自己,仿佛是另类一样。

于是我崩溃了.

但是和一些人崩溃的方法不同,我使用了爆发的方式,但不是骂街,不是游行,更不是用武力。我重建了ECHO工作室。这个当年源自于学生科学爱好者协会的组织,却因为成员毕业了而自动解散。很幸运的是,我的倡议得到了数十位同样是技术爱好者的强烈响应。于是,一切都从零开始。我们几乎用尽了各种方法,向通信信息学院,自动化学院,学校团委等很多部门争取场地和资金。作为交换,我们肩 负着帮助他们锻炼学生的责任。我们慢慢有了房间,仪器,一些简单的设备,更重要的是有了十几颗年轻而热血澎湃的心。正是这些为了理想而异常努力的精神,对于真知的渴求和好奇心,还有乐于帮助别人的热心,让这个”车库型”的实验室有了些雏形。

我一直很喜欢以前读到过的故事:在UC- Berkley,学生总是工作到凌晨4、5点,然后睡到10点,起来吃饭。下午光着脚,在学校的操场上踢球,阳光撒下来,很舒服。这也许就是我们向往的生活–自由的做自己热爱的事情,虽然听起来有些疯狂,背后更多的是激情。我们很热衷的做一些事情(也是Forrest喜欢的事情):宣传开源思想,追求学术自由,追逐年轻梦想,虽然听上去很大话,但这就是我们ECHO的精神。我们没有办法去帮助每一个人,但是我们尝试去拯救那些有梦想,但是无法看到却极其渴望光明的人。我们几乎每周搞一个小型讲座和讨论会,分别由各个组的成员负责,同时会请一些牛人们来讲。我们现在基本分两个组:计算智能和算法部,嵌入式系统组。当然之下还有各个小的子方向。人不多,但是氛围还是很不错的。说到这里听上去仿佛在给ECHO做广告了,真诚的欢迎各位有空到我们这来作客,讨论些好玩的事情:)

最后说说我做这些事情的感想:

1. 对于好的东西,除了追逐之外,还有种方法可以得到,那就是创造。
2. 人世间最开心的事情莫过于和志同道合的朋友在一起奋斗。
3. 尊重和帮助别人,即是尊重和帮助自己。

附: ECHO 简介:

ECHO(Electronic & Computer Hobby Organization),就像她的名字一样,是由电子与计算机的爱好者组成的。在这个组织里,会有不定期的技术讲座和讨论会。也会有些实际的Projects,需要大家合作完成。ECHOer 几乎都是Geek,有的热衷于算法,有的喜欢于硬件,有的则偏向于软件设计。总之,是充满激情的爱好者。所以ECHOer几乎是清一色的男人,而且几乎都是单身:)ECHOers 大都数都是有梦想和”野心”的,但是也不乏那种把对某种技术的热爱当作生命的人;ECHOers 也是友好的,非常乐于结交志同道合的朋友,和乐于和外人讨论或者合作。
ECHO 的BBS: http://bbs.njupt.edu.cn/cgi-bin/bbsdoc?board=Circuit

Comments (6)

愚人节玩笑

昨天和大家开了个不大不小的玩笑,把签名改成:”I fall in love with that Korean girl, we will marry next month in China!” 并且煞有介事写了短篇小说一篇。到现在,累计被骗33人: Gtalk 上16,MSN上11,空间上2, 百合上4. 不管你有没有上当,感谢大家关心了, 希望这个善意的玩笑没让大家觉得不舒服,让大家笑笑乐乐我也很开心。
除了感谢一直关心我的朋友,我要特别感谢一些不熟悉的人,他们看到我的签名后,都发来恭喜。一个师弟说他也有个韩国女友,因此特意祝贺我。一个法国的教授发来一句:”tous mes voeux de bonheur et félicitations !” 和特意让他懂中文的儿子翻译的 “zhu ni hunyin kuai le, xu you!”(祝你婚姻快乐,徐宥). 很多仅仅是一面之缘的人和朋友都直接发信发消息祝贺。Spaces 中的微神和老冒先生也给了很诚挚的祝贺,不知道是不是UUZone 的那位,总之我很荣幸。 只有02几个和我比较熟的上来就说不可能,哈,还是你们了解我啊。无论怎样,各位相识不相识的朋友给我的祝贺我都收下了,感谢你们的祝福。等我真正那一天的时候,我一定会请你们参加的.

愚人节快乐,这篇不是骗人的 :)

Comments (4)

Next entries »