Archive for Google

A simple grabber to get unlimitted number of items from RSS

Recently I have to get some historical data from one RSS feed. It seems that RSS can only output a limited number of recent items. Since in Google Reader, we can always roll to previous item [if there is one], my solution here is to use Google Reader as the feed processor.

Actually I am not the first one to do this. gPowered and  GoogleReaderAPI have already made it possible. I extract the necessary code here and omit other lines. As usual, it’s Python.[download]

“”" wuFetcher
	Usage: python wufetcher.py

	Author: Eric You XU, Washington University
	[Free to use for whatever purpose, absolutely NO WARRANTY]
	Kudos to 	gPowered: 			http://blog.gpowered.net/2007/08/google-reader-api-functions.html
				GoogleReaderAPI		http://code.google.com/p/pyrfeed/wiki/GoogleReaderAPI
“”"

import urllib
import urllib2
import re  

login = ‘wufetcher@gmail.com’
password = ‘wuFetcher2007′
source = ‘wuFetcher’

google_url = ‘http://www.google.com’
reader_url = google_url + ‘/reader’
login_url = ‘https://www.google.com/accounts/ClientLogin’
get_feed_url = reader_url + ‘/atom/feed/’

def get_SID():
	header = {‘User-agent’ : source}
	post_data = urllib.urlencode({ ‘Email’: login, \
								‘Passwd’: password, \
								’service’: ‘reader’, \
								’source’: source, \
								‘continue’: google_url, })
	# @see GoogleReaderAPI: Identification

	request = urllib2.Request(login_url, post_data, header)
	try :
		f = urllib2.urlopen(request)
		result = f.read()
		print result
	except:
		print ‘Error logging in’
		exit(-1)
	return re.search(‘SID=(\S*)’, result).group(1)

def get_results(SID, url, number):
	header = {‘User-agent’ : source}
	header[‘Cookie’]=‘Name=SID;SID=%s;Domain=.google.com;Path=/;Expires=160000000000′ % SID
	post_data = urllib.urlencode({‘n’: str(number)})
	request = urllib2.Request(url+‘?n=’+str(number), None, header)
	try :
		f = urllib2.urlopen( request )
		return f.read()
	except:
		print ‘Error getting data from %s’ % url
	return None

if __name__ == “__main__”:
	sid= get_SID()
	feed_url= “http://feeds.feedburner.com/xumathena”
	# replace this url with the rss feed you want to fetch

	number = 10
	# replace this number with number of items you want to fetch

	result = get_results(sid, get_feed_url+feed_url.encode(‘utf-8′), number)
	f = open(feed_url.split(‘/’)[-1], ‘w’)
	f.write(result)
	f.close() 

Comments

PageRank 终于更新了

我的Blog从4月份开张到现在, PageRank 一直是0. 今天PageRank 更新了, 变成  4 了. 我除了用了 mod_rewrite, 一点SEO都没有做过. 可见只要内容好, PageRank 就上去了. (当然和 AW 同学的 PageRank 还是不能比).

最近 Blog 更新慢了, 因为工作学习上的事情有点忙. 过了这几天就好了. 乘今天出来冒泡的机会向 Blog 读者先说个抱歉. 虽然写Blog 不是任务, 不过看到700多的订阅量和400多的PV (和 AW 同学比还是太小了), 感觉要是每天不加点新的内容, 真的对不住大家 :)

Comments (1)

几条面试题

1. 两个单向链表, 开头结点不一样, 在中间某处开始, 结点一样了, 比如
a-b- c-
       |- p q e d
r-t-y-u-

用最好的方法找出第一个公共节点(本题是 p)

2. 一个唱片, 可以被分成8个大小一样的小扇形. 要求给每个扇形涂上红色或者蓝色, 使得唱片旋转起来以后, 按照顺序读出颜色序列, 就能判断唱片是顺时针旋转还是逆时针.

3. 如何判断一个整数是不是完全平方数 (不允许开方)

4. 数一数一个无符号整数有多少 bit 长 (不允许使用 mask, 想最好的方法)

5. 几条根本等价的概率题

不知长度的日志文件, 如何等概率选出100条.

用两个数码 (2bit)的存储空间 估算我Blog的每天访问量. (假设只有0-500, 500-1000, 1000-1500和1500-2000四档)

第一个全答对的送小奖品 :)

研究资本主义面试题, 向党的十七大献礼

Comments (10)

I Am the Very Model of a Modern Major Googler (Song)

LOL. My second favourite song this month.

For lyrics

Comments (1)

Google 如此找人, 让我害怕

两个月前收 到Google 一个猎头的邀请我去谈谈的信后, 今天又收到另一个 Google 猎头的 Hello from Google. 其实只是被猎头找找聊聊, 这种事情也没啥值得拿出来炫耀, 只是我真的很奇怪, 不知道他们这些人是怎么用人肉搜索引擎发现我的邮箱的. 除了我的Blog 和几个个人主页, 我在网上从没留过邮箱. 我的Blog 和个人主页 PageRank 都是0, 怎么会被人发现呢?

面对 Google 猎头这些”套词”信件, 我真的对眼前这个巨头感到害怕起来.

1. 可以想象, 每年无数优秀的人会被这样套词. 也有很多的人就此选择和Google面试.

2. Google 是世界上最受欢迎的雇主, 拿了 offer 去的比例算是非常非常高的.

3. 听我在Google 的朋友说, Google 每个人的员工号都是唯一的, 就算实习生以后走了, 员工号也就空在那里. 据说李开复的员工号已经是10000+了. 我曾经打算要是博士毕业加盟Google, 指不定能搞到 32768 (2^15), 但据朋友说此号码已经分配了. 估计等到我毕业的时候, 65536 (2^16) 也没有了.

4. 据说如果 Google 猎头招到优秀的人, 是有奖励的. 这也是猎头不停发邮件的原因. 可问题是再这样无序的满地招人, 到处发信(我个人的感觉), 这个公司就不是求贤若渴, 而是圈人运动了. 如果一个公司的架构不能适应这样的招人速度, 越多的牛人进来, 问题只会越尖锐.

5. 如果Google 架构很好, 可以养这么多牛人, 他们要是不造 Google 牌航天飞机, 把总部搬到火星, 或者造宇宙终极计算机, 还真对不起他们的智商和Google 赚的钱.

总之, 一方面, 我觉得要是真的这样到处发信招人, 即使是求贤若渴, 也绝对不是健康发展的 Google; 另一方面, 如果Google 真的这样健康发展, 几年后Google 是不是真的该造出什么终极的让其他互联网公司根本无力抗衡的东西出

来? 无论怎样, 说实话, 这样的Google, 让我害怕.

现在, 我只想做个普通的学生. 希望等我毕业的时候, Google 还是如日中天, 并且我能顺利加入这家伟大的有趣的公司. 至于我的员工号, 我希望是111111(十进制).

猎头: 我现在对我从事的项目非常感兴趣,我感觉到我正在做一些了不起的研究和应用; 而且,我必须先完成我博士学业。所以,我暂时不会加盟其他公司。如果将来加盟其他公司,我的第一选择是 Google.

Note to recruiters: Please don’t offer me a job now. I am quite proud of my current research and project. Additionally, I have to finish my Ph.D. study first.

Google will be my first choice in the future.

另: 哪位朋友想加盟Google, 我或许可以代为推荐, 我在Google 也有能帮助推荐的朋友. 可以坦率的说, 推荐的分量比自己投简历要重要得多.


有人说, 等我有了钱, 养一只狗取名叫古狗,养一只鸽子叫谷鸽. 本文和这句话一样, 纯属ZB, 请用自己智力判别.

Comments (10)

How to prepare a good resume for Google (and other companies)

All the materials are cited from Google. I highlighted some important items that might be useful for our Chinese students.

>General information to include

To make it easier for us to determine where you might best fit within our organization we ask that you take a few simple steps to help us understand your qualifications. Following the guidelines below will ensure your resume/CV finds its way to the appropriate group more quickly, giving you a better opportunity to discuss your qualifications in person or via a phone screen.

* All resumes/CVs and supporting materials must be submitted electronically; no paper resumes will be accepted.
* PDF, HTML, or Microsoft Word documents or text formats are acceptable – or you can submit using plain text format.
* All resumes and related materials (transcripts, etc.) should be submitted in English.
* Pictures, images, or other graphics are not necessary – and are discouraged as they can slow evaluations.
* Only send essential personal information – be sure to include your name and how to contact you in the resume, not just your cover letter. Include your email, phone, and residence address. Do NOT include your gender, date of birth, age, family status, or personal identification numbers.
* It isn’t necessary to include military service you may have performed, unless it reflects some special achievements or accomplishments that you feel illustrate your qualifications for the job.
* To increase the accuracy of the information we have about you and the speed with which we’re able to reply to your submission, please keep your resume clean and simple. The use of special formatting, tables, images, multiple columns, etc., can decrease the ability to accurately review resumes. As we’ve found with Google itself, plain text works best!

>Submitting a resume – Educational background

Your resume/CV should reflect your academic achievements and accomplishments in these areas. In the education section of your resume, be sure to include the information outlined below.

* Your resume should show all post-secondary institutions attended, degrees conferred, and a cumulative grade point average (if available) for each degree received.
* Only report your educational history dating back to the university level; do NOT include elementary or secondary schooling. However, if you completed a “year abroad” program as part of your pre-university education, feel free to include this in your resume.
* Provide a brief description of any important projects you completed as part of your coursework, and indicate whether it was all your work or done as part of a team. If part of a team, indicate your own role and contributions to the effort.
* If you graduated from a university within the last five years, include a copy of your transcripts (unofficial is okay), a list showing individual coursework completed and grades received, as well as the overall grade average.

>Submitting a resume – Your Work Experience

You may be fresh out of a university, or have substantial work experience and a history of accomplishments. Either way, we want to know what skills you’ve acquired along the way. We’ll look closely at the work experience section of your resume, so the information you provide here is very important. Please follow the guidelines below carefully.

* List your experience – projects completed, accomplishments, etc. – by your position with each employer.
* Include more information than just the name of your employer and your job title. We also want to see concise, yet important, detail on your specific accomplishments and the impact your efforts had on your company.
* Rather than including all job responsibilities, only focus on those that you feel are relevant to the job for which you are applying at Google.
* If you worked while attending a university, either during the summer or concurrent with your course work, be sure to include a brief mention even if it isn’t specifically related to a potential job at Google.

>Submitting a resume – Additional Information

Here at Google, we value talent and intelligence, group spirit and diversity, creativity and idealism. Googlers range from former neurosurgeons and puzzle champions to alligator wrestlers and Lego maniacs. Tell us what makes you unique!

* Include the names and contact information of 2-3 references. These can include faculty advisors, co-workers, managers, or others who can talk knowledgeably about your skills and abilities
* Be sure to include any awards you’ve received, articles you’ve published, or conference presentations you’ve given.
* We don’t need to see copies of any awards or publications, just a reference to them.
* We don’t need copies of any written references you already have, just a mention of 2-3 individuals that can reflect on your most recent skills and experiences. Be sure to include their contact information. We will not contact your references until after we talk to you.

> What to expect from your interview

* While we’ll certainly do our best to make you feel comfortable during the interview process, we’re very interested in learning more about how you approach problem-solving. The questions you’ll be asked will be in-depth and will be intended to let us get a peek at how you think about complicated things. Many candidates find this challenging, but ultimately exhilarating. It’s your chance to show an appreciative audience exactly how much you’ve learned about your area of expertise.
* Interviews are always conducted in English and you should have a strong command of the language so you’ll be able to describe your ideas clearly. This is essential as all positions interact directly with engineers in the U.S. and other countries.
* Google’s phone screen and in-person interviews are highly technical in nature. You’ll be asked to write code during the interview itself and to speak to the technical details of your past designs and implementations . You should expect that your interviewers will have a great deal of curiosity about the specifics of your work and will ask questions about how you arrived at your conclusions. Our engineers admire and respect the work of others and are truly interested in learning more about what you’ve accomplished and how you did it.

Comments (3)

互联网的新审查

今天digg 出了一个情况:digg 对用户的内容进行了审查,并禁止了部分用户发言。美国是没有什么反总统或者反党的顾虑的,那么为什么 Digg 要下这个重手呢? 原来,有的用户贴出了一串数字。这个128位的二进制串是所有蓝光和HD-DVD 加密算法的基石 HD-DVD 的一个设备码. 好莱坞以及无数家大公司这么多年的心血全部白费. (我以后专门写文章讲这个解密原理). [Update: 严格的说,只要这个设备码,就可以轻松解密和盗版所有现有的 HD-DVD。以后的影碟会继续更换加密方式。但是这个门一开,以后想关就难了]

美国数字千年法案上并没有关于一串数字是否涉及破坏版权的规定。但是美国曾经判过“非法素数” 的例子。因此,按照数字安全法案,这个号码被要求删除也说得过去。

不过 digg 的用户不干了,他们纷纷说,digg 已死, 强硬贴下那串数字后永远离开 digg。Digg 是黑客的乐园,可以想像如果走掉核心用户,就好比猫扑走掉核心用户一样, digg 就不是digg 了。不过美国人善于危机公关,我们拭目以待这次digg 如何收场。

数字千年法案已经让Google 出来要求blogger 用户删除在帖子中公开的号码了,可见这次的来头非常大。但是对于不受这个法案约束的其他国家,比如中国和英国的Blogger 用户,不知道Google 是否会以服务器在美国为由要求删除 。 YouTube 上有人把这个号码唱成了歌,如果Google 继续被要求删除,我们就会看到一个强硬的Google 还是一个被好莱坞和大公司“审查”的Google.

wikipedia 本来也有和这段号码相关的条目,现在已经被删除。所有相关条目都被保护不允许更改,可见这次的来头…

这次的事情我们可以从这几个角度看:

1. 到底是不是核心用户决定一个社区
2. 危机公关怎么做
3. Google 会不会向千年数字版权法妥协
4. 到底这串数字的其他形式,比如说唱形式,是否构成了对数字安全法的侵害?

Update1: 现在的digg 首页全讨论这个问题,人们用各种各样的方法在散布这个号码,比如写成图片,做成IP地址等等,来告诉digg, 这样审查是没有效果的。任何一篇和这个号码有关的文章都能几分钟变火。

Update2: 据说Digg 管理者收了钱Google 已经被要求删除相关内容.

Update3: 关于“非法素数”大概的意思是这样的: 一个牛B 的黑客 用C语言写了一个破解DVD的程序, 但他没法发布,因为发布是违法的。所以呢 他把编译好的2进制公布出来,再转成10进制,正好是一个素数。后来, 美国法律规定这个数违反了千年数字法案的,因此这个数字被称为“非法素数”, 至今仍然有人辩论是否可以把一个数字定为非法。[wiki

Update4: digg 创始人开始转变立场了。

We hear you, and effective immediately we won’t delete stories or comments containing the code and will deal with whatever the consequences might be.

If we lose, then what the hell, at least we died trying.

Digg on,

Kevin

翻译成中文就是: 用户,我们听到了。我们将不删除含有那个code 的文章并且准备应对由此造成的任何情况。 如果我们失败了,那也管不着了,至少我们尝试过了。 把这个文章digg 上去! Kevin 这一轮digg 大战,用户彻底胜利了. 可以想像这样会有更多的用户来digg 而不是更少。

Update 5: 按照我的理解,这次AACS必定会罢休,而且及其可能不会要挟Google删除搜索结果。 原因是这样的,在Google 的 所有DMCA条款上都有这样的一行字:

Please note that a copy of each legal notice we receive is sent to a third-party partner for publication and annotation. As such, your letter (with your personal information removed) will be forwarded to Chilling Effects (http://www.chillingeffects.org) for publication. You can see an example of such a publication at http://www.chillingeffects.org/dmca512/notice.cgi?NoticeID=861. A link to your published letter will be displayed in Google’s search results in place of the removed content.

啥意思呢,就是说, AACS给Google 发的信会被Google 转发给第三方,而Google 的相关搜索结果会被指向这个信。这个是Google 的条款,也就是说,AACS 无法阻止这个信的公开。不幸的是,这次的信中指出的一个侵权URL本身就含有那个码。也就是说,AACS 自己发的信,按照一切法律,Google 都照做了的话,用户就无论怎样还是会看到那个码,即使Google删除所有违反法律的内容,这个信是不可能被删除了。如果AACS要 Google 和第三方删除这个信,那就是自己打自己了,因为信是自己写的。这次这个事情好玩了。

Comments (22)

关于版权说几句

今天关于输入法网上流行一篇文章,叫谷歌输入法,是个丑闻,但和版权无关。这个事情我已经说了很多话了,不想继续说两家公司了。不过作者说词库属于数据库范畴,所以和版权保护不大一样,在我国不受保护。本来看过就算的,可是让我担心的是这篇文章被keso推荐阅读,也在奇迹上发表了,也就是说非常多人会读到。我觉得在这个问题上我有点不同认识,想说一下。

1. 从技术角度说,词库不是一般意义的数据库。

为什么呢,词库的确是个数据库,但是这个数据库不是把网络上所有词放在一起就行了,如果认真研究谷歌词库的格式,就会发现当中有一个项是词频,还有一个项是注音。因为这两条,这个数据库的意义就不一样了。为什么呢,举个例子吧,假设Google 没有PageRank, 自己把所有网页抓起来,建了一个数据库,那么,这个数据库是符合辛勤采集原则的,因为网页目录仅仅是一个目录,因此很难说Yahoo!对网页目录有版权,或者Google 和其他公司有版权。但是这个词频就让数据库的意义变了。为啥呢,可以想像,到底是PageRank是Google搜索质量的核心呢还是Google的海量数据库呢,答案当然是前者,因为假设Baidu也拿到了PageRank, 理论上Baidu 也能做出一样的质量。那么,附加在网页库上的PageRank 指标能不能被保护呢,要不要被保护呢。当然要,因为这个数据是支撑Google 质量的灵魂。同样,词频是支撑输入法首字正确的灵魂,因此,当一个数据库中包含自己生成的数据的时候,就不是辛勤采集原则了。好比咨询公司的市场调查报告中估计了各个公司以后的发展方向,财务走向,那么这就不是简单把财务报表放在一起的数据库,而是带有自身贡献的受法律保护的作品了。

2. 数据和算法代码的不可分性

输入法这个例子很特殊,而且为了自定义词库扩充,技术上把算法代码和词库分开了。那么,分开的受不受知识产权保护呢,答案是肯定的。一来,sogou 没有单独发布这个官方词库作为一个开放数据库,而是作为sogou 输入法这个产品的部件发布的。二来无论怎么说,这个库有EULA, 谷歌没有遵守。如果举证恰当,这个侵犯著作权的官司谷歌肯定吃亏。三来,只是在这个特例中词库是纯文本易于获得的形式,试想如果sogou 把这个词库封装成dll的话,对他的使用就构成软件反向工程和著作权侵犯了。按照我们国家一般对软件的规定,封装成目标代码的模块和原模块是同一事物。法律也不会因为不同的封装形式作出不同的判定。 因此,从这个意义上说,只是这个判例形式特殊,本质上sogou 的词库的确属于软件产品的一部分,具有不可分性,并不能用法律上不完善的数据库资源来界定。

3. 中国网民相关知识的缺乏

由于中国的开放源代码运动不如国外,盗版软件使用非常多,再加上教育本身不强调公开可获得与公开可利用的区别,造成很多GFan 对这个事情有误解。我举个小例子,假如你使用了国家统计局的一些资料写一篇报告,在美国,你必须自己转述这些话,而不能原样抄,结尾也要给参考文献,尽管这些资料是公开可获得的,你也必须对资料源给出应有的尊重。如果资料源公开且声明版权,那么使用时必须遵循版权声明。以前大家有个错误的观念,认为公开发表的资料是随意可以拿来修改再发布的。开放源代码运动就会告诉你,修改再发布必须要遵循怎样的原则,商业用途和非商业用途的区别在什么地方。再说个例子或许更好理解了,珊瑚虫QQ做的很好,裁剪原来的QQ, 添加新功能,然而,腾讯并没有授予珊瑚虫修改再发布部件的权利,因此这个官司显然会输掉。 现在帮谷歌在版权问题上洗白已经是徒劳了,只希望他们两家好好协商把这个事情处理过去。

提醒大家:sogou 输入法词库不是简单的数据库资料,作为软件部件一样受法律保护,这个不是Google快照那些层次的版权争议,这个是软件著作权层次的,这个上面,谷歌是理亏而且法律上无法反击的,只要sogou 举证到位,谷歌法律上麻烦比较大。

Comments (2)

别拿技术忽悠人

本文自由转载(CC 署名 非商业)。作者:美国华盛顿大学计算机科学系博士生Eric You XU, 研究方向是人工智能。

附:这是我第一次写文章拿出头衔,不是吓人,是为了避免人以为我拿技术忽悠人。我是有点不爽写这篇文章的,言辞上可能激烈了点,本文对事不对人。

每次谷歌出了什么问题,总有这样的句式出来:”这个这个问题嘛,技术上是这样这样的,你们不懂技术,来讲谷歌的坏话,不是Baidu的间谍就是XX的狗腿,要不就是愤青! “。 比如说,上次出现中国翻译成不好的词事件,月光出来辟谣了说这个么,是不好的词和中国的概率关联大了,所以翻译成不好的词了。 上次 方军竖中指,又有人说这个么,就是按照搜索频率排序的,你们不懂技术和算法,所以不能怪谷歌。 这次 谷歌的输入法不幸和搜狗的一样而更不幸的是和自家搜索提示给的不一样的时候,晨钟暮鼓又出来辟谣了, 说这个么,很显然谷歌没抄,网民搜出的网络词库当然是是一样的阿。 好吧,你们总是用技术来说理,你们总是说,谷歌的技术是没有问题的,问题出在群众的智慧上,谁让群众都去搜黄色的,谁让群众都去搜搜狗开发人员名字的,谁让群众偏要把中国和不好的词联系起来的。一个个出来讲话的好像都是研究计算机方向的教授,元老,技术领袖。 网民就是被你们教训的,愤青就是被你的鄙视的,没文化就是被你们教育的。我在这里表明一下我强烈的不赞同态度。我认为, 澄清一件事情,不是用伪技术的谣言去驱赶另一个谣言,不是用大家都不懂其实自己也不懂的东西再次侮辱网民的智商。

我们说,技术不是一切,任何做技术的都要考虑到实际,经验非常重要,这就是为什么老程序员和新程序员写出的程序不一样,为什么人月神话讲优秀的程序员和一般人效率差十倍。我们首先要承认,谷歌的团队还很新,的确有考虑不到的地方,谷歌应当通过这些事情调整自己的团队,而不是把个人技术失误推到群众头上,这个是技术人员第一要务。 我在谷歌有几个好朋友,在Google总部也有,我问他们到底出现这些失误的时候怎么办,他们无一例外的都说是技术人员考虑不周, PM管理不严,我倒没看到他们把责任推到网民头上的。现在反而现在出来帮谷歌辟谣的人倒是技术领袖了,非要把技术上的事情推到用户上。 其实本来我想顺着说几句狂妄的话一一指出这些”懂技术的人”技术上的荒谬,不过我想想没王三表的文采就不要学老罗的骂街,况且理应对事不对人。我就想问,你们辟谣的各位高手中,懂机器翻译和自然语言处理的有几个,懂输入法的有几个,懂关键词提取和过滤的又有几个,包括前几天一个朋友和另一个朋友争论的时候(名字我隐去),一个人非要说趋势的算法是那样那样,不是这样这样,那么懂Google趋势是按照什么近似算法来提取日志的又有几个? 认真在技术上粉Google, 看过什么叫BigTable, 知道什么是MapReduce, 知道GFS, 会自己搭机群,了解数据挖掘,认真处理过中文语料,写过输入法,知道中文处理的大概内容的又有几个。别以为上过大学,看了TAOCP就是专家。当然,我自己也不是专家,我也不敢说我全懂,不过我一眼就知道有些人简直什么都不懂。

为了避免口水,也为了不偏重技术让这篇文章不可读,我不想一一指出这些错误了,我只希望我们学习计算机的和搞技术的,了解到这一点:”出了问题,就是技术人员和PM的责任,和用户无关“,拿用户说事的互联网,是Web 0.5, 是时代的倒退,就算在单机软件时代我也没有看到过这样推卸责任的。

我是一个忠实的Google 粉丝,我每天使用Google各项产品的次数多达百次,包括搜索,Gmail Reader Blogspot Talk Map Earth Code …, 我也有很多好朋友在Google/谷歌工作,我对Google的映印象一直非常好, 但是我不希望有人用伪技术或者假装懂技术为谷歌的技术失误辩护。 技术失误也是失误,考虑不周也是失误,不要往算法和”相信群众”上推,哪个年轻的团队没有失误呢, Google 一开始不也被SEO 和作弊严重困扰么。关键是认识到经验的不足,迅速修正,对广大网民做出交代,而不是啥事情都往技术上推,说技术领先,算法 自动产生,网民给的数据就是这样,不能怪谷歌。 啥叫技术领先呢,做出网民满意的结果才叫技术领先,技术领先,比的是最后的结果效率,不是一两句忽悠人的概念。还有,不懂技术的人少假装懂技术忽悠人,别 以为自己有多了不起,不知道一年才读了几本书看了几段代码。我这篇的主要目的就是提醒大家注意某些伪装懂技术的人,伪技术装起来比没技术更可怕。好比科学打假,这个不行那个不行,人家是伪科学你是真科学,妈的 自己到底懂多少科学? 当然我也怕你们用同样的话说我,所以我先退一步摆个姿态,我也一样,我也没读多少书,看多少论文,不过上面的几个领域,我都称得上中等研究水平,所以有底 气说这些。我写在这里,希望大家自由转载,是不想让互联网成为被谷歌 PR后的粉饰太平的文章堆或者不懂装懂人的炫耀场。

回到主题:澄清一件事情,不是用伪技术的谣言去驱赶另一个谣言,不是用大家都不懂其实自己也不懂的东西再次侮辱网民的智商。

附技术片段:

月光的话:

我推测这个错误可能是这么产生的,就是在Google的自动机器学习过程中,主要学习的是一些西方文献以及其翻译结果,由于西方对于中国的评价大多都是负 面的,因此某些”不好的字眼”经常和”中国”一道出现,当出现的频率很高的时候,Google就根据以往的常识,将这个”不好的字眼”和”中国”进行了一 定关联,于是就出现了这种智能推测。当然,这个技术问题解决起来也不难,就是扩大Google翻译的机器学习资料库,从不同的环境多分析一些资料(比如也分析一下人民日报的信息),这样推测词义出现的偏差可能会小一些,结果也会更为”中立”一些。然而令人不解的是,某些怀有不可告人动机的人不去研究技术和算法上的问题,而专门去找一些奇怪的缺陷错误,并将这种纯粹的技术问题上升到政治层面。

我的评语:月光同学可能不知道圣经语料库和Google联合国语料库这回事,月光同学了解基本的HMM模型,但是没了解语料库是怎么搜集的。的确要研究算法上的问题,不过不了解算法的人不能把问题全部推到算法上,这个肯定是技术失误而不是算法,退一步讲,如果算法出这个错,那就是模型有问题。

庄表伟的话:

我不知道这个方军什么来头,只怕是毫不懂法,及不懂算法,也不懂法律。更不要说美国的法律。


我的评语:算法根本不值钱,如果算法值钱的话,要这么多老程序员干什么。就算你懂算法,做了这个东西,难道没考虑过滤黄色内容不是失误么。这里的确是谷歌的技术失误,美国法律明文禁止暴露性内容,如果Google在美国没有做技术处理,老早就被抗议电话打爆了。


晨钟暮鼓的话:

因为Google输入法与搜狗输入法都是充分的利用网络词汇作为词库,而取词都是来自于网络以及用户进行搜索的关键词,因此在词库上具有相似性是很正常的一件事。 再说词汇的注音错误的问题,其实这个更容易反驳。搜狗输入法也曾经有过这些错误的注音错误,只是现在人工改正了过来。这说明这些错误是因为通过网 络词库,网络取词而造成的,而同样的,Google输入法也是网络取词,因此出现同样的错误也是很正常的。错就错在Google对竞争对手的关注太少,没 有汲取对手的教训,而被对手抓住把柄。基于以上几点,关于Google输入法盗用搜狗输入法词库的问题无非是搜狗在面临强大对手时的无赖之举,而Google输入法不要被这些东西纠缠不清,踏踏实实地加紧开发进度,解决目前已发现的bug,因为你离我想象中的还差很多。

我的评语:相似的可以的,但是问题不是相似,是重合,除去你的那一个例子,其他搜狗开发人员在谷歌搜索提示中都没有,也没有正确结果。相反, 网络词库只会告诉你有这些词,频率是多少,而不是告诉你这个词读什么, 因为汉字的多音性,词的读音必须要手工标记,而实际上谷歌网络搜索建议的结果是正确,fenggong 等在Google搜索框中都是正确的结果, 为什么到输入法的时候词频就错了呢,如果采用网络词库,这不是前后矛盾么。 这个地方我怀疑作者并不不了解输入法的实现技术。

Comments (4)

Oops, love is <3 and Google needs a spell checker


If you type <3 in Gmail talk (Note: Not the gtalk client or any jabber client), you will get a gif.
Take a look at this and this.

Well, no wonder! Love is really the thing needs <3 people :)
BTW, this is Google’s LOGO today:

Is it Google or Googe? Well, the romantic version is: g and l are falling in love. Or, you can not spell “girl” without g and l, they are together! (Chinese Version)

The XXX version is, they are 69ing. (Oh dude, I just cite the comments from Digg)

// BTW, The Internet is a series of tubes, not pipes. So enjoy YouTube and no bother Yahoo! Pipe. LOL!

Comments

« Previous entries