Jan 1, 2007 - 菊花台,满城尽是错歌词

Comments

投票投票,中国咬字最不清楚而粉丝最多的歌手是谁: 哈哈,大家都知道,周杰伦

今天逛baidu, 把周杰伦的新歌 “菊花台” 下载下来听,恩,很不错,终于我能把每个字都听清楚了,不容易啊! 相当年<爱在西元前>被我听成<爱在戏院前>的日子一去不复返啦。歌词很好,意境也很到位,于是我尝试着把我听到的默写下来,就是这个歌词:

你的泪光 柔弱中带伤
惨白的月弯弯 勾住过往
夜太漫长 凝结成了霜
是谁在阁楼上冰冷地绝望
雨轻轻弹 朱红色的窗
我一生在纸上 被风吹乱
梦在远方 化成一缕香  
随风飘散你的模样
菊花残 满地伤
你的笑容已泛黄
花落人断肠 我心事静静躺  
北风乱 夜未央
你的影子剪不断  
独留我孤单 在湖面成双

花已香完 飘落了灿烂
凋谢的石道上 泥泞不堪
愁莫渡江 秋心拆两半
怕你上不了岸 一辈子摇晃
谁的江山 马蹄声慌乱
我一身的戎装 呼啸沧桑
天微微亮 你轻声的叹
一夜惆怅如此委婉
菊花残 满地伤 你的笑容已泛黄
花落人断肠 我心事静静躺
北风乱 夜未央
你的影子剪不断  
独留我孤单 在湖面成双

不过我对一些细节也不敢确定,于是我请教baidu小朋友和Google小朋友,结果却让我几乎对人类未来失去信心。

先看百度版本的几个白痴的不能再白痴的错误(错的不是baidu):

雨轻轻叹;我依身在纸上被风吹乱;凋谢的市道上冥冥不堪

于是我使用Google搜索引擎,得到更多的错误:

Sina 版本 被风乱也微摇…独留我孤单在湖面神伤

JayBlog:  …花已向晚 飘落了灿烂 … 凋谢的世道上 命运不堪
[

莫名奇妙的版本](http://95346.blog.51cto.com/blog/85346/12968): 在湖面生霜, 守末渡江 秋行拆两半

不得不说,吐字不清的周天王这次好不容易没有用古文也没有用快唱,结果网上的菊花台歌词居然没有正确的… 阿门,周董你下次还是继续吐字不清吧,反正人只要觉得好听,歌词是什么好像的确没什么关系(说到这里周杰伦拿出小刀准备自杀)。不过我转念一想,为什么没有正确的版本呢?恩, 估计听这歌的人十有9.9都是网上下的,没人买那个依然饭特稀的专集, “你们听不懂我唱不要紧,也没个人买张CD把歌词好好对一下,全部电驴BT.., 满城尽放盗版歌啊…“  (周先生本来已经自杀了,听到这里又爬起来再自杀了一次…)

搞笑完毕,解释一下歌词吧,也让广大网民知道错在哪儿:

显然这个歌表现的是要在远方建立功名的将军和妻子之间的感情。阁楼,绝望,和温庭筠的望江楼过尽千帆意境类似。一生在纸上意指欲建功名,刻汗青,意思非常明显。菊花残,满地伤之句读过李清照就知道了。北风乱,夜未央和下面的天微微亮正好是一个意思,怎么也不能听错。秋心拆两半拆的就是愁字,愁者,悲秋之心也,这句意思也自包含了。最后湖面成双意境和李白举杯邀明月,对影成三人一个意思,大凡名家写孤单,从来就不用单字,全用双。比如鲁迅的 ” 院子里有两棵树,一棵是枣树,另一棵也是枣树” .  还有一些歌词写的”我有影子做朋友”, 把孤单写成孤单的就没意思了.

个人认为这个歌词有非常高的文字艺术造诣,不象周前面很多歌就是ZB名词堆砌.

这篇文章写的很好: http://blog.hiu.cn/post/view/263363 比我讲的详细多了,可惜他分析的歌词也不通

百度知道上有人问这个问题,估计也是被不同版本折磨到不行的好学之士。

还有,这个现象充分表明一下几点: 1,中国的听歌的网民的古文字功底不高;2, 听周杰伦的歌不需要歌词;3. 盗版mp3在中国很猖獗,baidu mp3的确拥有巨大的流量。4. 百度知道还是知道一点的.

Dec 31, 2006 - 2007 新年快乐!

Comments

今天下雨,明天有雪,果然是风雨送春归,飞雪迎春到。

值此地球上多数人都已经进入2007年之际,我这个少数人的一员谨向大家表示新年的祝贺和羡慕!

今天远在普渡大学的陈锋同学买车了,90年的Honda. 在此谨向他购买到中意的性价比高的日本车表示带有鄙视的羡慕和带有羡慕的鄙视 :)

哼,看来我也要把我珍藏多年的车拿出来了。

其实我也有车,这是我基于LEGO架构搭建的,交由台湾塑料厂代工生产的,自主设计并具有自主知识产权的BMW 7系列(别摸我,切)敞棚手动挡跑车,该车大约相当于90年代国际先进概念玩具水平。有图为证:

什么?要看更多的设计,好,到我的相册去看看吧 :)  http://picasaweb.google.com/xu.mathena/LEGOCAR

[本次车展不配备车模,想看美女的同学就别点了]

大家新年快乐,心想事成!

Dec 31, 2006 - GuestBlog-4. (新年专稿) 科学在哪里? –By Yu Yang

Comments

Yu Yang, 曾任南京大学02数学年级长,也就是本人的年级长。 于同学工作认真,赢得同学尊敬,当年(一直到现在)私下同学都称为首长。于同学现就读于南京大学环境科学工程系,主要从事科学技术对社会的正向和反向作用研究工作.  除去专业成就外,值得一提的是他的文思敏捷,文采极好。他古文造诣极高. 易传春秋, 信手拈来.  除此之外,他对社会历史问题也有深刻认识, 在百合历史版享有盛名.  于同学网名散宜生, 生活态度极佳. 在不在思考社会历史问题的闲暇时间,于同学爱好美食,睡觉。 你可以通过 gookbabynju[AT]hotmail.com 联系他.

   在百合上,曾经写了一篇blog,名字是科学在历史的哪里。这里说科学在哪里,就把科学放在一个更高维的空间来审视。

   首先明确概念,这里的科学指的是从希腊哲学发源的,从文艺复兴中苏醒的,在工业革命至今的时代里占领人们头脑渗透方方面面的认识世界的方式、手段、观感和联想方式。那么有哪些不算这里的”科学”呢?包括非”一元论”世界认识世界的上述内容和西方其他手段的尝试,比如中医、瑜伽、现象学、精神分析学等等。这里插一句,数学我不认为是科学,他是哲学在科学中的化身,他不仅是化身,也是哲学创造科学的手段,我感觉应该它能创造更多的科学外和科学并列的东西。

   科学的发展到今天,令人叹为观止,它解决问题的能力,解决自我问题的能力,都让人觉得放心。科学如今也有很多问题,不能说科学不能解决,也许是时间问题。有人说有科学就足够了。这样的看法恐怕是有问题的。下面开始,我举两个例子,然后对这些例子进行说明:

方舟子谈论中医的时候,认为中医没有研究清楚毒复作用。因为,西药会说会产生什么不良反应等等。那么中医有没有毒复作用的阐述呢?如果说,毒复作用的阐述仅仅指:该药有没有重金属等等,那么中医没有这样的毒复作用阐述。但是中医有这样的阐述,药分凉,热,温等等,一味药单独来看是凉药,那么用多了就”寒盛”。而一付药,他的君是哪味,臣是哪位。各自如何生克,会有什么作用。这是两种话语体系。谁能说那种话语体系错或是哪种话语体系能完全代替另一种?我可以说清凉药是消炎的,也可以说青霉素是凉性的。

当然,我们看到这些话语后面有很多很相像的东西,那个东西暂时不讨论。

佛洛伊德的精神分析说,梦到什么象征着什么,小时候的一件创伤会对后来看似无关的东西产生影响。这些东西,你问他你凭什么这样说?有什么科学依据?你的试验能不能重复?那么最后结论就是佛洛伊德没有科学依据。因为他的精神分析法要靠分析师的能力(这种能力很多时候和通灵的能力很像),不可重复,又成功地例子,也有不成功的例子,成功地不能证明方法必然正确,失败的不能证明方法必然错误。

数学有三种视角:拓扑视角、测度视角、代数视角。每种视角反映的都是所考察点集的真理,但是这些真理是截然不同的,有了测度,我们可以用测度来定义这个集合的拓扑,但并不是说测度的视角可以代替拓扑的视角。

   西方的大哲们也认识到了科学并不是唯一的认识自然,认识自身,认识世界的方式,也做了很多尝试,比如胡塞尔的现象学。

   我一次和池小姐聊到,我们都是接受典型的西方式教育出身的人,很难知道中国人看待自然的角度和联想方式是什么,我们看到一个现象,拿到一个问题,会很自然的那科学的视角去审视,去批判,去讨论什么是不是科学的。而池小姐说:”你关注的是中西之间的问题,而我关注的男女视角的问题。”不错,拉康曾经说:女性并不存在。科学的确是以男性为主导和强势的社会发展出来的,他的第一直觉和观感都是男性的。所以我们发现最前沿的科学中,少见女性身影,强女性用男人的视角和联想方式,那当然不如男人自己来的方便。不过,一位朋友告诉我,西方对于后现代的批判已经证明,不可能从女性的角度发展出科学。但是,有没有可能从女性的角度认识世界,这恐怕不能简单否定。

   有人常常用科学来衡量一切对于世界的认识和观察,一切非科学的此类活动是不是都应该扣以”伪科学”的帽子加以消灭?那么第一个问题就是,科学是不是世界认识和观察领域的检验标准,作为检验标准,表明它必须是先验的,换句话说,如果他是标准,那么它必须是像上帝那样的。否则,如果它自身不是不证自明的,那么它不能够作为一个评判一切这个领域的准则。科学本身从来没有声称过自己是不能被怀疑的,而事实上,科学本身已经发现了很多自己反对自己的内容。所以,科学不可能是评判认识和观察世界行为的评判标准。

   那么科学是什么呢?坦率的说,这恐怕是不能给出定义的,我们只能大致知道它,也能感知它的力量和存在,也能知道什么是它什么不是它。但恐怕想要用语言来确定它,是徒劳的。我只能说,它恐怕是一种角度和联想方式。

   后现代主义对于科学的思考和批判进行了许多,也很深刻。但是并没有引领人们开创出另一种认识世界,观察世界和联想的方式。因为的确太困难了。但是,中国却保留了一种一致沿传至今的视角和联想方式。这是非常宝贵的启发资料和启示。无论中医、风水,他们认识世界的角度和思路都是和科学截然不同的。他们当然不是科学,也不需要科学来认可,正如科学不用他们来认可一样。

   马上就是2007年了,中国的经济腾飞,使得中国人内心开始重建和找寻被甲午所摧毁的文化自信,也开始尝试独立的思考角度去审视自己的财富。中国的责任不仅仅在于经济腾飞,更重要的是,它的独立与一元论世界的延续至今的角度和联想方式,它也许是一个机会,让我们去发现这个另一个真理或是真理的另一面。也许最后我们会发现殊途同归,真理真的只有一个,那也将是伟大的发现。

   谢谢柚子给我这个机会,来谈谈自己的看法,这些看法是很初步的,但非常希望得到大家的讨论。科学是什么?它在历史的哪里?它在哪里?

附注:

   1、那么什么是非一元论呢?很有可能让人以为我所提的是多元主义,其实不是这样的,我们先看看什么是一元论。西方从犹太教亚伯拉罕开始,到天主教、基督教、东正教、伊斯兰教,这些宗教里面,真主或说上帝只有一个,这个上帝自在,自存,先验,不证自明。它不受人类系统活动的影响。当然这是粗粗的说。这在西方人和西方教育接受这心里留下的印迹非常深,比如我们会认为真理应该是简单的,统一的,自洽的,甚至应该是美的。这且不说美是什么。虽然我们没有任何证据表明真理就是这样的。

   反过来看,举个例子,中国的文化中,没有一个这样的东西。”天”这个概念有些类似,但是天是受人的行为所影响的。儒家没有谈有没有真理和真理是什么,是几个的问题,他谈的是如何做,为何做的问题,当然也会流露出”吾一以贯之”这种夫子自身的想法。作为道家来看,没有谈道是什么,而是说道有什么性质,然后描述道不会是什么样,道的类似有什么性质。佛家虽然有偶像,但实际上,佛性是每个人的固有性质,至于说真理,他用的词是真如,既然是真如而不是真,谈什么几个?更重要的中国人心中到底有没有一个上帝类似的东西,是没有的,这一点是中西方人们之间思维差异的重要表现和重要原因。

  

   2、数学和科学的区别在哪里?一方面数学不是实证的,它的每个面孔都是建立在直觉沙滩上的由衍生意义和逻辑构建的大厦。科学本身是一个建立在直觉沙滩上的此类大厦之一。也许是直觉沙滩的不同造成的衍生意义的方式不同,所以东方的和西方的是那样的不同。第二,数学很多内容触碰到了语言不能到达的地方,而科学做不到。

   这两个话题很庞大,驾驭起来非常困难,希望我能抛砖引玉,使得各位大德能够有更火花的思考。

编者附注: 如果各位觉得后面本Blog留给大家讨论的空间不够大,可以直接给Yu Yang同学发信,或者留下邮箱地址我邀请您写下一篇客座Blog [预计二月一日发表]

Dec 29, 2006 - 年前破例写一篇,感谢恒信仪表(我的第一个实习企业)

Comments

今天一早邮递员大妈就按门铃,原来是陈叔叔(其实是陈总经理)公司的新年礼物送过来了,EMS好快。迫不及待打开,OPPO S3L 超薄的mp3 和贺卡一张. 如此贵重的礼物飞跃重洋 本就让我受宠若惊,精美贺卡上的那些祝词更让我倍感亲切。苦于没有相机,无法贴出来了。自己破例发这个帖子,是要感谢陈总一直的信任,感谢公司开发部的李工程师,储工程师,曹书记,当然还有我叔叔对我和获鼎的帮助。

回想在大二的那个寒假,自己到公司里去学习单片机,顺带着就和几位工程师讨论开发基于网络的信息管理系统的重要性。后来陈总和我叔叔就说让我们练练手,于是就拉了获鼎,写了一个雏形,后来又请获鼎到我家,一起蹲点苦干一个星期,终于把系统做出来。我们除了得到比预想高的多的收入外,还在那一个星期几乎把长江里的鲜货全吃到了。如果说模拟股市是一个校园玩具系统,那么这个就是我们正式做开发的起点了。就我所知,获鼎后来在IBM面试的时候就是演示的这个系统,因为这个系统的框架是获鼎拟定的。我想除了获鼎过人的组织能力和代码编写功底外,这种为中小企业搭建的灵活不失效率的系统的经验也是打动IBM的一点吧。对于我,更加有切身体会了,后来在MSN, Google面试中的设计模式和重构的面试题就是因为我认真重构过这个系统而轻松搞定;在西门子参与的项目也和这个项目类似,我甚至把一些模块在西门子的内部项目中重用了, 这个项目是我真正做IT开发的起点,因此我一直要感谢当年他们的信任(想像一下,把一个和企业核心业务相关的项目雏形交给两个才学了一年Java不到的两个大学生,该有多大的魄力,当然最后我们也较好的完成了任务, 没有辜负他们的信任)

最难得的是,我,获鼎和公司中的工程师们,和陈总,在合作中结下了深厚的感情。每年过年我们都互相拜年走动;每次放假,他们都邀请我去玩,并常常问我获鼎的情况。他们也常常为获鼎在IBM, 我面过Google而自豪。 人世间很多东西不是金钱和巧言令色所能换取的,我为有这样的经历,结交到这样的朋友,感到非常自豪和幸福。

因此,今日破例写博,向陈叔叔,向公司里的两位工程师,曹书记,向刘秘书,当然还有一直支持我的叔叔和我的搭档获鼎表示感谢。

Dec 25, 2006 - 我的圣诞节

Comments

今天是圣诞节,大部分商店都关门了。我照例出门到Starbucks, 一杯炭烧一块面包。打开电脑查邮件,开始一天的编程工作。中午回来的时候顺手抄了本TIME, 看看今年的年度人物,也就是所谓的 “YOU”(你)。

互联网使用者当选《时代》周刊年度人物(图)

我看到的TIME封面和这个新浪网上的不一样。在YOU的地方,实际上是一个反射的聚合树脂材料(有点像汽车窗隔光热的)。因此,你可以在这个镜子中看到自己的样子。(你看我省了一块镜子钱)(补充:关于文章的中文翻译和真实的封面,可以参见和菜头的文章)

文章中有句话很经典,

It’s about the many wresting power from the few and helping one another for nothing and how that will not only change the world, but also change the way the world changes.


国内的有些
歪脖二点灵的同学开始欢呼了,我觉得没有必要,一来TIME也说,现在也不知道这条路的前途如何(而且后面给的例子基本上都是美国相关的人物,除了我们的 三表哥的不许联想)二来说实话,这个年度人物是给向社区和他人贡献内容的YOU, 不是给贡献流氓软件和流氓平台的网站制作者,当然,也不是给这样的用户网民:

1楼:沙发。
2楼:板凳。
3楼:楼上的,不要老坐沙发好不好?
4楼:今天真靠前,顶一下。
5楼:支持博主,永远支持你。
6楼:我觉得博主就是个傻逼。
7楼:楼上的,说话文明点好不好?
8楼:激情电影下载、在线观看(省略数十条链接)
9楼:欢迎到我的博客观光,链接地址为……
10楼:寻找性伴侣,加我QQ,号码:×××××××××
11楼:支持国货的中国人请到这里投票,地址为……
12楼:博主我操你妈,博主我操你妈,博主我操你妈,博主我操你妈,博主我操你妈,博主我操你妈……
13楼:看你的博客很久了,越来越喜欢你。
14楼:博主终于更新了。
15楼:博主,我们交换个连接吧。
16楼:如何让自己更加坚挺,点击下面链接:《男人坚挺的十大秘诀》。
………” (摘自王三表的不许联想

(大家有习惯的照抢沙发啊,我只是就歪脖二点灵说事)

===========(我是无语的分割线)====

附带说一个问题,怕自己忘掉。最近月光Blog就Google出现的机器翻译中侮辱中国的问题发表了一篇文章。我看着觉得有点纳闷。当然我不是NLP(Nature Language Processing)的专家,甚至连入门都没有。不过我觉得他说的至少有两个问题:

我分析这个错误可能是这么产生的,就是在Google的自动机器学习过程中,主要学习的是一些西方文献以及其翻译结果,由于西方对于中国的评价大多都是 负面的,因此某些”不好的字眼”经常和”中国”一道出现,当出现的频率很高的时候,Google就根据以往的常识,将这个”不好的字眼”和”中国”进行了 一定关联,于是就出现了这种智能推测,导致了所谓的”Google辱华翻译事件“。

  1. (假设按照月光所说,Google的词对齐全部按照双语网页作为收集 )shame 和中国联系的假设肯定不正确。

如果说美国人第一眼看到shame, 联系起来的绝对是Bush, 而不是China. [和shame 搭配的词太多了,China的概率肯定不是最大的,shame+bush返回的网页就比shame+china多的多,而且问题是不光shame联系起china, 还有很多词,说实话我平时听那些词的时候好像从来没有和China搭配]

总的来说,Google放弃传统的翻译方式,改而使用机器自动分析统计识别的方法,是一大进步,极大提高了文章的翻译质量,后续Google应该做的是优化识别统计算法,使得翻译的结果更加准确。

  1. 我不知道月光是否理解机器翻译和统计语言模型,说话MS前后矛盾。如果结果不正确是语料库的问题,那么应该优化/扩大语料库,和算法没什么关系才是。

当然我是同意月光所说的”技术问题”而非”政治问题”的,只是有点小疑问写下来。想起大半年前在Google面试时曾向李开复博士请教他的语音识别(很汗的是这个居然是我问他的面试问题附加问题,据说标准的问题应该是 “您认为Google在中国怎样本土化或者怎样迎接baidu挑战” 以便让人觉得面试者对Google有很好了解滴~~ sigh, 当年多么勤奋好学~~),他也曾和我说过是用类似HMM的模型。这个很好理解了,Google有最庞大的网页,因此相邻状态转移概率很好算,参见黑板报的 统计语言模型,但是实际上不可能在所有的英文单词和中文词组中做全局的搜索,这里还有一个词典(当然也是统计意义上的)。月光假设说这个词典存在,shame就是翻译成和中国有关,我不大相信,我看熊猫也没翻译成中国熊猫,李宇春也没翻译成中国超女李宇春,他们与中国的相关度都比 shame-中国 高的多。还有就是”优化识别统计算法” 说的实在比较模糊。如此辟谣有点糊弄大众。

关于机器翻译,统计模型也未必最好,目前变结构的翻译(英文从句在后,中文就在前了)还有保证没语法错误的翻译也还不是太完美。

一些参考文献:

关于Google机器翻译的介绍在这里

关于统计语言模型在 这里(此文正好发布在我在Google面试结束回南京第二天,记忆尤其深刻)

关于HMM对语言翻译的处理在这里


附:本Blog于2007年新年将有一篇重量级客座文章发表。自即日起为钓起大家胃口,暂停发布几天