今天关于输入法网上流行一篇文章,叫谷歌输入法,是个丑闻</wbr>,但和版权无关。这个事情我已经说了很多话了,不想继续说两家公司</wbr>了。不过作者说词库属于数据库范畴,所以和版权保护不大一样</wbr>,在我国不受保护。本来看过就算的,可是让我担心的是这篇文章被k</wbr>eso推荐阅读,也在奇迹上发表了,也就是说非常多人会读到</wbr>。我觉得在这个问题上我有点不同认识,想说一下。

  1. 从技术角度说,词库不是一般意义的数据库。

为什么呢,词库的确是个数据库,但是这个数据库不是把网络上所有词</wbr>放在一起就行了,如果认真研究谷歌词库的格式,就会发现当中有一个</wbr>项是词频,还有一个项是注音。因为这两条,这个数据库的意义就不一</wbr>样了。为什么呢,举个例子吧,假设Google 没有PageRank, 自己把所有网页抓起来,建了一个数据库,那么,这个数据库是符合辛</wbr>勤采集原则的,因为网页目录仅仅是一个目录,因此很难说Yahoo</wbr>!对网页目录有版权,或者Google 和其他公司有版权。但是这个词频就让数据库的意义变了。为啥呢</wbr>,可以想像,到底是PageRank是Google搜索质量的核心</wbr>呢还是Google的海量数据库呢,答案当然是前者</wbr>,因为假设Baidu也拿到了PageRank, 理论上Baidu 也能做出一样的质量。那么,附加在网页库上的PageRank 指标能不能被保护呢,要不要被保护呢。当然要,因为这个数据是支撑</wbr>Google 质量的灵魂。同样,词频是支撑输入法首字正确的灵魂,因此</wbr>,当一个数据库中包含自己生成的数据的时候,就不是辛勤采集原则了</wbr>。好比咨询公司的市场调查报告中估计了各个公司以后的发展方向</wbr>,财务走向,那么这就不是简单把财务报表放在一起的数据库</wbr>,而是带有自身贡献的受法律保护的作品了。

  1. 数据和算法代码的不可分性

输入法这个例子很特殊,而且为了自定义词库扩充,技术上把算法</wbr>代码和词库分开了。那么,分开的受不受知识产权保护呢</wbr>,答案是肯定的。一来,sogou 没有单独发布这个官方词库作为一个开放数据库,而是作为sogou 输入法这个产品的部件发布的。二来无论怎么说,这个库有EUL</wbr>A, 谷歌没有遵守。如果举证恰当,这个侵犯著作权的官司谷歌肯定吃亏</wbr>。三来,只是在这个特例中词库是纯文本易于获得的形式</wbr>,试想如果sogou 把这个词库封装成dll的话,对他的使用就构成软件反向工程和著作权侵犯了。按照我们国家一般对软件的规定,封装成目标代码的模块和原模块是</wbr>同一事物。法律也不会因为不同的封装形式作出不同的判定。 因此,从这个意义上说,只是这个判例形式特殊</wbr>,本质上sogou 的词库的确属于软件产品的一部分,具有不可分性,并不能用法律上不</wbr>完善的数据库资源来界定。

  1. 中国网民相关知识的缺乏

由于中国的开放源代码运动不如国外,盗版软件使用非常多</wbr>,再加上教育本身不强调公开可获得与公开可利用的区别</wbr>,造成很多GFan 对这个事情有误解。我举个小例子,假如你使用了国家统计局的一些资</wbr>料写一篇报告,在美国,你必须自己转述这些话,而不能原样抄</wbr>,结尾也要给参考文献,尽管这些资料是公开可获得的</wbr>,你也必须对资料源给出应有的尊重。如果资料源公开且声明版权</wbr>,那么使用时必须遵循版权声明。以前大家有个错误的观念</wbr>,认为公开发表的资料是随意可以拿来修改再发布的</wbr>。开放源代码运动就会告诉你,修改再发布必须要遵循怎样的原则</wbr>,商业用途和非商业用途的区别在什么地方。再说个例子或许更好理解</wbr>了,珊瑚虫QQ做的很好,裁剪原来的QQ, 添加新功能,然而,腾讯并没有授予珊瑚虫修改再发布部件的权利</wbr>,因此这个官司显然会输掉。 现在帮谷歌在版权问题上洗白已经是徒劳了,只希望他们两家好好协商</wbr>把这个事情处理过去。

提醒大家:sogou 输入法词库不是简单的数据库资料,作为软件部件一样受法律保护</wbr>,这个不是Google快照那些层次的版权争议,这个是软件著作权</wbr>层次的,这个上面,谷歌是理亏而且法律上无法反击的</wbr>,只要sogou 举证到位,谷歌法律上麻烦比较大。