关于版权说几句

今天关于输入法网上流行一篇文章，叫谷歌输入法，是个丑闻，但和版权无关。这个事情我已经说了很多话了，不想继续说两家公司了。不过作者说词库属于数据库范畴，所以和版权保护不大一样，在我国不受保护。本来看过就算的，可是让我担心的是这篇文章被keso推荐阅读，也在奇迹上发表了，也就是说非常多人会读到。我觉得在这个问题上我有点不同认识，想说一下。

从技术角度说，词库不是一般意义的数据库。

为什么呢，词库的确是个数据库，但是这个数据库不是把网络上所有词放在一起就行了，如果认真研究谷歌词库的格式，就会发现当中有一个项是词频，还有一个项是注音。因为这两条，这个数据库的意义就不一样了。为什么呢，举个例子吧，假设Google 没有PageRank, 自己把所有网页抓起来，建了一个数据库，那么，这个数据库是符合辛勤采集原则的，因为网页目录仅仅是一个目录，因此很难说Yahoo！对网页目录有版权，或者Google 和其他公司有版权。但是这个词频就让数据库的意义变了。为啥呢，可以想像，到底是PageRank是Google搜索质量的核心呢还是Google的海量数据库呢，答案当然是前者，因为假设Baidu也拿到了PageRank, 理论上Baidu 也能做出一样的质量。那么，附加在网页库上的PageRank 指标能不能被保护呢，要不要被保护呢。当然要，因为这个数据是支撑Google 质量的灵魂。同样，词频是支撑输入法首字正确的灵魂，因此，当一个数据库中包含自己生成的数据的时候，就不是辛勤采集原则了。好比咨询公司的市场调查报告中估计了各个公司以后的发展方向，财务走向，那么这就不是简单把财务报表放在一起的数据库，而是带有自身贡献的受法律保护的作品了。

数据和算法代码的不可分性

输入法这个例子很特殊，而且为了自定义词库扩充，技术上把算法代码和词库分开了。那么，分开的受不受知识产权保护呢，答案是肯定的。一来，sogou 没有单独发布这个官方词库作为一个开放数据库，而是作为sogou 输入法这个产品的部件发布的。二来无论怎么说，这个库有EULA, 谷歌没有遵守。如果举证恰当，这个侵犯著作权的官司谷歌肯定吃亏。三来，只是在这个特例中词库是纯文本易于获得的形式，试想如果sogou 把这个词库封装成dll的话，对他的使用就构成软件反向工程和著作权侵犯了。按照我们国家一般对软件的规定，封装成目标代码的模块和原模块是同一事物。法律也不会因为不同的封装形式作出不同的判定。因此，从这个意义上说，只是这个判例形式特殊，本质上sogou 的词库的确属于软件产品的一部分，具有不可分性，并不能用法律上不完善的数据库资源来界定。

中国网民相关知识的缺乏

由于中国的开放源代码运动不如国外，盗版软件使用非常多，再加上教育本身不强调公开可获得与公开可利用的区别，造成很多GFan 对这个事情有误解。我举个小例子，假如你使用了国家统计局的一些资料写一篇报告，在美国，你必须自己转述这些话，而不能原样抄，结尾也要给参考文献，尽管这些资料是公开可获得的，你也必须对资料源给出应有的尊重。如果资料源公开且声明版权，那么使用时必须遵循版权声明。以前大家有个错误的观念，认为公开发表的资料是随意可以拿来修改再发布的。开放源代码运动就会告诉你，修改再发布必须要遵循怎样的原则，商业用途和非商业用途的区别在什么地方。再说个例子或许更好理解了，珊瑚虫QQ做的很好，裁剪原来的QQ, 添加新功能，然而，腾讯并没有授予珊瑚虫修改再发布部件的权利，因此这个官司显然会输掉。现在帮谷歌在版权问题上洗白已经是徒劳了，只希望他们两家好好协商把这个事情处理过去。

提醒大家：sogou 输入法词库不是简单的数据库资料，作为软件部件一样受法律保护，这个不是Google快照那些层次的版权争议，这个是软件著作权层次的，这个上面，谷歌是理亏而且法律上无法反击的，只要sogou 举证到位，谷歌法律上麻烦比较大。