我有5个电子邮件地址,工作上用wustl.edu的,私人用gmail的,当然最后都是用Gmail收取. 以前没啥保护意识,乱公布邮箱,现在每天至少90封垃圾邮件. 因为我的用户名中间有个”.”, 而且都不是英语单词组成, 有些字典攻击的Spam根本就打不到我, 所以相比较而言还不是Spam最严重的目标.
用了好久Gmail, 其垃圾邮件过滤的确是非常好的. 我印象中只有一次False Positive (把正常邮件Spam了),这还是因为那封邮件只有一个hello 和一个图片造成的。按照我的经验, Gmail 识别成False Negative(垃圾邮件识别成正常的) 有以下几种,
- 像模像样的中文(非英文)邮件 (至少遇到十次):
> 贵公司(厂)财务负责人:
>
> 您好!
>
> 本公司是一家专业为国内外企业提供专项经营服务的股份制企业,可为各类企业代开各种发票,(主要包括:广东省及国内各省统一商品发票、增值税、机械、建筑、广告、运输、服务、税务代开类等发票),公司的客户遍布全国各地,本公司一贯以”诚信、高效、务实”的经营理念和”稳妥、快捷”的经营作风,不断地锐意进取、与时俱进,竭诚为全国各地有需要的客户提供更加全面、更加到位的服务。热忱欢迎您的垂询!!
>
> 顺颂商祺!!!
本来Gmail对中文支持就不好,更不说垃圾邮件识别了。况且这些邮件实在太不像垃圾邮件了。当然这种垃圾邮件有个致命问题,就是有些关键字,只要设置一个 “发票” “财务负责人”, 基本上就可以过掉。(初期我搜”发票”不能定位到这个邮件,也难怪Gmail识别不出来)
- Gmail 初期, 改换的关键词, 比如把Software 写成 S0ftware (现在基本上没有了)
Need S0ftware?
OEM software – throw packing case, leave CD, use electronic manuals.
Pay for software only and save 75-90%!Discounts! Special offers! Software for home and office!
TOP 1O ITEMS.$79 Microsoft Windows Vista Ultimate
$79 MS Office Enterprise 2007
…
- 啥文字都没有,含有几个外部图片链接
这些邮件的图片链接是动态内容,也就是说,如果你向那些地址请求图片,spammer 就会知道这个邮箱是有效的,然后,垃圾邮件就会更多。又一次我为了”让垃圾来的更猛烈些吧”,特地把那些图片链接都一一分析了一下, 结果可以想象是垃圾果然更猛烈了……
这段时间大部分的没识别出来的垃圾邮件都是这样的形式,Gmail 基于文本过滤的系统目前没法过滤出来,大约50%的这些邮件往往都在我收件箱。如果都用外部图片的话,虽然Gmail可以不显示图片,但却还是不能识别这些垃圾邮件。至于具体怎么弄,各位读者有没有什么好办法?
如果大家对Spam过滤的研究感兴趣,可以读著名的Essays 系列 (Google:Essays 第一条结果) :
http://www.paulgraham.com/antispam.html
Spam过滤是本质上是Turing Test 问题 (区分人和机器), 因此不要过高期望Spam能够100%被挡掉。但是简单的往往是最好的,基于文本的Bayesian分类器已经非常之强大了, 如果你想到了OCR方法, 我还是劝你暂时先放弃这个吧. 说不定等Google能在图片旁边放AdSense的时候,你再来研究这个 :)
Spam有时候也能变成黑客搞笑的东西,比如说
Google Blogoscoped 就写过一个 十大对付Gmail Spam的办法 , 包括火烧,送Bill Gates 等等。可谓Spam十大酷刑。
当然也有现代派的人把 Spam的标题串成诗的 .读起来比梨花体好多了. http://www.spam-poetry.com/
GNU也有经典的Spam Joke: http://www.gnu.org/fun/humor.html#TOCSpam
PS:
我倒是想,要是我和各位读者说,如果你要给我发邮件,请在邮件中包含一行这样的字符:
5^&&(&*@29bd8067ab0c822cc@)$*@)!$*)@56f485fbd675544ba69d5ec($*#&$@&#@(!
或者我自己从dev/random 拿个串来过一次sha1sum, 把这个串做成我Gtalk/MSN/Email 签名档让大家都能看到。然后我用Gmail Filter, 不含这个的通通Spam, 我就不信Spam 就这么强大,哼哼!
当然,此建议因为强烈不切实际而没啥操作性~~