想了几个月了,最近下决心要买了。大致的需求就三个:
-
网页支持上,使用*nix 的空间,支持php. 支持其他的额外的更好. 将来的
-
空间不能太小,支持FTP, 我想帮助国内的Hiweed和其他开源软件在国外架一个镜象。
-
短时间之内被GFW搞的可能性小一点,中国的访问顺利一点。
还有额外的比如404定制啊,MySQL啊,估计大家都有,也不是太讲究了。
我知道各位读者中用主机空间的人很多,大家给点意见吧,说说自己用的也行。
想了几个月了,最近下决心要买了。大致的需求就三个:
网页支持上,使用*nix 的空间,支持php. 支持其他的额外的更好. 将来的
空间不能太小,支持FTP, 我想帮助国内的Hiweed和其他开源软件在国外架一个镜象。
短时间之内被GFW搞的可能性小一点,中国的访问顺利一点。
还有额外的比如404定制啊,MySQL啊,估计大家都有,也不是太讲究了。
我知道各位读者中用主机空间的人很多,大家给点意见吧,说说自己用的也行。
不知道这句话是不是夸人的。
昨天和同学聊天,一个同学开玩笑怂恿我去追系里一个我不太喜欢的女生,为表明他 “假猩猩” 的立场,他说,if 我没结婚,我肯定追。我说,等一下,一看就知道你编程基本功不好,你的 else 语句呢? 他说,靠,你太有才了。
早上和两个同学聊天。第一个同学说,美国衣服是不是很大啊,我说是的,大号羽绒服直接买回家做羽绒被。同学说,你还真是与众不同,不走寻常路。我说,哪能啊,美国又没有美特斯 帮威。她来了句:你太有才了。
还是今天早上,某同学幽幽的向我抱怨说,为什么你总在线,而某人的电话从来就打不通。我说,这个就是莫菲法则啊,美景当前永远没有相机,想念某人却永远无法联系,while 讨厌某人他却一直在线。 她说,你真creative!。考虑到我在美国同学在中国,按照locale, MSN会自动把中文翻译成英文,英文翻译成中文,我估计原文就是 You 太有才了。
我就这么有才么? 有才没意思,我想有车!
日本のサイト管理者様へのメッセージ:
<span class="STYLE2">日本の皆様、初めまして。百度株式会社代表取締役の陳海騰です。</span>
<span class="STYLE2">百度は中国の最大の検索エンジンです(ネットユーザの約7割)。 </span>
<span class="STYLE2">海外初の進出となった日本市場へは2006年の12月に本格的に参入致したばかりです。 </span>
<span class="STYLE2">さて、弊社はまもなく日本語版検索サービスを開始致しますが、それにあたり現在日本語サイトのwebページの収集Spider(クローラ)を実施しております。 </span>
<span class="STYLE2">これにより御社のサイトに過剰なアクセスが発生したため、管理者の方には多大なるご心配をおかけ致しました。 </span>
<span class="STYLE2">百度株式会社の代表としてこの度Baiduspiderが御社のサイトにご迷惑をおかけしましたことに関して心よりお詫びを申し上げます。 </span>
<span class="STYLE2">今後はこの問題について会社全体が真摯に受け止め、日本のインターネット業界におけるルールに従い、このようなことが二度とないように努めていく所存でございます。 </span>
<span class="STYLE2">弊社はこれまで現れた問題について以下のように対処致しました: </span>
<span class="STYLE2"></span>
- 各サイトへのクローラー負荷を下げております。Baiduspiderの最大クローラー頻度を9回/秒から1回/3秒までに下げました。以前のクローラー頻度の1/27になりました。
- 各サイトの規模とIP負荷に対し、それぞれ対応できるクローラー対策を設定し、中小のサイトに対し、クローラー頻度は20秒/回以内にコントロールしています。
- サイトに対し圧縮クローラー機能を追加したことにより、同じ負荷においてサイトへのアクセス量をもともとの1/3に下げました。
- 各サイトに対し、毎日のクローラー総量をコントロールしました。仮にサイトの最大制限を超えた場合、当日に調整致します。
- 各サイト管理者様におきましてはBaiduspiderに対し、何かご質問がございましたら、たいへんお手数ですが、webmaster-jp@baidu.com までにご連絡して頂きたいと思います。
百度はこの様な努力を継続し、御社のページビューにも役に立つような最適なネットワーク構築や、より一層の協力関係を築けるよう、日々全力をあげて参ります。
<span class="STYLE2">そしてユーザーがより良い体験をできるよう、弊社のリソースを日本のユーザーの皆様にご提供できれば幸いでございます。 </span>
<span class="STYLE2">万一今後も弊社の情報収集Spiderが御社にご迷惑をおかけすることあった場合、お手数ですが、<a href="mailto:webmaster-jp@baidu.com" title="webmaster-jp@baidu.com">webmaster-jp@baidu.com</a> までにご連絡いただくか、直接百度株式会社の代表陳海騰 <<a href="mailto:htchen@baidu.com" title="htchen@baidu.com"> htchen@baidu.com</a>> 宛てまでご連絡頂ければと思います。</span>
<span class="STYLE2">迅速的に対応させていただきますので、何卒よろしくお願い申し上げます。 </span>
</p>
敬具
</span>
</blockquote>
Cited from www.baidu.jp
It SEEMS that (according to Google Translate) Baidu’s spider consumes quite huge amount of bandwidth of the websites in Japan and therefore this is a statement/correspondence about the spider policy. Well, baidu.jp still has a long way to go.
有懂日语的朋友大致解释日文意思么? 我也想了解一下日本的媒体对百度的进入是怎么样的看法. 中日韩市场潜力不可估量的大啊!
Could anyone who speak Japanese simply explain the basic idea of this? I just wonder to now the attitude that the Japanese media holds towards Baidu.
Something interesting:
1. baidu.jp has an IP address of 122.152.128.48, which belongs to Asia Netcom. I’ve looked it up via several ip-geo look-up system. To my surprise, either they do not have a clue or they report Europe, that’s ridiculous.2. If you use wget -S to crawl baidu.jp, baidu.com and www.baidu.com, you will find something interesting.
Baidu.jp:
Server: Apache/2.2.3 (Unix)
Last-Modified: Tue, 27 Feb 2007 09:10:45 GMT
Baidu.com
Server: Apache/2.0.55 (Unix) PHP/4.3.11
Last-Modified: Fri, 16 Dec 2005 03:33:13 GMT
www.Baidu.com
Date: Fri, 02 Mar 2007 00:04:04 GMT
Server: BWS/1.0
We can now assume that BWS is possibly built on UNIX system like BSD or sth.
以后争取每过一段时间推荐一个朋友的Blog. 促进交流,也拓宽我Blog读者的阅读面。大家有什么好的也可以向我推荐。
Schuyler 是我新认识的朋友。 他的英语很好,我们一直用英文聊天。他最喜欢的书是The Art Of Computer Programming, 就是一本某些计算机系本科生都看不下来的书。他最近忙着做一个机器人,而很多人高中的时候还不知道什么叫单片机。他还对卫星航天很感兴趣,观点很有见地。大家可以到他的Blog ( http://www.schuyler.cn/ ) 转转,附带说一下,他的Blog是他自己用DasBlog架设的, 目前看上去还不是太完美,主要是国内用这个的还不多,他也是自己对着文档配置出来的,相当不容易!
当然,说了这么多都是次要的,重点是:他才上高二! 有兴趣的去看看吧 => http://www.schuyler.cn/ :)
江山代有才人出啊! 有时候人和人的差别,就在视野。
我有5个电子邮件地址,工作上用wustl.edu的,私人用gmail的,当然最后都是用Gmail收取. 以前没啥保护意识,乱公布邮箱,现在每天至少90封垃圾邮件. 因为我的用户名中间有个”.”, 而且都不是英语单词组成, 有些字典攻击的Spam根本就打不到我, 所以相比较而言还不是Spam最严重的目标.
用了好久Gmail, 其垃圾邮件过滤的确是非常好的. 我印象中只有一次False Positive (把正常邮件Spam了),这还是因为那封邮件只有一个hello 和一个图片造成的。按照我的经验, Gmail 识别成False Negative(垃圾邮件识别成正常的) 有以下几种,
> 贵公司(厂)财务负责人:
>
> 您好!
>
> 本公司是一家专业为国内外企业提供专项经营服务的股份制企业,可为各类企业代开各种发票,(主要包括:广东省及国内各省统一商品发票、增值税、机械、建筑、广告、运输、服务、税务代开类等发票),公司的客户遍布全国各地,本公司一贯以”诚信、高效、务实”的经营理念和”稳妥、快捷”的经营作风,不断地锐意进取、与时俱进,竭诚为全国各地有需要的客户提供更加全面、更加到位的服务。热忱欢迎您的垂询!!
>
> 顺颂商祺!!!
本来Gmail对中文支持就不好,更不说垃圾邮件识别了。况且这些邮件实在太不像垃圾邮件了。当然这种垃圾邮件有个致命问题,就是有些关键字,只要设置一个 “发票” “财务负责人”, 基本上就可以过掉。(初期我搜”发票”不能定位到这个邮件,也难怪Gmail识别不出来)
Need S0ftware?
OEM software – throw packing case, leave CD, use electronic manuals.
Pay for software only and save 75-90%!Discounts! Special offers! Software for home and office!
TOP 1O ITEMS.$79 Microsoft Windows Vista Ultimate
$79 MS Office Enterprise 2007
…
这些邮件的图片链接是动态内容,也就是说,如果你向那些地址请求图片,spammer 就会知道这个邮箱是有效的,然后,垃圾邮件就会更多。又一次我为了”让垃圾来的更猛烈些吧”,特地把那些图片链接都一一分析了一下, 结果可以想象是垃圾果然更猛烈了……
这段时间大部分的没识别出来的垃圾邮件都是这样的形式,Gmail 基于文本过滤的系统目前没法过滤出来,大约50%的这些邮件往往都在我收件箱。如果都用外部图片的话,虽然Gmail可以不显示图片,但却还是不能识别这些垃圾邮件。至于具体怎么弄,各位读者有没有什么好办法?
如果大家对Spam过滤的研究感兴趣,可以读著名的Essays 系列 (Google:Essays 第一条结果) :
http://www.paulgraham.com/antispam.html
Spam过滤是本质上是Turing Test 问题 (区分人和机器), 因此不要过高期望Spam能够100%被挡掉。但是简单的往往是最好的,基于文本的Bayesian分类器已经非常之强大了, 如果你想到了OCR方法, 我还是劝你暂时先放弃这个吧. 说不定等Google能在图片旁边放AdSense的时候,你再来研究这个 :)
Spam有时候也能变成黑客搞笑的东西,比如说
Google Blogoscoped 就写过一个 十大对付Gmail Spam的办法 , 包括火烧,送Bill Gates 等等。可谓Spam十大酷刑。
当然也有现代派的人把 Spam的标题串成诗的 .读起来比梨花体好多了. http://www.spam-poetry.com/
GNU也有经典的Spam Joke: http://www.gnu.org/fun/humor.html#TOCSpam
PS:
我倒是想,要是我和各位读者说,如果你要给我发邮件,请在邮件中包含一行这样的字符:
5^&&(&*@29bd8067ab0c822cc@)$*@)!$*)@56f485fbd675544ba69d5ec($*#&$@&#@(!
或者我自己从dev/random 拿个串来过一次sha1sum, 把这个串做成我Gtalk/MSN/Email 签名档让大家都能看到。然后我用Gmail Filter, 不含这个的通通Spam, 我就不信Spam 就这么强大,哼哼!
当然,此建议因为强烈不切实际而没啥操作性~~