艾未未新浪博客的一些数据统计

整一个月零一天前,我在北京和 zuola 老师见了一面,商量怎么恢复 aiweiwei 老师被新浪和谐掉的博客的内容。 因为 Google Reader 这些阅读器实际上缓存了博客的 feed, 而我以前又有专门抓 Google Reader 内容的代码,所以很容易就抓到了所有的数据。

根据我抓到的数据,我说几个统计数据: Aiweiwei 老师从 2007 年 7月22 日 开博一来,到 2009年5月27日被和谐,一共有 1639 篇文章

这 1639篇文章中, 有这样几个数据:

1. 从2008 年 11月 27 日某个一直想要说法的公民死亡开始,aiweiwei 的博客上每天贴了一张 “蜡烛”, 从”一“ 开始到 ”蜡烛 一百八十一 09.05.27“ 结束,中间只缺了 08年12月14日这一天。 我也写博客,我知道坚持一天贴一张图需要的坚持和毅力。 但就这样的贴图,都被新浪删除了不少。

2. “5.12遇难学生名单 补充” 系列,从“一”开始, 到 “一百三十二”, 里面全是一个一个活生生的名字。 这些文章,平均被新浪删除三次,艾未未老师也不和新浪发火,删了三次,就重新贴三次。 因为 aiweiwei 老师把新浪的删除日志也贴出来,所以,像以下这样的句子在我抓到的数据里比比皆是, 比如,数据中有以下这几行:

您的文章《5.12遇难学生名单补充(二) 09.03.17″>已被管理员转移到回收站。给您带来的不便,深表歉意。

您的文章《被删除文章 5.12遇难学生名单补充(二) 09.03.17″><已被管理员转移到回收站。给您带来的不便,深表歉意。

您的文章《被删除文章 5.12遇难学生名单补充(二) 09.03.17″> 已被管理员删除。给您带来的不便,深表歉意。

就 “被删除文章 5.12遇难学生名单补充(二)  09.03.17” 这篇文章, aiweiwei 贴了三次。 像这种文章,一般刚贴出来,新浪就很快删除了,所以我们读者根本看不到痕迹。可是,这些痕迹在 RSS 里面每条都有,所以很容易看到一条条这样触目惊心的删除,贴,再删除,再帖。在看不到数据之前,我们都不知道这样列着遇难学生名单的文章居然能被这样删三次,贴三次。这种持久的删了再帖的耐心,我想普通人是做不到的。

我知道有人不喜欢艾未未老师,以为他是在搞行为艺术,是想出名,看了数据之后,我想至少大家能够对他做的事情多点支持和理解,也就行了。

为了让更多的人看到 aiweiwei 老师在新浪博客上付出的心力和做的事情,我愿意将我抓到并处理后的数据与所有的人分享。 因为数据非常大, 想要的读者请给我发邮件。您拿到数据之后,可以直接导入任何 WordPress 博客。另外,我有一整套的从 Google Reader 恢复 Wordpress 的代码,只要您的 WP 博客有人订阅,全文输出,如果数据因为某些原因丢失了, 我的代码可以帮你很快的恢复博客。 稍后等我有空,我会把代码和恢复中的技术要点全部贴出来。

38 Comments »

  1. lochmeters said,

    July 4, 2009 @ 5:52 pm

    您老blog RSS不能全文输出呀,能不能看一下怎么回事

  2. Jeffye said,

    July 4, 2009 @ 6:04 pm

    此事功在徐老师,利在千万P民!

  3. fieldsfarmer said,

    July 4, 2009 @ 7:29 pm

    zan!
    徐宥凭着自己的技术,可协助将国内的一些总被封的人的博客挂到国外服务器上。

  4. sswv said,

    July 4, 2009 @ 7:47 pm

    “缺了08年12月14日这一天”为什么偏偏是这一天呵?查查2002年12月14日甘肃玉门地震,那天我可就在震中,那次地震死2人。

  5. RightHand said,

    July 4, 2009 @ 8:59 pm

    这个是要赞的
    你回去了吗

  6. allen galler said,

    July 4, 2009 @ 10:51 pm

    Nice! 这些数据恢复工作很有意义!

  7. 小茄 said,

    July 5, 2009 @ 12:13 am

    您的邮箱是?

  8. 小茄 said,

    July 5, 2009 @ 12:15 am

    我是一名志愿者,现在正在做512遇难学生的数据录入工作,我们这一共有5000多个数据。我们的录入网站是www.512students.org

  9. Eric said,

    July 5, 2009 @ 1:04 am

    @小茄
    youxu A@T wustl.edu

  10. lbaby said,

    July 5, 2009 @ 5:34 am

    以为是笑来写的呢,看了一下python 代码,吓一跳
    后来一看,不是。

    讨厌那帮人民财富的管家,没有人监管还真以为自己是 主人了

  11. zhangyijun said,

    July 5, 2009 @ 8:40 am

    Aiweiwei的新Blog的RSS的输出在GoogleReader中格式有问题,建议帮他改进一下,xexie

  12. guest said,

    July 10, 2009 @ 3:47 am

    totally, fully support. Even if you are “US citizen and protect the integrity of US and reputation of US government” (which you aren’t I assume at the moment), I still appreciate and can see your point.

    Some of your article/arguments are controversal or can be easily mis-interpreted, if I may say so.

    I am still having too much time to waste now… Only practical job helps the future, you have done a nice job help AiWeiWei, thanks again.

  13. yjpc said,

    July 11, 2009 @ 11:38 am

    是真做事的中国人!顶一个!

  14. dylanklc said,

    July 16, 2009 @ 3:15 am

    告诉我aiweiwei的sina url
    或许我能从时间机器里挖点内容出来~

  15. dylanklc said,

    July 16, 2009 @ 3:18 am

    以前都是拿c写的 没想到想在Google api +python这么容易就搞定了……

  16. dylanklc said,

    July 16, 2009 @ 3:25 am

    http://web.archive.org/web
    这个时间机器 里能找很多以前的东西.

  17. 孟 said,

    July 23, 2009 @ 10:52 am

    您好,请发一份给我吧,我现在都只能用代理访问他的国外博客,旧的文章都没有读到,想好好认识艾未未,他的行为给到我的印象就是个好汉

    最近我也读了一些关于公盟的文章,先认识到盲人陈光诚,再看到还有许志永老师,我为他们的正义所感动

    谢谢你的分享~

  18. jhqn2000 said,

    July 29, 2009 @ 12:42 pm

    请给我也发一份吧,我也要看他的文章,十分感谢!

  19. Anonymous said,

    August 1, 2009 @ 8:26 pm

    我的

  20. Anonymous said,

    August 1, 2009 @ 8:27 pm

    请给我也发一份,谢谢!

  21. liruqi said,

    August 7, 2009 @ 4:28 am

    这个博客有RSS输出吗?

  22. liruqi said,

    August 7, 2009 @ 4:29 am

    sorry, 看到了..

  23. simbablack said,

    August 7, 2009 @ 9:55 am

    我的电脑以及水平很业余,很可能打不开相关文件,但也还是希望索取一份学习使用
    感谢徐宥的勇气,细心,工作
    再次感谢

  24. x said,

    August 17, 2009 @ 1:23 am

    顶!以中国人的名义!

  25. xiaofan said,

    September 6, 2009 @ 3:12 am

    看了老妈啼花的片子,觉得很震惊,有必要让更多的朋友知道,我们这个社会的真实现状,让更多人参与进来,整个社会都是豆腐渣工程虽不是我们的错,如果现世的人任由这种状态持续,我们都有罪,艾先生第一次才知道他,真是无限惭愧,Google阅读器难订阅他的博客,请将代码发给我,谢谢!

  26. sanbu said,

    September 17, 2009 @ 9:30 pm

    谢谢,给我一份吧

  27. june said,

    October 30, 2009 @ 6:10 am

    也请给我一份吧,麻烦您了,谢谢

  28. Wei said,

    December 15, 2009 @ 2:35 pm

    曾经挺反感艾未未,他在德国Detail的一期专门介绍中国奥运建筑的文章的前面,发表了对中国政府,现状很可以说听起来非常刺耳可以说是攻击性的批评。而他的在瑞士的事务所却是这些项目的参与者。 看起来是一个“同流合污”的人还要故作清高。
    但是自从道听途说,他曾经说过 “自己就是要像一个傻B一样的站出来的时候“就理解他了,
    他这种态度,不正是很多现在身在海外的中国人对自己国家的矛盾心态的写照,对国内黑暗现状的深恶痛绝,和为自己国家做点贡献的强烈意愿。

  29. blocP said,

    December 30, 2009 @ 5:28 am

    麻烦发来一份 谢谢!

  30. kafuka_1 said,

    January 29, 2010 @ 2:54 am

    我也想要一份

  31. Aminby said,

    February 24, 2010 @ 10:59 pm

    good ..

  32. 撒把盐 said,

    February 24, 2010 @ 11:09 pm

    你好!感谢你为大家做的一切!
    另请教,我以前有个WP博客更新版本的时候全部变成了乱码,备份也竟然是乱码,当然发现只有google reader里的数据正常,但一天后rss更新导致GR里的数据也变成了乱码。不知“从 Google Reader 恢复 Wordpress 的代码”能否起作用恢复早期正常的数据。
    谢谢!

  33. robin said,

    February 25, 2010 @ 2:42 am

    thanks.

  34. robin said,

    February 25, 2010 @ 2:43 am

    这个链接无法访问:http://blog.youxu.info/wufetcher.py

  35. 吐泡泡的小鱼 » 【小鱼吐泡】2010.2.25 said,

    February 25, 2010 @ 10:12 am

    [...] 艾未未的新浪博客的一些数据统计 [...]

  36. inkfishling said,

    February 25, 2010 @ 2:15 pm

    我想要一份,謝謝!

  37. You Xu said,

    February 27, 2010 @ 3:58 pm

    各位朋友,谢谢支持。 为了安全和隐私的考虑,我把带有邮箱的留言都隐藏了。
    如果你需要数据,请在留言的时候填写邮箱就行了,不需要在留言中留下邮箱,
    我在后台可以看到你的邮箱。

    wufetcher 的链接已经修复。

  38. 来去自由 said,

    March 8, 2010 @ 11:49 am

    你好,能否也给我来一份,不甚感激!我之前粘贴的艾老师博客里的关于地震及杨佳事件的文章存在U盘里因为中病毒找不出来了,正急呢,想找人复制一份,如果可以帮帮忙,就太感谢了!

RSS feed for comments on this post · TrackBack URI

Leave a Comment