Abstract:
最近在研究图算法和分区, 需要研究把二部图分块. 遗憾的是很难找到非随机的二部图. 在仔细阅读了Knuth的Stanford Graphbase 后, 一个大胆的想法浮出水面: 根据现实某一个模型建立一个二部图. 这个图的节点就是中国当代男女明星, 这个图的边就是: 他们之间有没有绯闻. 先不要批评我八卦, 待我一一说明如下:
Motivation:
因为研究需要, 我们需要建立一个实际(非随机)二部图, 拥有大约300-500个节点. 受Knuth建立非随机二部图启发, 我希望这个图能够来自实际, 易于建立, 并且大家乐于帮我建立. 因此我要想一个让大家愿意来贡献内容的主意. 八卦是人的天性, 追星是人的要求, 因此我希望大家能够乐于告诉我新的节点(你喜欢或不喜欢的明星), 或者新的边(某男某女又好上了). 而且中国娱乐圈虽然黑了点, 按照绯闻选出的图基本上可以保证是二部图.
Basic Idea:
以我目前的信息收集能力和我对国内娱乐圈的了解程度, 要完成这样一个工作是很难的, 因此我希望这项研究能够大致这样进行.
-
规定一个顶点集合, 这样选择图的时候不至于太大. 我目前选择 百度贴吧->华人明星作为我顶点集合的超集. 考虑到有些娱乐圈人士并不是和娱乐圈内部人员发生绯闻(e.g. 李湘李厚霖, 章子怡 霍启刚 郭晶晶), 因此此集合可以拓展, 只要保证每个拓展点都和我定义的顶点集合有至少一条相邻边. (PS: 上边两位男士都不止一条). 我最终的计划是能够找到300-400个顶点, 如果更多就更好了, 不过我真的怀疑能不能找到这么多的八卦. 我宁愿相信这个图是稀疏图.
-
所谓的有绯闻, 这里要给出标准的定义: 如果有具体的新闻报道说某两人发生绯闻的, 算发生; 疑似发生的, 我会用Google确认. 为日后避免争议, 我会保留相关一些新闻报道. 如果两人已经结婚(王菲 李亚鹏)或者发生过婚姻关系(王菲 窦唯), 算发生. 凡发生绯闻, 无论一次或多次(谢霆锋 张柏芝) 都算发生 在两个顶点之间连一条边.
-
为避免时间长了这个图越来越大变成二部完全图(好像没有可能就是了), 绯闻数据截至到今年年末, 即使2007年第一场绯闻, 对不起, 我们的图不再收录.
My Current work and funding
目前我以王菲和谢霆锋这两个通常的绯闻中心往外 目前已经收集到近三十人. 我会在下面的一个星期中继续收集, 并画出二部图. 但是我没有时间和精力天天在网上找绯闻. 因此我需要大家帮忙. 我自己给自己定了一个funding: 100$. 如果有人给我送来数据, 我最后一定会寄给你一张支票[在美国或加拿大] (按照给我数据数/我收到数据总数). 如果在中国, 我会考虑回国后请你吃一顿. 如果你也是因为对八卦的乐趣加入这个计划, 我可以把最后汇总的八卦表发给你, 相信应当是最最全的.
还有, 一旦图制好, 我会隐去人名, 并且按照Stanford Graphbase格式写好数据文件让感兴趣的人随便下载. [Of course 带人名的表你也随时可以问我要]
Data Format
请提供如下格式的信件(发送到 youxu AT wustl.edu )或者回帖
某人:某人
[weburl]
烦劳信件按照上面的格式写一下, 中间的标点 “:” 可以中文可以英文. 注意明星的名字尽量不要写错, 我这边是电脑处理, 写错了就要加节点了. 如果有可能, 最好提供一下新闻出处(写在方括号中). 要不然真的要把我从研究生活活逼成一个小报记者了.
Appendix
目前我收集的人名有:[排名不分先后]
王菲 窦唯 李亚鹏 周迅 李大齐 瞿颖 黎明 舒淇 谢霆锋 高圆圆 张亚东 徐静蕾 王朔 张柏芝 陈冠希 陈晓东 陈小春 梅艳芳 郑秀文 卢巧音 章子怡 霍启山 郭晶晶 秦海璐 李湘 李厚霖 …
我知道的都是报纸电视上天天说的有名的 还有一些我不熟悉的 请大家多多提供信息