Thursday, October 14, 2010

由rich-get-richer模型论粉丝打榜的重要性

Power law distribution是描述复杂系统中受欢迎程度(popularity)的一种非常常见的分布。比如,统计数据得出,卖出去k本的书籍数目跟1/k^r成正比,其中r为一常数,k为变量。有k条被指向链接(in link)数目的网页跟1/k^r成正比,等等。这个分布的一个重要的特征是它的 heavy tail。也就是说,它描述了复杂系统中某些节点非常受欢迎的必然性。一定有些书籍是热卖书籍,一定有一些人物家喻户晓,一定有一些歌曲烂大街,一定有一些人手中聚集了大量财富,等等。

Barabasi在1999年的《科学》论文 [1] 中,第一次给出一个描述此现象的过程,通常叫做rich-get-richer,或者选择性加入模型 (preferential attachment model)。我们以互联网网页的链接数为例。在他的模型中,假设n个网页逐一加入到系统中,每一个新加入的网页以概率p随即选择链接到一个现存网页,以概率1-p随机选择一个现存网页并复制该网页的链接,即指向此网页所链接的网页。换个方法说,以概率1-p选择链接到一个网页的可能性跟该网页现存链接数成正比。这正是这个模型的名字的来源。用简易的推导可见,一个网页的链接数目的增长率跟此网页现有的链接数成正比,具有k条链接的网页数目恰恰就是power law分布。这个模型可以用来解释很多复杂的社会系
统中的power law分布。比如具有人口数目k的城市的个数同1/k^r成比例,正因为人口增长速度很自然的同现在人口数目成正比,假如所有人有后代持同等概率。在解释社会财富分布,或者明星的受欢迎程度也同样适用。一个“火”的程度的人物,被别人讨论而影响他人的可能性,恰恰跟他/她目前“火”的程度成正比。

这个模型的一个结果是系统中popularity的不确定性。最开始的小范围优势可以在发展过程中得到无限放大。最开始的一些随机噪音可以有蝴蝶效应般的决定最终结果。最近的一篇《科学》论文 [3] 中,Salgankik, Dodds和Watts设计了如下的试验。试验者被随机分配到8个组,每个试验者可以先听提供的48支歌,然后选择最喜爱的歌曲下载。每支歌旁边都显示目前的下载数。下载数试验者可见。在另一组对比试验中(称作第二组),目前的下载数不可见。虽然两组结果中,好听的歌曲通常下载量高,不好听的通常下载量低。但是,很好听的歌曲中变成最受欢迎的歌曲可以有显著的不同,第一组的结果,受欢迎的歌曲market share的方差也有显著的增大。这个试验证实了rich-get-richer理论在描述歌曲下载和烂大街程度这个问题上的正确性。

总的来说,对于歌手,和歌曲,在同样的质量的假设下,最开始的宣传,对于路人的正面的影响,可以起到的作用可以非常的关键。从花生的角度来说,积极地打榜,积极地在论坛上宣传,从公司的角度,积极地在广播媒体上宣传,对一首歌(在同样质量的歌曲中)的胜出可以有近乎决定性的作用。

总之,大家要牢记打榜和口口宣传的重要性,此即本文的目的。

附注:本文只讨论质量超过某一阈值的歌曲。对于无论是演唱糟糕还是作词作曲糟糕的歌曲,即使有大规模的宣传/买榜也不能烂大街的例子,由于推理过于简单,不在本文描述范围之内。

[1] A.-L. Barabási, and R. Albert, Emergence of scaling in random networks,
Science 286, 509-512 (1999).
[2] D. Easley and J. Kleinberg, Networks, Crowds, and Markets: Reasoning
about a highly-connected world, Cambridge University, to be published in
2010.
[3] M. Salgankik, P. Dodds, and D. Watts, Experimental study of inequality
and unpredictability in an artificial cultural market. Science, 311:854-856,
2006.

No comments: