• 2006-03-04

    (转贴)长尾巴经济

    Tag:

    长尾巴经济

     

    不要妄想从顶端的少数主流市场中挣到大钱。娱乐业的未来,就在“比特流”细微末端的数百万个细分市场中。

     

    ~Chris Anderson

     

    1988 年,一个名叫Joe Simpson的英国登山家写了一本关于登山运动意外事故的书,名为《Touching the Void(触摸虚空)》,记录了在秘鲁安第斯山脉发生的一次登山惨剧。但是这本书在当时并没有获得很高的评价,只取得了很少的成就,很快就被人忘记了。十年之后,奇怪的事情发生了。Jon Krakauer写了另一本关于登山惨剧的书《Into The Air(深入天空)》,这本书很快成为了畅销作品。而突然之间,《Touching the Void(触摸虚空)》再次开始引起人们的注意,销量逐渐上升。

     

    Random House出版社迅速推出了一个新的版本,以满足人们的需要。图书零售商也把这本书和《Into The Air(深入天空)》陈列在一起进行促销,销量进一步上升。这本修订后的平装版在一月上市,并持续14个星期位于《纽约时报》的畅销书排行榜上。同月, IFC Films发行了一部关于这个故事的记录片予以纪念。现在,《Touching the Void(触摸虚空)》的销量已经超过《Into The Air(深入天空)》的两倍。

     

    到底发生了什么?使这本十年前名不见经传的旧书再度成为畅销书。简单的说,这一切都因为Amazon.com的推荐。这家在线图书经销商的软件记录了用户的购买行为,并且向用户进行推荐,那些喜欢《Into The Air(深入天空)》的读者也会喜欢《Touching the Void(触摸虚空)》。人们采纳了这个建议,并且表示出强烈的赞同,写下了大量狂热的评论;于是,正反馈效应开始发挥作用。

     

    尤其值得注意的是,当Krakauer的书上架的时候,Simpson十年前写的那本旧书已经几乎买不到了。如果是在几年前,Krakauer的读者几乎没有机会听说Simpson的这本书;就算他们知道,他们也无法找到这本书。但是,Amazon改变了这一切。通过对购买倾向和消费者意见的实时掌控,利用在线书店的无限陈列空间,Amazon创造了《Touching the Void(触摸虚空)》现象:一本几乎绝版的图书突然开始畅销。

     

    这种现象不光会出现在网络书店;对于整个媒体和娱乐行业来说,它是一种全新经济模型的典型案例;目前,这种新经济模型只是刚刚开始展示它的威力。互联网上的各种服务,为用户提供了无限选择空间,通过对用户消费行为的统计,我们已经可以得到大量事实:消费者究竟想要什么,他们希望如何得到它?从Netflix的在线DVD租赁,到Yahoo! Launch 的音乐视频,到iTunes Music StoreRhapsody的在线音乐;人们深入到庞大目录的每一个角落,搜寻长长的节目列表,在这里所能找到的内容远远超过Blockbuster Video、Tower Records以及Barnes & Noble(Salemone注:这三家公司分别是美国最大的传统DVD租赁、唱片销售和书店连锁店)所能提供的内容数量。人们所能找到的东西越多,他们就越发的喜欢。人们有了更多的选择,不再遵循以往的旧路,他们发现他们的品味并不像他们所想象的那么主流(这种所谓的主流文化,是一种被市场引导所产生的,缺乏选择的,由流行所驱动的文化)。

     

    对这些在线娱乐服务的销售数据和趋势所进行的分析已经说明,新兴的数字娱乐经济将会与目前的大规模市场模式有着根本的差异。如果说二十世纪的娱乐行业是建立在流行的基础上,那么二十一世纪则属于那些不流行的。

     

    长期以来,我们都在忍受着缺乏差异的大众化消费,被各种热门趋势和人造的流行所控制。为什么?经济学。我们关于流行品味的大量假设,事实上都是由于供求关系不能充分匹配导致的,这是市场对低效率的分配体系所作出的反应。

     

    导致这一现象的主要问题,我认为,是因为我们生活在一个物理的世界中;而且直到最近,我们的绝大多数娱乐媒体仍然如此。但是,这个世界对于我们的娱乐存在着两个非常重要的限制。

    第一个限制是找到当地的观众。按平均情况计算,如果一部电影不能在两周的上映期内吸引到至少1,500名观众,那么电影院是不会上映这部影片的;从本质上来讲,电影的上映就是在租用电影院的荧幕。对于一家普通的唱片店来讲,店中出售的每种CD每年必须卖出至少两张,否则对唱片店来讲就会造成损失;唱片的出售,事实上是在租用货架上那半英寸的空间。这种“租用”模式,对于DVD租赁商店、电子游戏商店、书店和报亭来说,本质上都是相同的。

    在上面说到的各个行业中,零售商只能选择那些能够产生充分需求的内容,这样才能保持商店的生存和盈利。但是,每个商店都只能吸引来自有限地理区域的顾客:对于一家普通的电影院来讲,影响力也许能覆盖半径10英里的范围,唱片店和书店所能覆盖的区域就要小一些,影视租赁商店就更小了(也许只能覆盖半径一到两英里的区域)。物理世界的地域限制会造成深远的影响,一部很好的记录片在全国范围内也许有超过50万潜在的观众;但是对于影视租赁店来讲,关心的是这部记录片在自己所能覆盖的区域内能有多少观众,例如马里兰州罗克维尔北部,或者加州沃尔纳特克里克的某个大型超市里面。

    很多非常好的娱乐资源,即使在全国范围内可能拥有大量的潜在观众,却无法跨越这个门槛。例如《The Triplets of Belleville(疯狂约会美丽都)》 ,这部备受业内好评的影片获得了2004年度奥斯卡最佳动画影片提名,但是只在国内的六家电影院上映。另一个让人印象深刻的例子是印度电影在美国遭遇的困境。每年,印度电影工业会推出超过800部有特色的影片。而在美国大约有一百七十万印度人。但是,得分最高(参照Amazon的Internet Movie Database[IMDB])的印度语影片《Lagaan: Once Upon a Time in India(拉嘎安:印度往事)》,只在两个影院上映,而这也是少数几部能在美国上映的印度影片中的一部。物理空间的巨大限制,使得过于分散的观众变得根本就不存在。

    物理世界的另一个约束是物理本身。广播频谱只能承载一定数量的广播电台,同轴电缆只能承载一定数量的电视频道。而且,每天只能有24小时的节目时间。广播技术的根本问题在于,使用者们肆意挥霍有限的资源。由此导致的另一个问题是,内容资源必须能够在一个地理区域内聚集大量的受众;只有极少数量的内容能够跨越这个高高的门槛,从而最终呈现在消费者的面前。


    上个世纪的娱乐行业提供了一种简单的方案,来应对我们上面提到的种种约束。流行和热门内容充斥着影院、货架,渗透到人们可以选择的每一个频道、每一个波段,以此来留住观众和听众。这样作并没有错;事实上,社会学家告诉我们追随热门与流行是人类的天性,这是顺应潮流和口头传播所形成的组合效应。但是我们必须肯定一点,健康的流行和热门的确是有意义的:好的歌曲、电影和图书必定会吸引大量的观众。


    但是,我们中的绝大多数人想要的不止是热门和流行的内容。每个人的品味在一定程度上都与主流有所区别,我们所能探索的其它选择越多,就越能够被它们所吸引。不幸的是,最近几十年来,这些可能的选择都被强大的市场传媒力量推到了非常次要的边缘区域;而创建这些市场传媒力量的正是那些希望控制它的行业。


    以流行为驱动力的经济,是资源稀缺时代的一个产物;这个时代缺乏足够的空间为每个人提供他们所需要的所有东西。没有足够的空间陈列所有的CD、DVD和游戏产品。没有足够的屏幕上映所有的电影。没有足够的频道播放所有的电视节目,没有足够的无线波段播放所有的音乐作品;就算通过上面的所有渠道,一天中也没有足够的时间把所有内容发布出来。


    这是一个稀缺的世界。但是现在,随着在线发布和零售的兴起,我们正在进入一个充裕的世界。区别是显著的。


    到底会有多大的差异?让我们听听Robbie Vann-Adibé的见解,他是Ecast的CEO,这家专门生产数字电唱机的公司制造供酒吧使用的点唱机,这种设备能够播放超过十五万首歌曲,这我们能够看到一些让人吃惊的统计结果。Robbie Vann-Adibé向来访者们提出了一个有趣的问题,但是这个问题几乎没有人答对过,“任何一家在线媒体商店(Netflix,iTune, Amazon或者其它任何类似在线商店)的排行榜前10,000个商品,在过去一个月中有百分之多少能够被租赁或者销售一次?”


    绝大多数人都会猜20%,原因很简单,我们都接受过教育并且知道80-20法则,也就是著名的帕雷托法则(这是由意大利经济学家,Vilfredo Pareto,在1906年提出的),这条规则在我们的生活中无处不在。只有20%的影片能够上映并且流行。对于电视节目、游戏以及大规模市场中销售的图书,都是一样,只有20%。这个比率对于主流厂牌的CD还要更加糟糕一些,根据美国唱片行业联合会的统计,只有不到10%的唱片是盈利的。


    但是这个问题的正确答案,据Vann-Adibé说,是99%。排行榜前10,000名中的所有歌曲几乎都有人需要。他在自己的点唱机统计数据中看到了这个结果;每个月都有成千上万的人将他们的硬币投入到这种数字点唱机中,点播那些在传统点唱机上根本听不到的曲目。


    人们通常不能正确回答Vann-Adibé的问题,因为答案在两个方面违反我们的直觉。首先,我们忘记了娱乐行业中的20%法则是关于热门程度的,与任何形式的销售都没有关系。我们被困在了以流行为驱动的思考模式中――我们直观的认为如果某个东西不流行的话,是不可能挣钱的,也不可能有能力支付制作成本。我们的假设,换一种说法就是,只有流行才是出路。但是,Vann-Adibé,与iTunes、Amazon以及Netflix等网络公司的执行人员都发现了这个现象:那些“不流行”的通常也会挣钱。而且,因为这些内容实在太多,收入累加起来之后很快就足以形成一个巨大的新兴市场。


    类似iTunes这样的纯数字服务提供商,不需要支付任何货架空间的费用,没有生产成本,几乎没有配送成本,卖掉一份“不流行”的商品也就是一笔销售,利润空间与所谓的“流行”商品完全相同。流行与否,在经济学上有着完全相同的地位,它们都是数据库中的一条记录,交易成本也完全一样。突然之间,“流行”已经无法继续垄断收益了。


    产生错误答案的第二个原因是,这个行业对于人们的需求知之甚少。事实上,我们并不太了解我们想要什么。例如,我们会假设,如果一件商品不在Wal-Mart或者其他主流零售商店销售,那么人们对这件商品就没什么需求;如果人们需要它,它当然会被销售。那些剩下的,位于底部的80%,最多也只能进入次商业(subcommercial)领域。


    尽管Wal-Mart看起来是倾向平等主义的,但事实上它是非常精英论的。Wal-Mart销售的每张CD至少要卖出10万份,这样才能承担它的零售管理费用并获取充足的利润;只有不到1%的CD 能够达到这种销量。对于那6万个想要购买最新的《Fountains of Wayne》或《Crystal Method》专辑,或者其它非主流内容的顾客,应该怎么办呢?他们必须去别的地方。对于书店,大型电影院,电台以及网络电视,都存在类似的需求。我们通常将大规模市场看作质量和需求;但事实上,它通常只表现为亲切而机智的广告,广泛而显得有些肤浅。什么是我们真正想要的?我们正在探索,但是很明显,首先要从更多开始。

    要想了解我们的真正品味,那些没有被稀缺经济模式所过滤的真实情况,我们可以看看Rhapsody ,这是一个基于订阅的流媒体音乐服务(属于RealNetworks),目前这个网站提供了超过735,000条曲目


    查看Rhapsody的每月统计图表,你会看到一条类似“幂函数曲线”的用户需求曲线图,这个图表看起来与传统唱片商店的统计图没什么区别,排行榜靠前的曲目有着很大的需求量,尾部迅速下降代表那些不太流行的作品。但是,当你研究位于排行榜前40,000条作品之后的内容,有趣的事情发生了,这些内容的销量相当于真实世界中一家平均水平唱片店的流动库存(商店进货而且最终可以销售出去的唱片)总量。然而,Wal-Marts在这部分内容的销量几乎等于0,要么Wal-Marts根本不会销售这个部分CD,要么这些边缘内容的当地潜在顾客根本没有机会找到这些CD,或者根本没有进过这个商店。


    然而在Rhapsody,用户的需求还在不断扩张。不但排行榜前10万的曲目在过去一个月中被点播了至少一次,排行前20万、30万甚至40万名之内的内容都有人收听。随着Rhapsody不断将新的作品添加到它的内容库中,这些歌曲自己就会找到听众,尽管也许一个月中只有很少的几个人在世界的某个地方点播了这首歌。


    这就是长尾巴。


    在这个长尾巴上,你可以找到各种东西。这里有老歌、旧唱片,忠诚的老歌迷仍然会天真的记得它们,或者它们会被一些新的歌迷重新发掘出来。这里有实况录音、单曲、再次编曲的作品、甚至还有唱片封套。这里有成千上万的小群体,细分再细分的音乐流派:想象一下这样一家Tower Records唱片店,店里销售的内容全部都是80年代的hair bands(salemone注:hair bands是重金属摇滚乐中的一类,表演者大多留着漂亮的长发,代表人物Bon Jovi)或者ambient dub(salemone注:Ambient electronic music-环境电子乐的一个子类)风格的作品。这里还提供了大量外国乐队的音乐,这些作品在普通唱片店很难买到,还有大量名不见经传的小乐队和小厂牌,其中的很大一部分都很难进入Tower Records的销售网络。


    没错,这里面也包含很多不值得一听的垃圾。但是,无线广播和市面上销售的流行唱片中不也有很多糟糕的曲目吗?人们在听CD的时候,必须跳过这些难听的歌曲,但是在网络上,他们可以更容易的避免听到这些内容,因为组合过滤功能能够有效的帮助你绕开这些内容。购买一张价值15美元的CD,其中的每一首垃圾歌曲就会让你浪费1美元;但是在网络上,这些内容只会无害的呆在某台服务器上;在这样一个按歌曲来销售,每个作品都得到充分评价的市场上,它们很容易就被忽略掉了。


    长尾巴真正让人吃惊的是它的庞大数量。将长尾巴上的冷门内容累加起来,你就能得到一个比热门流行更加巨大的市场。以图书市场为例:平均规模的Barnes & Noble连锁书店能够销售13万种作品。然而,Amazon有超过一半的图书销量是来自排行榜前13万名之后的作品。想象一下这意味着什么:如果Amazon的统计数据是一个标尺,那些没有在通常规模的书店中销售的图书所占据的市场份额比已经在书店中销售的图书所占的市场份额还要大。换句话来说,如果我们能够克服稀缺经济的困扰,潜在的图书市场也许有现在的两倍那么大。曾担任过音乐行业顾问的风险投资商Kevin Laws这样说到:“最大的财富来自最小的销售。”


    娱乐行业的其它领域也在不同程度存在同样的问题。让我们来对在线和离线的生意做一个比较:普通的Blockbuster DVD租赁商店只能提供不到3,000种DVD;但是Netflix的租赁业务有15%是来自排行榜前3,000名之外的内容。Rhapsody每月提供的歌曲数量中,有超过50%来自排行榜前10,000名之外的作品。在上面列举的所有案例中,物理世界零售商所能触及的领域之外的市场是非常巨大的,而且正在变得越来越大。


    当你仔细思考这个问题,你会发现互联网上最成功的生意都是以某种方式整合了长尾巴市场。例如Google,它的绝大多数收入来自小广告客户(广告的长尾巴);eBay也是如此,微小的细分市场群落以及单件的商品。通过克服地理与规模的限制,Google和 eBay也像Rhapsody和Amazon那样,成功的找到了新的市场,扩展了现有的业务。


    这就是长尾巴的威力。在这个领域处于领先地位的公司提供了三条重要的成功经验。我将它们称之为新娱乐经济的新规则:

  • Peer to Peer ( P2P ) 综述

     

    罗杰文

    中科院计算技术研究所

    2005-11-3

    1.1 Peer-To-Peer 介绍

    1 绪言

    最近几年,对等计算( Peer-to-Peer,简称P2P) 迅速成为计算机界关注的热门话题之一,财富杂志更将P2P列为影响Internet未来的四项科技之一。

    ( Peer-to-Peer,简称P2P) 迅速成为计算机界关注的热门话题之一,财富杂志更将P2P列为影响Internet未来的四项科技之一。 

    目前,在学术界、工业界对于P2P没有一个统一的定义,下面列举几个常用的定义供参考:

    定义:1、Peer-to-peer is a type of Internet network allowing a group of computer users with the same networking program to connect with each other for the purposes of directly accessing files from one another's hard drives.

    2、Peer-to-peer networking (P2P) is an application that runs on a personal computer and shares files with other users across the Internet. P2P networks work by connecting individual computers together to share files instead of having to go through a central server.

    3、P2P是一种分布式网络,网络的参与者共享他们所拥有的一部分硬件资源(处理能力、存储能力、网络连接能力、打印机等),这些共享资源需要由网络提供服务和内容,能被其它对等节点(Peer)直接访问而无需经过中间实体。在此网络中的参与者既是资源(服务和内容)提供者(Server),又是资源(服务和内容)获取者(Client)。

    虽然上述定义稍有不同共同点都是P2P打破了传统的Client/Server (C/S)模式,在网络中的每个结点的地位都是对等的。每个结点既充当服务器,为其他结点提供服务,同时也享用其他结点提供的服务。P2P与C/S模式的对比如下图所示:

    Client/Server模式Peer to Peer 模式

    P2P技术的特点体现在以下几个方面。

    • 非中心化Decentralization):网络中的资源和服务分散在所有结点上,信息的传输和服务的实现都直接在结点之间进行,可以无需中间环节和服务器的介入,避免了可能的瓶颈。P2P的非中心化基本特点,带来了其在可扩展性、健壮性等方面的优势 

    • 可扩展性:在P2P网络中,随着用户的加入,不仅服务的需求增加了,系统整体的资源和服务能力也在同步地扩充,始终能较容易地满足用户的需要。整个体系是全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。

    • 健壮性P2P架构天生具有耐攻击、高容错的优点。由于服务是分散在各个结点之间进行的,部分结点或网络遭到破坏对其它部分的影响很小。P2P网络一般在部分结点失效时能够自动调整整体拓扑,保持其它结点的连通性。P2P网络通常都是以自组织的方式建立起来的,并允许结点自由地加入和离开。P2P网络还能够根据网络带宽、结点数、负载等变化不断地做自适应式的调整。

    • 高性能/价格比:性能优势是P2P被广泛关注的一个重要原因。随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。采用P2P架构可以有效地利用互联网中散布的大量普通结点,将计算任务或存储资料分布到所有结点上。利用其中闲置的计算能力或存储空间,达到高性能计算和海量存储的目的。通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计算和存储能力。 

    • 可扩展性:在P2P网络中,随着用户的加入,不仅服务的需求增加了,系统整体的资源和服务能力也在同步地扩充,始终能较容易地满足用户的需要。整个体系是全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。

    • 健壮性P2P架构天生具有耐攻击、高容错的优点。由于服务是分散在各个结点之间进行的,部分结点或网络遭到破坏对其它部分的影响很小。P2P网络一般在部分结点失效时能够自动调整整体拓扑,保持其它结点的连通性。P2P网络通常都是以自组织的方式建立起来的,并允许结点自由地加入和离开。P2P网络还能够根据网络带宽、结点数、负载等变化不断地做自适应式的调整。

    • 高性能/价格比:性能优势是P2P被广泛关注的一个重要原因。随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。采用P2P架构可以有效地利用互联网中散布的大量普通结点,将计算任务或存储资料分布到所有结点上。利用其中闲置的计算能力或存储空间,达到高性能计算和海量存储的目的。通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计算和存储能力。 

    • 健壮性P2P架构天生具有耐攻击、高容错的优点。由于服务是分散在各个结点之间进行的,部分结点或网络遭到破坏对其它部分的影响很小。P2P网络一般在部分结点失效时能够自动调整整体拓扑,保持其它结点的连通性。P2P网络通常都是以自组织的方式建立起来的,并允许结点自由地加入和离开。P2P网络还能够根据网络带宽、结点数、负载等变化不断地做自适应式的调整。

    • 高性能/价格比:性能优势是P2P被广泛关注的一个重要原因。随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。采用P2P架构可以有效地利用互联网中散布的大量普通结点,将计算任务或存储资料分布到所有结点上。利用其中闲置的计算能力或存储空间,达到高性能计算和海量存储的目的。通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计算和存储能力。 

    • 高性能/价格比:性能优势是P2P被广泛关注的一个重要原因。随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。采用P2P架构可以有效地利用互联网中散布的大量普通结点,将计算任务或存储资料分布到所有结点上。利用其中闲置的计算能力或存储空间,达到高性能计算和海量存储的目的。通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计算和存储能力。 

    • 隐私保护: 在P2P网络中,由于信息的传输分散在各节点之间进行而无需经过某个集中环节,用户的隐私信息被窃听和泄漏的可能性大大缩小。此外,目前解决Internet隐私问题主要采用中继转发的技术方法,从而将通信的参与者隐藏在众多的网络实体之中。在传统的一些匿名通信系统中,实现这一机制依赖于某些中继服务器节点。而在P2P中,所有参与者都可以提供中继转发的功能,因而大大提高了匿名通讯的灵活性和可靠性,能够为用户提供更好的隐私保护。

    • 负载均衡: P2P 网络环境下由于每个节点既是服务器又是客户机,减少了对传统C/S结构服务器计算能力、存储能力的要求,同时因为资源分布在多个节点,更好的实现了整个网络的负载均衡。 

      与传统的分布式系统相比,P2P技术具有无可比拟的优势。同时,P2P技术具有广阔的应用前景。Internt上各种P2P应用软件层出不穷,用户数量急剧增加。20043月来自www.slyck.com的数据显示,大量P2P软件的用户使用数量分布从几十万、几百万到上千万并且急剧增加,并给Internet带宽带来巨大冲击。P2P计算技术正不断应用到军事领域,商业领域,政府信息,通讯等领域。

    与传统的分布式系统相比,P2P技术具有无可比拟的优势。同时,P2P技术具有广阔的应用前景。Internt上各种P2P应用软件层出不穷,用户数量急剧增加。20043月来自www.slyck.com的数据显示,大量P2P软件的用户使用数量分布从几十万、几百万到上千万并且急剧增加,并给Internet带宽带来巨大冲击。P2P计算技术正不断应用到军事领域,商业领域,政府信息,通讯等领域。

    根据具体应用不同,可以把P2P分为以下这些类型:

    • 提供文件和其它内容共享的P2P网络,例如NapsterGnutella、eDonkey、emule、BitTorrent等;

    • 挖掘P2P对等计算能力和存储共享能力,例如SETI@home、Avaki、Popular Power等;

    • 基于P2P方式的协同处理与服务共享平台,例如JXTA、Magi、Groove、.NET My Service等;

    • 即时通讯交流,包括ICQ、OICQ、Yahoo Messenger等;

    • 安全的P2P通讯与信息共享,例如Skype、Crowds、Onion Routing等。

       

    1.2国内外P2P技术研究现状

    1.2.1 P2P网络中的拓扑结构研究

    拓扑结构是指分布式系统中各个计算单元之间的物理或逻辑的互联关系,结点之间的拓扑结构一直是确定系统类型的重要依据。目前互联网络中广泛使用集中式、层次式等拓扑结构,Interne本身是世界上最大的非集中式的互联网络,但是九十年代所建立的一些网络应用系统却是完全的集中式的系统、很多Web应用都是运行在集中式的服务器系统上。集中式拓扑结构系统目前面临着过量存储负载、Dos攻击等一些难以解决的问题。

    Interne本身是世界上最大的非集中式的互联网络,但是九十年代所建立的一些网络应用系统却是完全的集中式的系统、很多Web应用都是运行在集中式的服务器系统上。集中式拓扑结构系统目前面临着过量存储负载、Dos攻击等一些难以解决的问题。 

    P2P系统一般要构造一个非集中式的拓扑结构,在构造过程中需要解决系统中所包含的大量结点如何命名、组织以及确定结点的加入/离开方式、出错恢复等问题。

    根据拓扑结构的关系可以将P2P研究分为4种形式:中心化拓扑Centralized Topology);全分布式非结构化拓扑Decentralized Unstructured Topology);全分布式结构化拓扑Decentralized Structured Topology,也称作DHT网络)和半分布式拓扑Partially Decentralized Topology)。

    其中,中心化拓扑最大的优点是维护简单发现效率高。由于资源的发现依赖中心化的目录系统,发现算法灵活高效并能够实现复杂查询。最大的问题与传统客户机/服务器结构类似,容易造成单点故障,访问的“热点”现象和法律等相关问题,这是第一代P2P网络采用的结构模式,经典案例就是著名的MP3共享软件Napster

    Napster是最早出现的P2P系统之一,并在短期内迅速成长起来。Napster实质上并非是纯粹的P2P系统,它通过一个中央服务器保存所有Napster用户上传的音乐文件索引和存放位置的信息。当某个用户需要某个音乐文件时,首先连接到Napster服务器,在服务器进行检索,并由服务器返回存有该文件的用户信息;再由请求者直接连到文件的所有者传输文件。

    Napster首先实现了文件查询与文件传输的分离,有效地节省了中央服务器的带宽消耗,减少了系统的文件传输延时。这种方式最大的隐患在中央服务器上,如果该服务器失效,整个系统都会瘫痪。当用户数量增加到105或者更高时,Napster的系统性能会大大下降。另一个问题在于安全性上,Napster并没有提供有效的安全机制。

    在Napster模型中,一群高性能的中央服务器保存着网络中所有活动对等计算机共享资源的目录信息。当需要查询某个文件时,对等机会向一台中央服务器发出文件查询请求。中央服务器进行相应的检索和查询后,会返回符合查询要求的对等机地址信息列表。查询发起对等机接收到应答后,会根据网络流量和延迟等信息进行选择,和合适的对等机建立连接,并开始文件传输。Napster的工作原理如图1所示。

    这种对等网络模型存在很多问题,主要表现为:

    (1)中央服务器的瘫痪容易导致整个网络的崩馈,可靠性和安全性较低。

    (2)随着网络规模的扩大,对中央索引服务器进行维护和更新的费用将急剧增加,所需成本过高。

    (3)中央服务器的存在引起共享资源在版权问题上的纠纷,并因此被攻击为非纯粹意义上的P2P网络模型。对小型网络而言,集中目录式模型在管理和控制方面占一定优势。但鉴于其存在的种种缺陷,该模型并不适合大型网络应用。

    Napster结构

    Napster界面

    全分布非结构化网络在重叠网络(overlay)采用了随机图的组织方式,结点度数服从"Power-law"[a][b]规律,从而能够较快发现目的结点,面对网络的动态变化体现了较好的容错能力,因此具有较好的可用性。同时可以支持复杂查询,如带有规则表达式的多关键词查询,模糊查询等,最典型的案例是Gnutella

    Gnutella是一个P2P文件共享系统,它和Napster最大的区别在于Gnutella是纯粹的P2P系统,没有索引服务器,它采用了基于完全随机图的洪泛(Flooding)发现和随机转发(Random Walker)机制。为了控制搜索消息的传输,通过TTL (Time To Live)的减值来实现。具体协议参照[Gnutella协议中文版

    在Gnutella分布式对等网络模型N中,每一个联网计算机在功能上都是对等的,既是客户机同时又是服务器,所以被称为对等机(Servent,Server+Client的组合)。

    随着联网节点的不断增多,网络规模不断扩大,通过这种洪泛方式定位对等点的方法将造成网络流量急剧增加,从而导致网络中部分低带宽节点因网络资源过载而失效。所以在初期的Gnutella网络中,存在比较严重的分区,断链现象。也就是说,一个查询访问只能在网络的很小一部分进行,因此网络的可扩展性不好。所以,解决Gnutella网络的可扩展性对该网络的进一步发展至关重要。

    由于没有确定拓扑结构的支持,非结构化网络无法保证资源发现的效率。即使需要查找的目的结点存在发现也有可能失败。由于采用TTLTime-to-Live)、洪泛(Flooding)、随机漫步或有选择转发算法,因此直径不可控,可扩展性较差。

    因此发现的准确性和可扩展性是非结构化网络面临的两个重要问题。目前对此类结构的研究主要集中于改进发现算法和复制策略以提高发现的准确率和性能。

    最初的Gnutella采用的Flooding搜索算法示意图

    采用第二代Gnutella协议最经典的软件-Bearshare

    由于非结构化网络将重叠网络认为是一个完全随机图,结点之间的链路没有遵循某些预先定义的拓扑来构建。这些系统一般不提供性能保证,但容错性好,支持复杂的查询,并受结点频繁加入和退出系统的影响小。但是查询的结果可能不完全,查询速度较慢,采用广播查询的系统对网络带宽的消耗非常大,并由此带来可扩展性差等问题。

    另外,由于非结构化系统中的随机搜索造成的不可扩展性,大量的研究集中在如何构造一个高度结构化的系统。目前研究的重点放在了如何有效地查找信息上,最新的成果都是基于DHT的分布式发现和路由算法。这些算法都避免了类似Napster的中央服务器,也不是像Gnutella那样基于广播进行查找,而是通过分布式散列函数,将输入的关键字惟一映射到某个结点上,然后通过某些路由算法同该结点建立连接。

    最新的研究成果体现在采用分布式散列表(DHT)[a]的完全分布式结构化拓扑网络

    overlay)采用了随机图的组织方式,结点度数服从"Power-law"[a][b]规律,从而能够较快发现目的结点,面对网络的动态变化体现了较好的容错能力,因此具有较好的可用性。同时可以支持复杂查询,如带有规则表达式的多关键词查询,模糊查询等,最典型的案例是Gnutella

    Gnutella是一个P2P文件共享系统,它和Napster最大的区别在于Gnutella是纯粹的P2P系统,没有索引服务器,它采用了基于完全随机图的洪泛(Flooding)发现和随机转发(Random Walker)机制。为了控制搜索消息的传输,通过TTL (Time To Live)的减值来实现。具体协议参照[Gnutella协议中文版

    在Gnutella分布式对等网络模型N中,每一个联网计算机在功能上都是对等的,既是客户机同时又是服务器,所以被称为对等机(Servent,Server+Client的组合)。

    随着联网节点的不断增多,网络规模不断扩大,通过这种洪泛方式定位对等点的方法将造成网络流量急剧增加,从而导致网络中部分低带宽节点因网络资源过载而失效。所以在初期的Gnutella网络中,存在比较严重的分区,断链现象。也就是说,一个查询访问只能在网络的很小一部分进行,因此网络的可扩展性不好。所以,解决Gnutella网络的可扩展性对该网络的进一步发展至关重要。

    由于没有确定拓扑结构的支持,非结构化网络无法保证资源发现的效率。即使需要查找的目的结点存在发现也有可能失败。由于采用TTLTime-to-Live)、洪泛(Flooding)、随机漫步或有选择转发算法,因此直径不可控,可扩展性较差。

    因此发现的准确性和可扩展性是非结构化网络面临的两个重要问题。目前对此类结构的研究主要集中于改进发现算法和复制策略以提高发现的准确率和性能。

    最初的Gnutella采用的Flooding搜索算法示意图

    采用第二代Gnutella协议最经典的软件-Bearshare

    由于非结构化网络将重叠网络认为是一个完全随机图,结点之间的链路没有遵循某些预先定义的拓扑来构建。这些系统一般不提供性能保证,但容错性好,支持复杂的查询,并受结点频繁加入和退出系统的影响小。但是查询的结果可能不完全,查询速度较慢,采用广播查询的系统对网络带宽的消耗非常大,并由此带来可扩展性差等问题。

    另外,由于非结构化系统中的随机搜索造成的不可扩展性,大量的研究集中在如何构造一个高度结构化的系统。目前研究的重点放在了如何有效地查找信息上,最新的成果都是基于DHT的分布式发现和路由算法。这些算法都避免了类似Napster的中央服务器,也不是像Gnutella那样基于广播进行查找,而是通过分布式散列函数,将输入的关键字惟一映射到某个结点上,然后通过某些路由算法同该结点建立连接。

    最新的研究成果体现在采用分布式散列表(DHT)[a]的完全分布式结构化拓扑网络

    TTLTime-to-Live)、洪泛(Flooding)、随机漫步或有选择转发算法,因此直径不可控,可扩展性较差。

    因此发现的准确性和可扩展性是非结构化网络面临的两个重要问题。目前对此类结构的研究主要集中于改进发现算法和复制策略以提高发现的准确率和性能。

    最初的Gnutella采用的Flooding搜索算法示意图

    采用第二代Gnutella协议最经典的软件-Bearshare

    由于非结构化网络将重叠网络认为是一个完全随机图,结点之间的链路没有遵循某些预先定义的拓扑来构建。这些系统一般不提供性能保证,但容错性好,支持复杂的查询,并受结点频繁加入和退出系统的影响小。但是查询的结果可能不完全,查询速度较慢,采用广播查询的系统对网络带宽的消耗非常大,并由此带来可扩展性差等问题。

    另外,由于非结构化系统中的随机搜索造成的不可扩展性,大量的研究集中在如何构造一个高度结构化的系统。目前研究的重点放在了如何有效地查找信息上,最新的成果都是基于DHT的分布式发现和路由算法。这些算法都避免了类似Napster的中央服务器,也不是像Gnutella那样基于广播进行查找,而是通过分布式散列函数,将输入的关键字惟一映射到某个结点上,然后通过某些路由算法同该结点建立连接。

    最新的研究成果体现在采用分布式散列表(DHT)[a]的完全分布式结构化拓扑网络

    DHT)[a]的完全分布式结构化拓扑网络

    分布式散列表(DHT)实际上是一个由广域范围大量结点共同维护的巨大散列表。散列表被分割成不连续的块,每个结点被分配给一个属于自己的散列块,并成为这个散列块的管理者。DHT的结点既是动态的结点数量也是巨大的,因此非中心化和原子自组织成为两个设计的重要目标。通过加密散列函数,一个对象的名字或关键词被映射为128位或160位的散列值。一个采用DHT的系统内所有结点被映射到一个空间,如果散列函数映射一个位的名字到一个散列值,则有

    分布式散列表起源于SDDSScalable Distribute Data Structures)[a]研究,Gribble等实现了一个高度可扩展,容错的SDDS集群。 

    最近的研究集中在采用新的拓扑图构建重叠路由网络,以减少路由表容量和路由延时。这些新的拓扑关系的基本原理是在DHT表一维空间的基础上引入更多的拓扑结构图来反映底层网络的结构。

    DHT的结点既是动态的结点数量也是巨大的,因此非中心化和原子自组织成为两个设计的重要目标。通过加密散列函数,一个对象的名字或关键词被映射为128位或160位的散列值。一个采用DHT的系统内所有结点被映射到一个空间,如果散列函数映射一个位的名字到一个散列值,则有

    分布式散列表起源于SDDSScalable Distribute Data Structures)[a]研究,Gribble等实现了一个高度可扩展,容错的SDDS集群。 

    最近的研究集中在采用新的拓扑图构建重叠路由网络,以减少路由表容量和路由延时。这些新的拓扑关系的基本原理是在DHT表一维空间的基础上引入更多的拓扑结构图来反映底层网络的结构。

    SDDSScalable Distribute Data Structures)[a]研究,Gribble等实现了一个高度可扩展,容错的SDDS集群。

    最近的研究集中在采用新的拓扑图构建重叠路由网络,以减少路由表容量和路由延时。这些新的拓扑关系的基本原理是在DHT表一维空间的基础上引入更多的拓扑结构图来反映底层网络的结构。

    DHT表一维空间的基础上引入更多的拓扑结构图来反映底层网络的结构。 

    DHT类结构能够自适应结点的动态加入/退出,有着良好的可扩展性、鲁棒性、结点ID分配的均匀性和自组织能力。由于重叠网络采用了确定性拓扑结构,DHT可以提供精确的发现。只要目的结点存在于网络中DHT总能发现它,发现的准确性得到了保证,最经典的案例是Tapestry,Chord,CAN,Pastry

    Tapestry提供了一个分布式容错查找和路由基础平台,在此平台基础之上,可以开发各种P2P应用(OceanStore即是此平台上的一个应用) Tapestry的思想来源于Plaxton。在Plaxton中,结点使用自己所知道的邻近结点表,按照目的ID来逐步传递消息。Tapestry基于Plaxtion的思想,加入了容错机制,从而可适应P2P的动态变化的特点。OceanStore是以Tapestry为路由和查找基础设施的P2P平台。它是一个适合于全球数据存储的P2P应用系统。任何用户均可以加入OceanStore系统,或者共享自己的存储空间,或者使用该系统中的资源。通过使用复制和缓存技术,OceanStore可提高查找的效率。最近,Tapstry为适应P2P网络的动态特性,作了很多改进,增加了额外的机制实现了网络的软状态(soft state),并提供了自组织、鲁棒性、可扩展性和动态适应性,当网络高负载且有失效结点时候性能有限降低,消除了对全局信息的依赖、根结点易失效和弹性(resilience)差的问题。

    Pastry是微软研究院提出的可扩展的分布式对象定位和路由协议,可用于构建大规模的P2P系统。在Pastry中,每个结点分配一个128位的结点标识符号(nodeID) ,所有的结点标识符形成了一个环形的nodeID空间,范围从02128 - 1 ,结点加入系统时通过散列结点IP地址在128nodeID空间中随机分配。

    MIT,开展了多个与P2P相关的研究项目:ChordGRIDRONChord项目的目标是提供一个适合于P2P环境的分布式资源发现服务,它通过使用DHT技术使得发现指定对象只需要维护O(logN)长度的路由表。

    DHT技术中,网络结点按照一定的方式分配一个唯一结点标识符(Node ID) ,资源对象通过散列运算产生一个唯一的资源标识符(Object ID) ,且该资源将存储在结点ID与之相等或者相近的结点上。需要查找该资源时,采用同样的方法可定位到存储该资源的结点。因此,Chord的主要贡献是提出了一个分布式查找协议,该协议可将指定的关键字(Key) 映射到对应的结点(Node) 。从算法来看,Chord是相容散列算法的变体。MITGRIDRON项目则提出了在分布式广域网中实施查找资源的系统框架。

    AT&T ACIRI中心的CAN(Content Addressable Networks) 项目独特之处在于采用多维的标识符空间来实现分布式散列算法。CAN将所有结点映射到一个n维的笛卡尔空间中,并为每个结点尽可能均匀的分配一块区域。CAN采用的散列函数通过对(key, value) 对中的key进行散列运算,得到笛卡尔空间中的一个点,并将(key, value) 对存储在拥有该点所在区域的结点内。CAN采用的路由算法相当直接和简单,知道目标点的坐标后,就将请求传给当前结点四邻中坐标最接近目标点的结点。CAN是一个具有良好可扩展性的系统,给定N个结点,系统维数为d,则路由路径长度为O(n1/d) ,每结点维护的路由表信息和网络规模无关为O(d)

    DHT类结构最大的问题DHT的维护机制较为复杂,尤其是结点频繁加入退出造成的网络波动(Churn)会极大增加DHT的维护代价。DHT所面临的另外一个问题是DHT仅支持精确关键词匹配查询,无法支持内容/语义等复杂查询。

    Chord的Identifier Circle

    Pastry的消息路由

    半分布式结构(有的文献称作 Hybrid Structure)吸取了中心化结构和全分布式非结构化拓扑的优点,选择性能较高(处理、存储、带宽等方面性能)的结点作为超级点(英文文献中多称作:SuperNodes, Hubs),在各个超级点上存储了系统中其他部分结点的信息,发现算法仅在超级点之间转发,超级点再将查询请求转发给适当的叶子结点。半分布式结构也是一个层次式结构,超级点之间构成一个高速转发层,超级点和所负责的普通结点构成若干层次。最典型的案例就是KaZaa

    英文文献中多称作:SuperNodes, Hubs),在各个超级点上存储了系统中其他部分结点的信息,发现算法仅在超级点之间转发,超级点再将查询请求转发给适当的叶子结点。半分布式结构也是一个层次式结构,超级点之间构成一个高速转发层,超级点和所负责的普通结点构成若干层次。最典型的案例就是KaZaa 

    KaZaa是现在全世界流行的几款p2p软件之一。根据CA公司统计,全球KaZaa的下载量超过2.5亿次。使用KaZaa软件进行文件传输消耗了互联网40%的带宽。之所以它如此的成功,是因为它结合了NapsterGnutella共同的优点。从结构 上来说,它使用了Gnutella的全分布式的结构,这样可以是系统更好的扩展,因为它无需中央索引服务器存储文件名,它是自动的把性能好的机器成为SuperNode,它存储着离它最近的叶子节点的文件信息,这些SuperNode,再连通起来形成一个Overlay Network. 由于SuperNode的索引功能,使搜索效率大大提高。

    半分布式结构(含有SuperNode)

    kaZaa界面

    半分布式结构的优点是性能、可扩展性较好,较容易管理,但对超级点依赖性大,易于受到攻击,容错性也受到影响。下表比较了4种结构的综合性能,比较结果如表1-1所示。

    14种结构的性能比较

    比较了4种结构的综合性能,比较结果如表1-1所示。

    14种结构的性能比较

    14种结构的性能比较 

     

    比较标准/拓扑结构

    中心化拓扑

    全分布式非结构化拓扑

    全分布式结构化拓扑

    半分布式拓扑

    可扩展性

    可靠性

    可维护性

    最好

    最好

    发现算法效率

    最高

    复杂查询

    支持

    支持

    不支持

    支持

  • 很多天沒有上來暸。《中庸》中說道:“君子之道,暗然而日章”,樑啓超把它用來形容王船山暸,這就是真君子么?

    1.8 子曰:“君子不重,則不威;學則不固。主忠信。無友不如己者。過,則勿憚改。” 

    (“重”者,解作莊重,其實僅從字麵理解即可知屬于下盤很穩,估計也就是根基很穩,所以關鍵是基礎暸。“無友不如己”,錶明暸這個世界就是一個分層的社會,必然有高下之分,有先天的,有后天的,若人人都盯着上麵,那妳必定會有種被別人輕視的自卑感,因為別人的眼光也是朝上的,根本不會嚮下看妳啊。所以人與人之間不可能就是這么單純的高下之分,呎有所短,吋有所長,這樣人與人纔會相互敬重。)

  • 1.6 子曰:“弟子,入則孝,齣則悌,謹而信,汎愛衆,而親仁。行有餘力,則以學文”

    (“行有餘力,則以學文”,錶明作為一個人首先要有品德上的基本要求,纔可以來“學文”的,否則就算妳來做學問,也一定是個沒有“學德”的人。這對于今日之功利性讀書者而言,當是警示。)

    1.7 子夏曰:“賢賢易色;事父母,能竭其力;事君,能緻其身;與朋友交,言而有信。雖曰未學,吾必謂之學矣。”

    (“賢賢易色”,常釋之為:“用尊貴優秀品德的心來改變愛好美色的心”。難啊!食色,性也,何必呢?賢賢但沒有必要一定要易色啊,否則不小心成暸Guy or Lesbian可是大大地不妙哦!呵呵,歪解而已。人一生的關繫中也就是這些暸:伕妻關繫(要易色)、父子關繫(要竭力)、上下...

  • 1.5 子曰:“道韆乘之國,敬事而信,節用而愛人,使民以時。”

    (其實作為個人、作為組織也是一樣的道理,不一定非要達到一個“韆乘”的數量標準。“敬事而信,節用而愛人,使民以時。”完全可以很寬泛地理解的,幹什么不需要“信(誠信)”、“節用(開源節流)”、“愛人(尊重與理解)”和“使民以時(閤理使用妳的資源)”呢?)

  • 1.3 子曰:“巧言令色,鮮矣仁!”

    (網絡上花言巧語者甚衆,而所謂的CRTL-C和CRTL-V的功能使得那些未成蒙麵者就陶醉于此種博學多纔的纔子佳人的“巧言令色”中暸。唉,老伕子老早就說暸:“鮮矣仁!”記住暸這個,CCTV的“法製在綫”也就沒有可能去播放什么“花季少女的緻命邂逅”暸,慘啊!)

    1.4 曾子曰:“吾日三省吾身——為人謀而不衷乎?與朋友交而不信乎?傳不習乎?”

    (現代人可能已經沒有時間暸,半夜三更還在燈紅酒綠的,太陽掛起時還在打呼嚕呢。每人裏想的都是怎么今天比昨天賺得更多,既然要這樣,為人謀而不衷,專門欺騙朋友也就是必然的手段暸,倒是“傳”可能每天都在習,不過這個“傳”...

  • 1.2 有子曰:“其為人也孝弟,而好犯上者,鮮矣;不好犯上,而好作亂者,未知有也。君子務本,本立而道生。孝弟也者,其為仁之本與!”

    (君子務本,每個人都要有個“本”纔行,不論這個本是什么,總要有點事情幹,就像週星馳說的:“好好地從事妳那很有前途的強盜職業吧”,其實這也是一種“本”,它立暸起來,妳就知道妳這一生應該怎么走暸,呵呵!)

  • 1.1 子曰:“學而時習之,不亦說乎?有朋自遠方來,不亦樂乎?人不知而不慍,不亦君子乎?” 已經太順口暸,沒有更多解釋的必要暸,但是作為個人要真正做到這三點卻又是多么地睏難啊!人不知,可以作為自傲的原因或者結果,可以是對于名利的淡漠,紜紜衆生絕大部分都是處在人不知的境地暸。當然,這是從大處說,從小處說,作為個人沒有朋友的理解與關心,倒也是很可悲的呢。所以,人不知,三個字應該說是有很深的含義的。為大衆所知;為認識的人所知,為妳所愛的人所知,都是不同的“知”啊)

  • 2005-05-20

    裝脩中......

    房子多暸也有點痲煩哦,裝脩可是一件費心的事情,但總想把它弄好,看看最后會是什么樣子吧?