SEO探索

中文网站搜索引擎优化技术研究


谈 Page Rank – Google 的民主表决式网页排名技术(转)

2006/04/8 by HighDiy

  大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量和速度的限制,当时的 Yahoo!和同时代的其它搜索引擎都存在一个共同的问题:收录的网页太少,而且只能对网页中常见内容相关的实际用词进行索引。那时,用户很难找到很相关信息。我记得 1999 年以前查找一篇论文,要换好几个搜索引擎。后来 DEC 公司开发了 AltaVista 搜索引擎,只用一台 ALPHA 服务器,却收录了比以往引擎都多的网页,而且对里面的每个词进行索引。AltaVista 虽然让用户搜索到大量结果,但大部分结果却与查询不太相关,有时找想看的网页需要翻好几页。所以最初的 AltaVista 在一定程度上解决了覆盖率的问题,但不能很好地对结果进行排序。

  Google 的 “Page Rank” (网页排名)是怎么回事呢?其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在 Google 公司的那个是真的,那么他就是真的。

  在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?

  Google 的两个创始人拉里•佩奇 (Larry Page )和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。

  理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。

  我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:”当时我们觉得整个互联网就像一张大的图(Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。” 他和谢尔盖就这样发明了 Page Rank 的算法。

  网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。

  今天,Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。

  (转自Google黑板报  作者:吴军, Google 工程师 )
  链接:http://googlechinablog.com/2006/02/page-rank-google.html

Tags: ,

Yahoo中文的首页变了

2006/04/1 by HighDiy

  今天发现Yahoo中文的首页变样了:似乎走的是前几年的老路,要把“门户”做大做强……呵呵。

  从页面上看,体现了许多的中国特色:

  1、主要内容集中在“最新资讯”、“社区”、“音乐搜索”与“图片”。最新资讯即新闻暂且不提,其他三项都是各大门户网站最“流行”的。

  2、改版伊始便出现的“潘金莲……”,日后会不会变成更引人瞩目的标题?

  3、以前大家谈及Mp3搜索、下载多多少少还谈谈盗版的问题,现在好象越来越习以为常了。

  4、图片中但愿就到“魅力女星”的程度吧,再往下发展就……

  看来,马云准备甩开了膀子大干一场啊!

  突地,很期待马云与Baidu的PK,不知道这两个“民族搜索引擎”会以哪种“民族”的方式竞争……

yahoo中国首页

  Tags: ,

用MSN Search的朋友多么?

2006/03/31 by HighDiy

  不知道怎么回事, HighDiy IT技术点评 网站来自MSN Search的流量特别少:本月来自Google的独立IP已近5位数,而来自MSN Search的仅仅几十位。

  按说,不应该如此差的啊。比如说,在MSN Search中搜索“BT 硬盘”,无论是E文版的还是中文版的Beta MSN 搜索, HighDiy IT技术点评 网站均在SERP结果的前10位,即在第一页啊,按说这个关键词竞争性比较强啊。对其他关键词,单纯从排名看, HighDiy IT技术点评 网站也可以啊!

  但就是没有流量。

  有没有朋友清楚这个问题?或者有没有朋友的网站可以从MSN Search得到较高流量的?

  Tags:

据说Google又要败给Baidu了?

2006/03/30 by HighDiy

  既然Google在中文搜索市场前景不妙,也许未来的竞争焦点就会是马云的Yahoo中国 与 Baidu的PK,只不知到时候相应的枪手们又怎么打“民族”这张牌?也许到时候要搞出个类似于“血缘纯正度”的概念?Yahoo中国只是阿里巴巴的过继儿子而非亲生?哈哈,晕了!

  歌唱吧,Baidu;歌唱吧,Yahoo;哭去吧,Google……不过,有点泄气的是,市场不是由某某调查公司所决定的。

  如果“SERP结果需要人工干预”才能适应中文市场的话,Google的方针策略需要比较大的改变。不过,这样一来,Google所标榜的“公正”由何而来?而人工干预时所必然伴随的主观性与随意性又如何处理?也许作者认为Google只有变成Baidu或类Baidu才在中文搜索市场有竞争力?

  全文见《据说Google又要败给Baidu了?

  Tags: ,

一个有趣的搜索引擎Blingo

2006/03/29 by HighDiy

  今天发现了一个有趣味的搜索引擎, Blingo ,其搜索结果来自Google,即又是一个”Powered By Google”的搜索引擎。类似这样使用Google数据的搜索引擎本没什么好说的,也太多了,像国内的QQ搜索,从其网页快照上看也是使用Google的。

  Blingo 的特殊之处在于其给搜索者中奖的机会,换句话说,它是一个有奖搜索,奖品包括礼品卡、购物券、IPOD Nano,甚至还有电影票。当然,为防止有人进行大量无意义的搜索以抢占中奖机会,它限定了每人每天的前10次搜索才有效,之后的搜索则无中奖机会。据反映,有不少人拿到了奖品。

在Blingo中搜索‘BT是否伤硬盘’的结果类似于Google,不过其页面少于Google

  不过,这与我们无关,它的奖品只对美国居民有效,呵呵。

  Tags: ,