谈Page Rank -Google 的民主表决式网页排名技
客户查询网整理 发布日期:2014/7/13 0:00:00
那时,用户很难找到很相干信息。这样大的矩阵相乘,计较劲是很是大的。Page Rank 考虑了这个成分,可是此刻问题问题又来了,计较搜索功效的网页排名过程中需要用到网页本人的排名,这不成了先有鸡还是先有蛋的问题问题了吗?

  Google 的两个草创人拉里?佩奇 (Larry Page )和谢尔盖?布林 (Sergey Brin) 把这个问题问题酿成了一个二维矩阵相乘的问题问题,而且用迭代的编制解决了这个问题问题。AltaVista 当然让用户搜索到大批功效,但大部分功效却与查问不太相干,有时找想看的网页需要翻好几页。

  网页排名的崇高尊贵的处地址于它把全数互联网算作了一个整体看待。实在最早试图给互联网上的泛滥网站排序的实在不是 Google。打个例如,假定我们要找李开复博士,有一百小我举手说本人是李开复。这就是 Page Rank 的焦点思想。

  大师可能传说传说传闻过,Google 革命性的创造是它名为 “Page Rank” 的网页排名算法,这项手艺完整解决了搜索功效排序的问题问题。我想,互联网可以用一个图或者矩阵描写,我或答应以用这个创造做个博士论文。对照之下,之前的信息检索大多把每个网页算作自力的个体看待,很多人当初只正视了网页内容和查问语句的相干性,轻忽了网页之间的关系。 当然 Google 的 Page Rank 算法现实上要复杂很多。

  在互联网上,若是一个网页被很多其它网页所链接,申明它遭到广泛的认可和信任,那么它的排名就高。他们先假定所有网页的排名是不异的,而且遵守这个初始值,算出各个网页的第一次迭代排名,而后再遵守第一次迭代排名算出第二次的排名。拉里和谢尔盖两人独霸希少矩阵计较的手艺,大大的简化了计较劲,并实现了这个网页排名算法。

  我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他昔时和谢尔盖(Sergey) 是若何想到网页排名算法的。若是我们假定有十亿个网页,那么这个矩阵就有一百亿亿个元素。可是网页排名在 Google 所有算法中仍然是相当重要的。今天 Google 的工程师把这个算法移植到并行的计较机中,进一步缩短了计较时刻,使网页更新的周期比之前短了很多。所以最初的 AltaVista 在必定程度上解决了笼盖率的问题问题,但不能很好地对功效进行排序。

  Google 的 “Page Rank” (网页排名)是若何回事呢?实在简略说就是***表决。他说:”那时我们感应沾染全数互联网就像一张大的图(Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。

  理论问题问题解决了,又碰其现实问题问题。我记得 1999 年之前查找一篇论文,要换好几个搜索引擎。” 他和谢尔盖就这样创造了 Page Rank 的算法。由于互联网上网页的数目是重大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。Yahoo! 公司最初第一个用目录分类的编制让用户经过过程互联网检索信息,但由于那时计较机容量和速度的限制,那时的 Yahoo!和同时代的其它搜索引擎都存在一个配合的问题问题:收录的网页太少,而且只能对网页中常见内容相干的现合用词进行索引。值得一提的事,这类算法是完整没有任何人工干与干与的。在学术界, 这个算法被公感触是文献检索中最大的进献之一,而且被很多大学引入了信息检索课程 (Information Retrieval) 的教程


   。那么谁是真的呢?或许有好几个真的,但即便如此谁又是大师真正想找的呢?:-) 若是大师都说在 Google 公司的阿谁是真的,那么他就是真的。它无意识中合适了系统论的概念。比方说,对来自分歧网页的链接看待分歧,本人网页排名高的链接更靠得住,因而给这些链接予较大的权重。后来 DEC 公司斥地了 AltaVista 搜索引擎,只用一台 ALPHA 处事器,却收录了比以往引擎都多的网页,而且对里面的每个词进行索引。

  今天,Google 搜索引擎比最初复杂、完善了很多。他们两人从理论上证了然非论初始值若何拔取,这类算法都保障了网页排名的估计值能收敛到他们的真实值。
信息网址:http://www.khcha.com/ziyuan/view10374.htm

相关信息