在我上一篇文章里,我已经介绍了关于谷歌搜索排序的哲学。作为我们探讨搜索质量的努力的一部分,我要向大家介绍更多的谷歌搜索排序背后的技术。我们的排名系统的核心技术源于学术领域的情报检索学。情报检索学对搜索的研究已有近 50 年的历史了。它应用字符突出性的统计讯息,例如字符频率之类,来完成网页排序(可参照“现代情报检索: 概要介绍”来快速了解情报检索技术)。情报检索学为我们提供了一个坚实的基础,在此基础上我们应用最常访问链接、网页结构以及其他创新技术建立起了一个庞大系统。
在过去十年,搜索已经从“给我我所说的”发展到“给我我想要的”。用户对搜索的期望无疑已经提高。我们努力工作以达到每个用户的期望,为了这一点,我们需要更好的理解网页,理解查询,理解用户。在上个十年里,我们已经将理解以上三个部分(在搜索过程中)的技术推到一个全新的层次。
在谷歌,当我们讨论查询关键词的时候,我使用方括号[ ]来标记最开始和最后的查询词(请参考 Matt Cutts 的“如何输入查询关键词”),在本文中我将自始至终使用这一标记。(网页和搜索结果频繁变化,因此,本文举例的解释也许与即时查询的结果不一样。)
理解网页:多年来我们在抓取和索引系统上投入了大量精力。因此,我们拥有一个非常庞大、更新及时的索引。除了规模和更新,我们还用其他方法改进索引。我们用于理解网页的核心技术之一就是理解这个网页要表达的相关的重要概念的能力,即使这个概念在网页中并没有处于明显的位置。比如,即使伦敦 Sprovieri Gallery 的官方网页中没有出现 London 或 Londra 的字眼,但是我们依然能够在搜索结果中给意大利语查询 [galleria sprovieri londra] 提供 Sprovieri Gallery 的官方网页。在美国,一个用户搜索 [cool tech pc vancouver, wa],将找到 www.cooltechpc.com 主页,即使这个网页没有在任何一个地方提到他们在 Vancouver,WA。我们开发的另一些技术比如在网页中区分重要与次重要字符以及信息的新鲜程度。
理解查询关键词:理解我们的用户在寻找什么(而不仅仅是几个查询词)非常关键。在这一领域我们取得了几个值得注意的进步,包括最优拼写建议系统,先进的同义词系统,以及强大的概念分析系统。
绝大多数用户已都曾经用过我们的拼写建议系统。当有人输入 [kofee annan] 时我们便会知道他实际在搜索 Mr. Kofi Annan,系统会立即提示:Did you mean: kofi
信息网址:http://www.khcha.com/ziyuan/view10866.htm