。
我们很轻易创造,若是一个关头词只在很少的网页中闪现,我们经过过程它就轻易锁定搜索方针,它的权重也就应当大。
读者可能已经创造了又一个裂缝。
2. 应删除词的权重应当是零。在上面的例子中,词“的”站了总词频的 80% 以上,而它对必定网页的主题几近没有用。 我们将这三个数相加,其和 0.042 就是响应网页和查问“原子能的操作”
相干性的一个简略的怀抱。我们第一步是在索引中找到包含这三个词的网页(详见对于布尔运算的系列)。 那么,这个查问和该网页的相干性就是:
TF1 + TF2 + ... + TFN。体味了这四个方面,一个有必定编程根底的读者应当可以写一个简略的搜索引擎了,比方为您地址的黉舍或院系成立一个小的搜索引擎。归纳综合地讲,若是一个查问包含关头词 w1,w2,...,wN, 它们在一篇特定网页中的词频分袂是: TF1, TF2, ..., TFN。实在,信息论的学者们已经创造并指出,实在 IDF 的概念就是一个特定条件下、关头词的概率散布的穿插熵(Kullback-Leibler Divergence)(详见上一系列)。
TF/IDF(term frequency/inverse document frequency) 的概念被公感触信息检索中最重要的创造。假定专用词“原子能”在两百万个网页中闪现,即Dw=200万,则它的权重IDF=log(500) =6.2。轻忽这些应删除词后,上述网页的近似度就酿成了0.007,其中“原子能”进献了0.002,“操作”进献了 0.005。独霸 IDF,上述相干性计较个公式就由词频的简略求和酿成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。
此刻的搜索引擎对 TF/IDF 进行了很多细微的优化,使得相干性的怀抱加倍切确了。反之若是一个词在大批网页中闪现,我们看到它仍然不很明确要找甚么内容,是以它应当小。那么哪个应当排在前面呢?较着我们应当遵守网页和查问“原子能的操作”的相干性对这些网页进行排序。在汉语中,“操作”是个很通用的词,而“原子能”是个很专业的词,后者在相干性排名中比前者重要。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。我们称这类词叫“应删除词”(Stopwords),也就是说在怀抱相干性是不应考虑它们的频率。IDF 的概念最早是剑桥大学的斯巴克-琼斯[注:她有两个姓] (Karen Sparck Jones)提出来的。是以,“原子能“的权重就应当比操作大。 (TF: term frequency)。很多人都援引萨尔顿的书,甚至感触这个信息检索中最重要的概念是他提出的。当然,对有乐趣写一个搜索引擎的欢兴奋乐爱好者来讲,操作 TF/IDF 就足够了。遵守我们的直觉,我们知道,包含这三个词多的网页应当比包含它们少的网页相干。在上面的例子中,该网页和“原子能的操作”的相干性为 0.0161,其中“原子能”进献了 0.0126,而“操作”只进献了0.0035。是以我们需要遵守网页的长度,对关头词的次数进行归一化,也就是用关头词的次数除以网页的总字数。我们把这个商称为“关头词的频率”,或者“单文本词汇频率”(Term Frequency),比方,在某个一共有一千词的网页中“原子能”、“的”和“操作”分袂闪现了 2 次、35 次 和 5 次,那么它们的词频就分袂是 0.002、0.035 和 0.005。]
我们还是看上回的例子,查找对于“原子能的操作”的网页。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“操作”的匹配。却是后来康乃尔大学的萨尔顿(Salton)多次写文章、写书构和 TF/IDF 在信息检索中的用处,加上萨尔顿本人的台甫(信息检索的世界大奖就是以萨尔顿的名字命名的)。在搜索、文献分类和其他相干规模有广泛的操作。斯巴克-琼斯 1972 年在一篇题为关头词不凡性的统计诠释和她在文献检索中的操作的论文中提出IDF。在信息检索中,操作最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全数网页数。当然,这个体例有一个较着的裂缝,就是长的网页比短的网页占便宜,由于长的网页总的来讲包含的关头词要多些。又假定通用词“操作”,呈此刻五亿个网页中,它的权重IDF = log(2)
则只有 0.7。 我们今天谈谈若何须定一个网页和某个查问的相干性。比方,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都闪现,即Dw=10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。 我们知道,短语“原子能的操作”可以分成三个关头词:原子能、的、操作。这样,信息检索相干性的怀抱,又回到了信息论。遗憾的是,她既没有从理论上诠释为甚么权重IDF 应当是对数函数 log(D/Dw)(而不是其它的函数,比方平方根),也没有在这个问题问题问题问题上作进一步深切研究,甚至于在往后的很多文献中人们提到 TF/IDF 时没有援引她的论文,绝大大都人甚至不知道斯巴克-琼斯的进献。罗宾逊在同期期刊上写了篇文章,用香农的信息论诠释 IDF,这回的诠释是对的,但文章写的并欠好、很是烦复(足足十八页),把一个简略问题问题搞复杂了。 若是我们连系上网页排名(Page Rank),那么给定一个查问,有关网页综合排名大抵由相干性和网页排名乘积决定。我们在网页中看到“原子能”这个词,或多或少地能体味网页的主题。讲起 TF/IDF 的历史蛮故意思。归纳综合地讲,假定一个关头词 w 在 Dw 个网页中闪现过,那么 Dw 越大,w 的权重越小,反之亦然。此刻任何一个搜索引擎都包含几十万甚至是上百万个若干很多若干好多有点关系的网页。我们看到“操作”一次,对主题根底上还是一无所知。这个比例和我们的直觉斗劲一致了。当然,世界并没有健忘斯巴克-琼斯的进献,2004年,在记念文献学学报创刊 60 周年之际,该学报重印了斯巴克-琼斯的高文。 仔细的读者可能还会创造此外一个小的裂缝。是以我们需要给汉语中的每个词给一个权重,这个权重的设定必须满足下面两个条件: 1. 一个词展望主题能力越强,权重就越大,反之,权重就越小。同年罗宾逊写了个两页纸的诠释,诠释得很欠好。
信息网址:http://www.khcha.com/ziyuan/view10398.htm