2、假定提交的查问有几次再三的内容(网站奉行http://www.soshoulu.com),搜索引擎若何措置呢?比方查问“理论 工具理论”,百度是将几次再三的字符串算作只闪现过一次,也就是措置成等价的“理论工具”,而GOOGLE较着是没有进行合并,而是将几次再三查问子串的权重增猛进行措置。
3、假定提交的中文查问包含英文单词,搜索引擎是若何措置的?比方查问”百度排名优化”,百度的编制是将中文字符串中的英文算作一个整体保存,并以此为断点将中文切分隔,这样上述的查问就切为,非论核心的英文是不是一个字典里能查到的单词也好,还是随机的字符也好,城市算作一个整体来看待。
首先遵守豆割符号将查问分隔,而后看看是不是有几次再三的字符串,若是有,就丢弃过剩的,只保存一个,接着剖断是不是有英文或者数字,若是有的话,把英文或者数字算作一个整体保存并把前后的中文切开。那么百度在领遭到用户查问后做了些甚么工作呢?
1、假定用户提交了不仅一个查问串,比方“信息检索 理论 工具”。
。那么搜索引擎首先做的是遵循分隔符比方空格,标点符号,将查问串豆割成若干子查问串,比方上面的查问就会被解析为:三个子字符串;这个事理简略。
用户向搜索引擎提交查问,搜索引擎个别在领遭到用户查问后要做一些措置,而后在索引数据库里面提取相干的信息。
信息网址:http://www.khcha.com/ziyuan/view8042.htm