百度搜索引擎中文分词的三点原理
客户查询网整理 发布日期:2014/8/20 0:00:00
正向与反向(正向:畴返回后配;反向:从后往前配)(湖南大书院屋顶)正向分法:湖南大学 堂屋 顶 (刘壮大处所法)正向分法:刘 壮大 处所 法。

  此外,切词事理:百度有专有词库(是不成豆割的)比方精采人物(如:毛泽东)明星(如:刘德华)检索量大的词(如:买票难) 。比方百度此刻大略有9万个中文词,那么搜索引擎便可以对千亿级的页面进行分化,遵守中文词库进行了分类。

  搜索引擎要在单元时刻内措置万万亿级的页面数据量,是以搜索引擎存在一个中文词库。而在这个词语傍边“大地”不是一个词。

  2、基于统计:百度把一个词标红的启事:标红的词凡是为一个关头词,你搜索“学”字的时辰,百度它自认的把“进修”也算作了一个关头词,所以闪现“进修”这个词标红,这就是百度分词法:基于统计分词。

  百度中文分词算法:指搜索引擎为了更好的分辨用户的需求,而且为了快速供给给用户需求性信息而操作的算法。

  当然这些只是百度中文分词事理的一部分,也不是全对。

  百度分词根底有三种分法

  1、基于懂得:傻瓜式匹配,小于即是3个中文字符百度是不进行切词的,比方搜索“大书院”。反向分法:编制 大地 刘 强。

  本文转载于贵阳论坛及本人博客


   。由于的百度的算法是不成能流露出来,贸易机秘若是让你知道,那岂不是有N多的百度了。

  3、基于字符串匹配(百度的分词法:正向最大切词法)

  最大与最小(最大匹配:一贯匹配到没词可配;最小匹配:匹配出词了就遏制匹配,再从此外一个词初步匹配)比方:百度搜索“湖南大书院屋顶”,百度的一个分词算法我们把它算作一个黑盒子,我们经过过程一些输入关头词,遵守百度的输出功效来剖断百度的分词算法。
信息网址:http://www.khcha.com/ziyuan/view9654.htm

相关信息