“看不见”的网站就是被搜索引擎笼盖不到的网站,用加倍通俗的分类来讲,“看不见”的网站只有两种。
暗网这个概念对于公共很别致,但已经是搜索圈里的老话题了。
整合信息而且把检索到的信息以最快速、最精准的编制揭露给搜索用户,这是下一代搜索引擎所要实现的方针。
所以说,所谓的“阿拉丁筹算”不过是拿搜索圈子里一个古老的话题炒冷饭,它的素质就是扩大搜索数据库,这是搜索引擎的惯例工作,“最多就是优化过的蜘蛛加上一个新的竞价排名默示界面”。所谓暗网(Hidden Web)是指今朝搜索引擎不能检索到的信息,百度感触大批的信息仍然处在“未知世界”傍边。早在2003年,美国人C?谢尔曼就有一本学术专著专门构和这一问题问题,只不过凡是把它翻译成“看不见”的网站,这本著作已经被译成中文—《“看不见”的网站:Internet专业信息检索指南》,成为信息检索专业的必念书目。一种是手艺的启事,很多网站本人不标准,或者说互联网本人贫窭同一轨则,导致了搜索引擎的爬虫没法辨认这些网站内容并抓取,这不是搜索引擎本人就可以解决的问题问题,而是有赖全数汇集结构的标准化,谷歌正在测验测验的云计较就是要从根柢上解决这一问题问题。透过现象看素质,不论是百度的“阿拉丁”,还是谷歌的云计较,都是为搜索引擎手艺处事,为用户供给加倍深切的搜索体验。要应对天天数十亿次的搜索请求,要同时满足各个规模分歧类型的数据分化,要把混乱无章的信息清算为精准的搜索功效……这一切就必须由处事器群的并行计较或者云计较模子来实现。
。云计较的概念当然有点炫,但它提出了一个焦点问题问题,那就是若何实现存在海量信息的搜索引擎可以更快更准措置数据的编制。
若何实现对复杂信息量的措置?我们剥开“阿拉丁”的层层面纱,事实下场看到工作的素质,“阿拉丁”就是包装过的云计较。
甚么是暗网?“阿拉丁筹算”事实是甚么?要想体味“阿拉丁筹算”,首先就要体味甚么是暗网,由于这个筹算是流传宣传要照亮暗网、完整转变搜索体验的。
此外一个启事则是很多网站根柢就不愿意被搜索引擎抓取,比方考虑到版权包庇内容、小我隐私内容等等,很多网站都在樊篱百度。从这个意义上说,谷歌更合适“阿拉丁筹算”,只不过谷歌没有这样提罢了。 百度“阿拉丁”平台的推出,是为解决现有搜索引擎没法抓取和检索暗网的信息而来。 事实上,百度“阿拉丁筹算”事实下场的方针是为了整合所有信息,再把这些信息加以分化措置,让用户在同一个搜索框架下实现多元化的搜索需求。甚么是多元化的需求?比方在糊口处事规模,用户搜索分类信息,百度较着比不上雅虎口碑;在电子商务规模,用户搜索商品信息,百度比不上阿里巴巴;在社区即时信息搜索方面,百度较着比不上奇虎和大旗……“阿拉丁筹算”就是要把这些复杂的信息量从无序酿成有序,从复杂转化为简略,快速、切确地满足分歧的用户需求,这才是“阿拉丁”的方针地址。 相对而言,李一男的诠释更直观,也更靠谱:百度但愿经过过程对“阿拉丁”平台的建筑,超浮现有Web内容的限制,对搜罗暗网在内的所有信息进行更深一步的分化、通顺贯通、措置,确保为用户供给零本钱、无障碍、无时差的精准搜索功效。比方比来视频分享网站优酷发布揭晓樊篱百度,之前的淘宝网也樊篱了百度,这就不是搜索引擎能解决的问题问题了。果然如此,那暗网占了若干很多若干好多?没有Web化的暗网信息为甚么不愿意Web化?这里触及到一个很重要的问题问题:暗网里有若干很多若干好多信息是私密的,有若干很多若干好多是可公然化的?“阿拉丁”能在暗网里获得若干很多若干好多比例的有用信息?这是一个玄之又玄的问题问题,估计百度本人也搞不明确。 暗网事实有没有像百度说的这么神秘?李彦宏暗示今朝能被搜索引擎检索到的信息只占人类所有信息的1/500。
信息网址:http://www.khcha.com/ziyuan/view9110.htm