个别说来,在网站造就汲引中,总是但愿搜索引擎的机械人能够尽可能地在网站内爬行,收录网站尽可能多的页面,要实现这一点,需要在网页设计与建造时尽可能赐顾帮衬搜索引擎Spider,防止或削减操作图片、Flash、JavaScript等。在网站/目录级别,也可操作robots.txt来节制搜索引擎抓取,这也是不撑持.htaccess文件的Windows平台处事器下的的必须选择。
当然,要完整杜绝私密内容被搜索引擎、被别人看到,最有用的还是不要将其放在面向公众访谒的Internet处事器上。在链接级别,可感触某个孤立的链接操作“nofollow”标签。可是,对大大都网站而言,常常也存在着部分私密性数据不想公诸于众,比方网站的后台法式榜样部分,比方存放于Internet网站处事器上的企业内部信息页面等,对这部分不但愿被搜索引擎的内容,应若何节制搜索引擎Spider对其的爬行与索引呢?
MattCutts近日供给了一个节制Googlebot索引网页的申明,当然他所言只是针对Google,但合用于大大都搜索引擎,简要归纳以下:
在网站/目录级别,举荐操作.htaccess文件来对网站的私密部分加以密码包庇,这是最安然的作法,今朝各搜索引擎的Spider对密码包庇的内容都是鞭长莫及的。一样地,这些标签Googlebot能够很好地辨识并遵守,但有些搜索引擎则未必。若是要包庇的内容已经被Google收录,可操作谷歌的网址删除系统。不过,.htaccess文件只在Unix/Linux下起浸染,国内风行的Windows平台处事器则没法操作这一功效。
。个别说来,这是最后的手段,要郑重地操作,在Google索引中被删除的内容在180天内不会被从头收录。在网页级别,在html文件中操作meta标签,“noindex”标签将告诉搜索引擎的Spider该页面拒绝收录,“nofollow”标签则告诉搜索引擎的Spider该网页内的所有链接拒绝爬行。同时,.htaccess也可将低级的入侵者拒之门外。具体可参考Google的辅助。不过,与采用.htaccess文件的编制,节制权完整掌控在网站造就汲引者手中对照,robots.txt能否完整节制搜索引擎的Spider取决于搜索引擎是不是是残酷遵守robots.txt文件的请求,如Baidu的Spider就曾多次被质疑。
信息网址:http://www.khcha.com/ziyuan/view10305.htm