1、百度蜘蛛:Baiduspider
网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,这些名称都不是太准确。网页抓取百度蜘蛛最新名称为Baiduspider,是用百度来抓取网页的蜘蛛。图片抓取百度蜘蛛准确名称为Baiduspider-image,是用来抓取图片的蜘蛛。
常见的百度蜘蛛还有移动网页抓取蜘蛛Baiduspider-mobile(抓取wap)、百度视频抓取蜘蛛Baiduspider-video(抓取视频)、百度新闻抓取蜘蛛Baiduspider-news(抓取新闻)。
如何判断百度蜘蛛真假
使用DNS反查方式可以确定抓取来源的ip是否属于百度,根据平台不同验证方法也有所不同:
在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer
baiduspider-123-125-66-120.crawl.baidu.com.
host 119.63.195.254
254.195.63.119.in-addr.arpa domain name pointer
BaiduMobaider-119-63-195-254.crawl.baidu.jp.
在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
2、谷歌蜘蛛:Googlebot
谷歌网页抓取蜘蛛最新名称为“compatible; Googlebot/2.1;”。谷歌移动网页抓取蜘蛛名称为Googlebot-Mobile,看名字是抓取wap内容的。
3、360蜘蛛:
360搜索网页抓取蜘蛛最新名称为360Spider或HaosouSpider。
4、搜狗蜘蛛:Sogou+web+spider/4.0
搜狗网页抓取蜘蛛最新名称为Sogou+web+spider/4.0,搜狗蜘蛛还包括如下这些:Sogou+inst+spider、Sogou+spider2、Sogou+blog、Sogou+News+Spider、Sogou+Orion+spider,
搜狗最常见蜘蛛为"Sogou+web+spider/4.0" ;"Sogou+News+Spider/4.0" ;"Sogou+inst+spider/4.0"。
5、必应蜘蛛:bingbot
必应网页抓取蜘蛛最新名称为(compatible; bingbot/2.0;)
6、一搜蜘蛛:YisouSpider
一搜网页抓取蜘蛛最新名称为YisouSpider,同时Yisouspider也是神马搜索的网页爬虫,同时也在为CNZZ云推荐提供服务。
7、神马蜘蛛:YisouSpider
神马网页抓取蜘蛛最新名称为YisouSpider
信息网址:http://www.khcha.com/ziyuan/view15945.htm