chaihongjun.me

真假搜索引擎蜘蛛的识别

真假搜索引擎蜘蛛的识别

   所有的网站站长对友好的搜索引擎蜘蛛都会非常的欢迎,但是蜘蛛就像人一样,有好有坏之分。好的蜘蛛帮助网站尽可能多的展现,尽可能高排名的展现,当然这前提是搜索引擎蜘蛛足够量的爬取我们的页面链接,能够给我们带来流量。坏的蜘蛛,除了爬取页面,对于流量贡献几乎为零,而且对服务器的稳定和资源都是一个浪费。总结下来,好的蜘蛛帮助我们有多收录,多展现,高排名。坏的蜘蛛,除了爬取页面其他的没什么实际作用。因此,一般国外的蜘蛛,很小众的博主也列在了“坏蜘蛛”之列,毕竟老外没多少人看得懂中文。当然,这些洋蜘蛛不是绝对的“坏”,真正坏的是那些纯粹爬取偷取内容的网络爬虫,甚至是仿造知名蜘蛛爬取网站:

218.30.118.99 - - [30/Jun/2016:04:45:42 +0800] "GET / HTTP/1.1" 200 40154 "-" "Mozilla/5.0 (Windows NT 6.1; rv:7.0.1) Gecko/20100101 Firefox/7.0.1"
218.30.118.99 - - [30/Jun/2016:04:45:42 +0800] "GET / HTTP/1.1" 200 40154 "http://www.baidu.com/" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
218.30.118.99 - - [30/Jun/2016:04:45:42 +0800] "GET / HTTP/1.1" 200 40154 "-" "360spider(http://webscan.360.cn)"
218.30.118.99 - - [30/Jun/2016:04:46:03 +0800] "GET / HTTP/1.1" 403 162 "http://www.baidu.com/s?wd=\xE7\x99\xBE\xE5\xAE\xB6\xE4\xB9\x90|\xE5\x8D\x9A\xE5\xBD\xA9|\xE7\x9A\x87\xE5\x86\xA0\xE7\xBD\x91|\xE5\xA4\xAA\xE9\x98\xB3\xE5\x9F\x8E" "Python-urllib/2.6"

上面的IP显示这个家伙几十秒内变了多重身份,最先开始的FF,大家熟知的火狐浏览器。接着变成了百度蜘蛛,然后立即又变成了360蜘蛛,最后才变成一个python程序。夸张的是前3个身份都是在同一时刻发生的

30/Jun/2016:04:45:42 +0800

这不得不让人引起注意,再加上度娘蜘蛛马上要升级到3.0了,但是记忆中度娘的UA识别是包含“2.0”这个数字的。为了排除嫌疑验证这个IP到底是个什么玩意,特意结合《百度用户服务中心-站长平台》的文章做了操作识别。在网站服务器上发现,确实不是所谓的百度蜘蛛。

真假搜索引擎蜘蛛的识别

上图,可以识别出218.30.118.99不是百度蜘蛛,对比而言123.125.71.74才是真的蜘蛛。

pc ua:通过关键词Baiduspider/2.0来确定是pc ua
移动ua:通过关键词android和mobile确定是来自移动端抓取访问,Baiduspider/2.0 确定为百度爬虫。


在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
$ host 123.125.66.120 
120.66.125.123.in-addr.arpa domain name pointer 
baiduspider-123-125-66-120.crawl.baidu.com.

host 119.63.195.254
254.195.63.119.in-addr.arpa domain name pointer 
BaiduMobaider-119-63-195-254.crawl.baidu.jp.
6.2  在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
6.3  在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

既然判断了是假的蜘蛛,直接BLOCK即可。

知识共享许可协议本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。作者:柴宏俊»