SEO探索

中文网站搜索引擎优化技术研究


OutfoxBot : 这是哪家搜索引擎的爬虫?

2006/08/9 by HighDiy

  我们服务器的带宽资源紧张问题由来已久,无论IT技术点评前段时间的改版,还是近来为图片加水印以防止盗链目的均是出于节约带宽的考虑,之所以对Yahoo Slurp颇有微辞也是因为其疯狂的数据请求及对带宽的占用。不过,最近一个名叫OutfoxBot 的搜索引擎爬虫则让Yahoo Slurp相形见绌,其疯狂程度已远远超过巅峰时期的Slurp了,让我们本以为Yahoo推出新爬虫后服务器能轻松一点的天真想法显得那么幼稚。

  本来,OutfoxBot 对网站的访问自网站开通以来一直都存在,只不过前几个月其访问量虽然也名列前五,但因混同于Googlebot等“一般群众”未引起我们的注意,进入8月份以来,不知道它吃错了哪副药,——可能是兴奋剂?——以破刘翔记录的幅度挺进:自8月1日至今(8月9日),其数据请求达到了71.86 M,与其对应的是,Yahoo的40.73M 、Google的16.29M和Baidu的8.59 M,这也未免太夸张了些!

OutfoxBot的特征

  从访问日志看,OutfoxBot主要来自220.181.9.* 与 220.181.8.* 两个网段,查询相应的Whois信息,应该是北京电信IDC,如下:

inetnum: 220.181.0.0 - 220.181.255.255
netname: CHINANET-IDC-BJ
country: CN
descr: CHINANET Beijing province network
descr: China Telecom
descr: No.31,jingrong street
descr: Beijing 100032

  看来属于一个国产的或民族的产品无疑。

  解析出来的特征码则为:

OutfoxBot/0.3 (For internet experiments; http://; outfox.agent@gmail.com)

  连个网址也没有,只有一个E-mail, :cry: 这到底是哪家民族搜索引擎的东西?值得玩味的是其中的“For internet experiments”,看来不是一家商业的搜索引擎?能想到只有那曾多次获奖的天网了,(纯属猜测),TMD,再这样下去也许该出来位Terminator对付它了。

  前两天尝试在robots.txt中禁掉它,不过发现虽然它也多次读取robots.txt,但似乎置若罔闻,并不遵循robots.txt中的指令,不知道是不是应该多等几天还是它根本就不理会robots.txt之流由鬼子制订的规则!

  当然,另一点不解的是为什么它突然发疯了,莫非新一轮的国家科学奖又开始鉴定评选了?

  希望了解OutfoxBot属于哪家搜索引擎以及如何禁掉它的朋友提供帮助,谢谢!

  Tags:

推荐:


7 回复 to “OutfoxBot : 这是哪家搜索引擎的爬虫?”

  1. seo-nofollow

    我的网站也被它爬过,开始时以为做实验,一两次也就没事了
    后来发现感情不是这么回事,隔两天就来光顾我一次

  2. 111

    我都快烦死了

  3. haka

    呵呵,我们把这个爬虫的IP地址封掉了事。

  4. HighDiy

    之所以未禁它,还有另一种考虑:从它的来源看,属于北京电信IDC,而所谓IDC,应该在某种程度上承担一定的互联互通任务,如果它的频繁访问是电信为保证电信用户访问网通域内站点速度而在IDC机房做的类似于缓存性能的东东呢?这样,似乎还有不小的正面意义,尤其考虑到网通与电信间艰难的通讯。

  5. 站务管理

    屏蔽了五个频繁访问博客南开服务器的 IP 地址…

    最近博客南开服务器一直负载较高,还出现了意外宕机的情况,我们也在努力寻找原因。最近几天我们注意到了几个访问行为比较反常的 ip 地址,经查证并非来自我站合作伙伴 FeedSky,现…

  6. johnxie

    我这检出的是杭州的IP 我把他号段给屏B了·

  7. xingxing

    是有道的爬虫

回复 (回复须知)