SEO探索

中文网站搜索引擎优化技术研究


奇哉怪也!Google不理会robots.txt?

2007/11/17 by HighDiy

前段时间一位朋友还很好奇地问,既然从这次的受惩中接受了教训,既然不打算再玩Text Links Ads,那为什么还在侧栏中摆上TLA的推荐链接——即侧栏最上方的“Advertise Here”,不过,考虑到“Advertise Here”存在一定的误导,准备呆会改成“Don’t Advertise Here” :P ——难道还不舍得放弃那一点点收入么?我洒然失笑,如今大势,TLA已成过街的那什么,谁还敢这时候加入啊?只是为了好玩,想看看Google是否会以这个链接为据认定我仍有出售链接的企图,是不是会以其主观认定的“intent”而不是实际监测到的链接买卖行为为判断依据决定是否实施打击。结果那位朋友被我的无聊弄得又好气又好笑。

不过,我原来倒是相信这么做没有太大风险的,第一,即使任何人想在SEO探索购买广告,也不能成功:SEO探索网页中的TLA代码早就删掉了;其次,更重要的,即使Google认定TLA为世上最“evil”之物,也没有理由因这个推荐链接而继续对SEO探索动刀,且不说这个链接本身仅仅是推荐链接而不是付费链接,而是因为这个完全符合Google官方给出的“对于以宣传为目的而非旨在操控搜索结果的链接购买和销售的安全方法”,即将链接重定向至被 robots.txt 文件拦截的中间网页上,Google总不能因为有人严格遵守自己的要求而惩罚他吧? :)

不料,前天(11/15)打开SEO探索却发现,一不小心又挨了一刀,PR已经降为零了 :oops: ,枉我前段时间在PR先降到3再降到2时还为双手刀法赞叹,却没想到还有第三只手!但从理性的角度看,肯定是SEO探索还存在Google动刀的理由。

那么是什么原因呢?检查再三,惊异地发现问题出在我本来最笃定的地方:那个TLA推荐链接所在的中间页(/go/sponsors.html)竟然没被robots.txt阻止,存在于Google索引中,从缓存记录看,上次更新在11月10日。

网页缓存截图

这可真是奇哉怪也!见鬼了。难道有人hack进服务器修改了robots.txt文件,让其失去了阻止功能?

登录进服务器,可见robots.txt文件上次修改时间为4月12日,是我的操作,这点我记得很清楚,因为,在此之前,SEO探索上的TLA推荐用的是直接链接,而在4月12日闻听到即将天下大乱才建了这么个中间页面跳转,并修改了robots.txt以阻止其被Google访问到,同时,也加入了Sitemap AutoDiscovery的一行(不过,这一行加得实在无聊 :oops: )。事实上,在完成这个操作两天后即4月14日,Matt Cutts发布那篇正式向Paid Link宣战的文章时我还曾向朋友吹嘘自己多么英明——别问我当时为什么不马上把销售的链接拿掉,汗! :oops: ——那么,robots.txt未被别人动过,这个自出生之日起一直位于robots.txt保护之下的网页怎么被Google索引到了呢?

robots.txt文件信息

再次检查我们的robots.txt

user-agent: *
disallow:/wp-admin/
disallow:/wp-content/cache
disallow:/go/
Sitemap: http://seo.highdiy.com/sitemap.xml

有问题么?“/wp-content/cache”后未以“/”结尾可能是个原因?

登录Google 网站管理员中心,首先检查“诊断”的网络抓取页,发现“ 网址受 robots.txt 限制 ”部分不出意外地变成了“0”。不过,我明明记得4月份加上这个页面时,曾在此看到“/go/sponsors.html”页出现在抓取错误中的啊!

网络抓取错误

Btw : 可惜,起始时间最早也只是“10/31”,遗憾当时未能保存抓取错误的历史记录。不过,即使保存了也很难称得上“证据” :P ,不知道朋友们是否清楚能否直接在网站管理员中心查找多半年前的历史数据?

可能的原因便只能是我们的robots.txt存在问题了。幸好,Google网站管理员中心提供了一个robots.txt分析工具:

Robots.txt 分析

可以看到,Google最近一次下载robots.txt是在11/15,那么,输入TLA链接的网址测试一下吧:

Robots.txt 测试结果

:因robots.txt的第二行中“/wp-content/cache”未以“/”结尾,怀疑是其的问题,故同时测试了位于其下的一个文件。

能成功拦截嘛!这下就更莫名其妙了,即使说robots.txt存在某些问题,但那恐怕也只能发生在其他搜索引擎,至少在Google中应该能保证正常工作吧?不然,Google网站管理员工具的“robots.txt分析”意义何在呢

在此请教朋友们:

  1. 您遇到过Googlebot不依从robots.txt限制的情况么?在我印象中,Googlebot在遵守robots.txt规范方面做得最好,不知您能否找出反例?
  2. 您遇到过在网站管理员工具中测试成功的robots.txt在实际工作中不能阻止Google抓取某些网页么?

难道还有其他原因?欢迎给出您的看法!——呵呵,暂时不必涉及“阴谋论”。已经向Google申请在其索引中删除这个“不听话”的页面,看看情况! :P 至于robots.txt文件,暂不修改,保持原样!算了,还是不找事了 :P ,把robots.txt改了吧,删除 Sitemap AutoDiscovery以及当年试用wp-cache时留下的一行,修改后的文件信息如下:

robots.txt全修改后信息

Update : 干脆直接将原文件删除,改为funny.html来实现跳转吧。看看这个网页能不能再被收录。 :P

推荐:


14 回复 to “奇哉怪也!Google不理会robots.txt?”

  1. hi

    最有可能还是“阴谋论”。

  2. HighDiy

    哈哈,看出来了,您不厚道 :P

  3. 无缝钢管

    用软文去支持你

  4. 博客应用入门之Google网站管理员工具

    […] 分析 robots.txt:在这里您可以检查robots.txt 文件是否设置无误,比如是否阻止了不欲阻止的网页,或者,希望阻止的网页却在不经意间对Google“开放”。同时,也可在此模拟修改robots.txt并查看效果,当然,既然为“模拟”,最后您还得按测试成功的设置修改位于服务器上的robots.txt文件。——不过,最近我对其准确性则持一定的怀疑态度,即在此处的测试是否完全与Googlebot的索引行为相一致,参见我遇到的灵异事件,建议您修改robots.txt后仔细检查语法而不要轻信这里的测试结果。 […]

  5. DJ舞曲

    对这个不做评论

  6. 美国空间

    1. 您遇到过Googlebot不依从robots.txt限制的情况么?在我印象中,Googlebot在遵守robots.txt规范方面做得最好,不知您能否找出反例?
    2. 您遇到过在网站管理员工具中测试成功的robots.txt在实际工作中不能阻止Google抓取某些网页么?

    这种情况俺遇到过多次了,我用drupal建站,一般都用路径别名,然后在robots中拦截原始的路径,一般还会用disallow:*?*拦截所有带有参数的链接,可是还会有很多漏网之鱼。比如这个郑州礼品公司的网站http://www.giftpop.cn ,收录了很多拦截页面。

  7. 美国主机

    另外,google省略的结果是不是也在索引当中?

  8. 网站建设博客

    博主研究的比较透~~~

  9. 申请书

    我感觉经常不遵从,我都懒得理它了。。。

    好像一直都这样子。。

  10. dongdonglang

    Google不是不理会robots.txt,是收录了全站,然后根据robots.txt把不想出现的页面屏蔽掉

  11. enthappy

    robots.txt 保证你保护的内容不出现在搜索结果中,并不保证这此内容不被搜索引擎参考吧?

  12. hezi

    请教一个关于google收录的问题。
    我前几天发现google把我的一个日志没有被引用的文件收录了,感觉怪怪的,不知怎么googlebot会跑到这个文件里面去的。

  13. seo

    真的???

  14. SEO资料

    那就太好了。呵呵

回复 (回复须知)