SEO探索

中文网站搜索引擎优化技术研究


Googlebot日趋智能还是疯狂?

2007/10/1 by HighDiy

Google在搜索结果页取消对补充结果/补充索引的标注,最主要的一个理由便是如今Google在收录、索引网页的速度与广度方面均有了革命性的突破,补充索引与主索引的区别日渐缩小。单纯从索引网页的角度来看,这点应该是事实,相信许多朋友都观察到类似的现象,比如说网站内的新增页面可以在极短的时间内显示在Google的搜索结果中,而许多之前因缺乏足够的链接导引而无法被Google正常收录的页面,如今在收录方面也不存在障碍。

这当然是件值得庆贺的好事,虽然对网站建设者而言,更多的网页被Google索引也必然相应地带来排名竞争者的增多,必然增加获得理想排名的难度。不过,一个有趣的问题还在于,Google索引网站页面的广度究竟提高到什么程度,以及Googlebot在网站内的爬行机制是否有重大的变化?

近日检查某个基于WordPress的博客网站日志时,偶然发现Googlebot访问诸如下列文件的记录:

/wp-content/cache/wp-cache-极长字符串.meta
/wp-content/cache/wp-cache-极长字符串.html

熟悉WordPress的朋友都清楚,上面的文件为启用Wp-Cache插件后生成的临时文件,其中的所谓“极长字符串”为32位由字母与数字构成的随机字符串,这点很让人奇怪,Googlebot为什么要尝试索引这些文件?当然,要避免这类情况发生,解决方法很简单,比如说在robots.txt将该目录屏蔽,不过,这不是重点,我好奇的是:

  • Googlebot是如何找到这些文件的?我检查了该网站的sitemap,以及其他可能“泄露”此类文件url的文件包括feed,均没有发现任何指向该文件的链接,那么,Googlebot是如何得知这类文件的名称及位置的?误打误撞的几率太小了,难道是通过遍历网站目录?这点有些恐怖。
  • Googlebot为什么尝试索引这类页面?相对而言,对WordPress这样一款相当流行的博客平台,对Wp-Cache这样一个得到广泛应用的插件,Google应该清楚这样的文件结构与命名方式,应该清楚这是标准的后台文件不应被索引,也应该清楚索引这类临时文件没有任何意义,除了让索引库更加臃肿之外!而且,这类临时文件的生存周期只有一个小时(网站设定),之后便只能返回404错误。难道今后对这类文件也需加上“unavailable_after”标签,明确告知Googlebot这些页面将在1小时后“自我毁灭”?这也未免太搞笑了吧?虽然可以让Google苦心孤诣推出的“unavailable_after” tag多少能够派上点用场。 :P
  • 这究竟仅仅是个案还是普遍行为?不知道同样使用WordPress + Wp-cache的朋友有无观察到类似的现象?
推荐:


5 回复 to “Googlebot日趋智能还是疯狂?”

  1. Cloudream

    “相对而言,对WordPress这样一款相当流行的博客平台,对Wp-Cache这样一个得到广泛应用的插件,Google应该清楚这样的文件结构与命名方式,应该清楚这是标准的后台文件不应被索引,也应该清楚索引这类临时文件没有任何意义,除了让索引库更加臃肿之外!”

    显然这句话不对,我觉得Google单独处理任何特殊URL,即使是/wp-admin/。

  2. 草根网

    收藏至20ju.com

  3. shi

    我想问一下,你的gg广告有人点吗?

    我也想放一些,就怕没人点。

    可以稍微透露一些吗?

  4. DJ舞曲

    这只能说明GOOGLE越来越强大了

  5. Gfans、谷黑及最近的这点破事 | jifrj

    […] 不过,最近在SEO探索挨刀之后,忽然发现自己陷入了一种尴尬的境地:再也不能从任何负面的角度谈论Google,否则便有因受到Google的打击而恼羞成怒而怎么怎么之嫌,便“不够客观”。事实上,早在SEO探索正式挨刀前的十一黄金周里,在与一位相当理性的朋友聊天时,他就曾指出我在Googlebot日趋智能还是疯狂?一文中见缝插针地嘲笑“unavailable_after”标签标志着我“从GFans转变为G黑”,怀疑是因为我在知道SEO探索即将挨刀后心态失衡而有点“逢G必反”的倾向——至于“unavailable_after”标签的问题,到目前为止,我对其的观点仍然没有改变,适当的时候再详细讨论吧。 […]

回复 (回复须知)