SEO探索

中文网站搜索引擎优化技术研究


使用robots.txt控制搜索引擎抓取

2006/04/13 by HighDiy

  搜索引擎数据库中的所有网页,都是由Robot程序自动抓取收录的。但我们网站上总会有部分私密性数据不希望被搜索引擎抓取,这时候,就需要robots.txt。

  robots.txt 是一个标准文档,意在阻止搜索引擎的Spider(蜘蛛)从您的 Web 服务器下载某些或全部信息,控制Spider的搜索范围。robots.txt的设置很简单,只要用记事本或其他文本编辑器,依照自己的网站需求,设定一系列选项,然后将其上传到网站根目录即可。robots.txt的设置如下:

User-agent: 搜索引擎的spider代号
Disallow: 输入数据夹或文件名的路径

  如设定所有的spider都能够搜索及抓取整个网站。

User-agent: *
Disallow:

  如拒绝Google搜索及抓取整个网站,但允许其它的

User-agent: Googlebot
Disallow:

  如拒绝所有的Spider

User-agent: *
Disallow: /

  如拒绝所有的Spider搜索及抓取protect目录及seo目录下abc.html文件

User-agent: *
Disallow: /protect/
Disallow: /seo/abc.html

  如拒绝google搜索及抓取protect目录及seo目录下abc.html文件,但允许其他的

User-agent: Googlebot
Disallow: /protect/
Disallow: /seo/abc.html

  很简单吧?另有一点请记住,搜索引擎不会立即对robots.txt 文件所作的更改作出反应,必须等到搜索引擎下一次读取该文件。这段时间,依搜索引擎及具体网站情况,从几小时到几天不等。

  Tags:

推荐:


13 回复 to “使用robots.txt控制搜索引擎抓取”

  1. yoo

    你好,我有一个关于robots.txt的问题,希望得到解答。

    我想禁止所有的robot访问我网站根目录的go.php文件,一般这些文件是 go.php?q=…,这个文件的作用是根据q=的参数,从我的网站转到其他网站去。

    我的robots.txt文件是如下所写:

    User-agent: *
    Disallow: /go.php

    我的这个文件是建站之时就存在的,是Windows下的文本文件。但是只有yahoo搜索引擎没有收录go.php,Google和MSN都收录和很多go.php?q=…的文件。按照道理来说,这些大的搜索引擎都会完全遵守robots.txt文件。

    我在另一个网站下将此文件设置成了UNIX格式,但是依然如此,连yahoo也收录了一些这样的文件。

    究竟什么原因造成的,我苦思不解。

  2. HighDiy

    老实说,对于这个问题,本人以前未遇到过,不过,有这么几种解决思路:
    1、使用通配符,类似如下的方式:
      User-agent: Googlebot
      Disallow: go.php*?
     这种方式,至少对Google可行(Google支持通配符),其他搜索引擎是否支持则不得而知。
    2、将go.php放入单独的子目录,如“/go/”,然后:
      Disallow: /go/
      这样应该能禁止收录该文件及动态产生的页面。(个人臆想,未经过测试)
    3、更稳妥的办法,类似这样的情况干么非得让robots.txt实现,直接在go.php中使用Meta Tag不是更简单么?
      在Head部分加入:
      <meta name=”robots” content=”noindex,nofollow”>
      其中的“nofollow”视情况决定是否加入

  3. sniffer

    在一个博客托管商的二级域名下,robots已经被设置为只读,有没有办法使用javascript调用其他网站上已经设置好的Robots文件?烦请指教。

  4. HighDiy

    To Sniffer:恐怕不好办

  5. sniffer

    呵呵,还好,发现模板头部还可以修改mate。

  6. peterzsk

    如拒绝Google搜索及抓取整个网站,但允许其它的

    User-agent: Googlebot
    Disallow:

    ??

    难道不是:
    User-agent: Googlebot
    Disallow:/

  7. 一个人走

    请问我想设置论坛的某一版块不让收录要怎么写?谢谢。

  8. 冰山上的播客 » Blog Archive » 为什么要使用robots.txt

    […] 我们曾介绍过使用robots.txt来控制搜索引擎抓取页面,同样地,我们也可以在页面文件中使用“noindex”或“nofollow”属性来控制搜索引擎Spider在网站内的爬行,那么,robots.txt对于网站是必需的么?  理论上说,robots.txt只是告诉搜索引擎的Spider网站内哪些内容不允许其索引与收录,它并不是网站的必不可少的组成部分,一个未 配置robots.txt的网站只不过对搜索引擎Spider的爬行不作限制而矣。从这个角度看,不设置robots.txt对网站功能没有影响。 […]

  9. RSS订阅统计数字不过是块注水肉

    […] 但是,如果您希望搞清楚订阅统计中Google Feedfetcher的数字与真实订阅量之间的关系,可以简单地作个测试,私下里,结果不必声张 :创建一个新feed,使用robots.txt禁止被搜索引擎索引收录——当然,不能禁掉Feedfetcher——更新时只通知Google外等,即确保该Feed地址没有泄露让无关人等知晓,然后找几个人或注册多个帐号,订阅该feed,假设5个通过Google Reader 5个通过iGoogle订阅,这样该Feed“真正的订阅量”应为10个,将Feedfetcher反馈回来的“subscribers”与“10”比较,即可对此有大致的轮廓。 […]

  10. 博客应用入门之Google网站管理员工具

    […] 当然,对具体情况应该具体分析。比如说,如果您的网站服务器恰恰在Google尝试抓取时出现宕机,那么,便有可能出现大量的抓取错误,但这一般而言并不是什么大问题——除非服务器频繁宕机——只须等待Googlebot下一次访问,成功后类似错误便自然消失;再比如说,对“网址受 robots.txt 限制”错误,尽管有时确可能由不当的robots.txt设置所致,但更多的时候可能只是因为您不愿意类似的页面被Google索引,是您自己的选择设定。 […]

  11. 奇哉怪也!Google不理会robots.txt? | jifrj

    […] 那么是什么原因呢?检查再三,惊异地发现问题出在我本来最笃定的地方:那个TLA推荐链接所在的中间页(/go/sponsors.html)竟然没被robots.txt阻止,存在于Google索引中,从缓存记录看,上次更新在11月10日。 […]

  12. 苏州工作服

    http://www.szgzf.cn
    苏州工作服,苏州工作制服,苏州工作服装,苏州劳保用品,苏州劳保用品,苏州劳保用品公司,苏州劳保手套,苏州劳保厂苏州劳保服装,苏州劳保用品批发,苏州劳保用品,苏州劳保 …

  13. cs

    robots.txt可以防止重复页面被google惩罚

回复 (回复须知)