为什么要使用robots.txt
2006/05/7 by HighDiy我们曾介绍过使用robots.txt来控制搜索引擎抓取页面,同样地,我们也可以在页面文件中使用“noindex”或“nofollow”属性来控制搜索引擎Spider在网站内的爬行,那么,robots.txt对于网站是必需的么?
理论上说,robots.txt只是告诉搜索引擎的Spider网站内哪些内容不允许其索引与收录,它并不是网站的必不可少的组成部分,一个未配置robots.txt的网站只不过对搜索引擎Spider的爬行不作限制而矣。从这个角度看,不设置robots.txt对网站功能没有影响。
但另一方面,恰当地设置robots.txt,可以更好地维护Web 服务器,提高网站的综合性能。从这个角度,网站最好配置robots.txt。
Robots.txt带来的好处
几乎所有的搜索引擎Spider都遵循robots.txt给出的爬行规则,协议规定搜索引擎Spider进入某个网站的入口即是该网站的robots.txt,当然,前提是该网站存在此文件。对于没有配置robots.txt的网站,Spider将会被重定向至404 错误页面,相关研究表明,如果网站采用了自定义的404错误页面,那么Spider将会把其视作robots.txt——虽然其并非一个纯粹的文本文件——这将给Spider索引网站带来很大的困扰,影响搜索引擎对网站页面的收录。
robots.txt可以制止不必要的搜索引擎占用服务器的宝贵带宽,如email retrievers,这类搜索引擎对大多数网站是没有意义的;再如image strippers,对于大多数非图形类网站来说其也没有太大意义,但却耗用大量带宽。
robots.txt可以制止搜索引擎对非公开页面的爬行与索引,如网站的后台程序、管理程序,事实上,对于某些在运行中产生临时页面的网站来说,如果未配置robots.txt,搜索引擎甚至会索引那些临时文件。
对于内容丰富、存在很多页面的网站来说,配置robots.txt的意义更为重大,因为很多时候其会遭遇到搜索引擎Spider给予网站的巨大压力:洪水般的Spider访问,如果不加控制,甚至会影响网站的正常访问。
同样地,如果网站内存在重复内容,使用robots.txt限制部分页面不被搜索引擎索引和收录,可以避免网站受到搜索引擎关于 duplicate content的惩罚,保证网站的排名不受影响。
robots.txt带来的风险及解决
凡事有利必有弊,robots.txt同时也带来了一定的风险:其也给攻击者指明了网站的目录结构和私密数据所在的位置。虽然在Web服务器的安全措施配置得当的前提下这不是一个严重的问题,但毕竟降低了那些不怀好意者的攻击难度。
比如说,如果网站中的私密数据通过www.yourdomain.com/private/index.html 访问,那么,在robots.txt的设置可能如下:
User-agent: *
Disallow: /private/
这样,攻击者只需看一下robots.txt即可知你要隐藏的内容在哪里,在浏览器中输入www.yourdomain.com/private/ 便可访问我们不欲公开的内容。对这种情况,一般采取如下的办法:
- 设置访问权限,对/private/中的内容实施密码保护,这样,攻击者便无从进入。
- 另一种办法是将缺省的目录主文件index.html更名为其他,比如说abc-protect.html,这样,该内容的地址即变成www.yourdomain.com/private/abc-protect.htm,同时,制作一个新的index.html文件,内容大致为“你没有权限访问此页”之类,这样,攻击者因不知实际的文件名而无法访问私密内容。
Tags: SEO , 搜索引擎 , robots.txt









2007/03/1 3:09 am
[…] Robots.txt对于任何网站而言都是一个相当重要的文件。正确设置的Robots.txt能够有效地指引搜索引擎的Spider在网站内的爬行,限制搜索引擎对私密内容或无关内容的索引与收录,其意义不仅在于能够有效地节省搜索引擎对服务器带宽的占用,还可在网站存在重复内容时能够限制部分页面不被搜索引擎索引从而更有效地保证网站在搜索引擎中排名等。 […]
2007/04/3 3:24 pm
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2007/04/4 7:17 pm
[…] WordPress自从2.1版本开始,在Privacy选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。其实robots.txt的用法有很多(robots.txt带来的好处),最近看了一些文章说,在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,这篇文章说,通过将comment feeds与Trackbacks排除在外,他的网站访问量上升了11.3%。通过我的Google Analytics来看,访问这里的人有2/3的是新访者,而这些新访者中又有2/3来自于搜索引擎,所以对于搜索引擎的优化还是很重要的。综合了上面2个例子,我把自己的robots.txt内容设置如下: […]
2007/05/3 7:32 pm
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2007/05/6 7:55 am
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2007/08/12 6:04 pm
[…] WordPress自从2.1版本开始,在Privacy选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。其实robots.txt的用法有很多(robots.txt带来的好处),最近看了一些文章说,在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,这篇文章说,通过将comment feeds与Trackbacks排除在外,他的网站访问量上升了11.3%。 […]
2007/08/24 3:17 pm
[…] WordPress自从2.1版本开始,在Privacy选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。其实robots.txt的用法有很多(robots.txt带来的好处),最近看了一些文章说,在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,这篇文章说,通过将comment feeds与Trackbacks排除在外,他的网站访问量上升了11.3%。 […]
2007/10/25 11:53 am
[…] robots.txt 帶來的好處很多,有文章說通過將 comment feeds 與 Trackbacks […]
2007/12/5 6:36 pm
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2007/12/7 1:33 am
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2008/01/2 11:12 pm
回头也给自己的博客写一个.
2008/01/8 12:11 am
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2008/01/27 1:44 pm
出售13082655559一毛卡,打电话一分钟一毛钱,13384599991大众卡,132565678978分卡全部内含70元话费,套餐随便改,价格面议,有意者联系13054922229
2008/02/25 10:22 pm
[…] WordPress自从2.1版本开始,在Privacy选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。其实robots.txt的用法有很多(robots.txt带来的好处),最近看了一些文章说,在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,这篇文章说,通过将comment feeds与Trackbacks排除在外,他的网站访问量上升了11.3%。 […]
2008/03/9 2:10 pm
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2008/03/20 1:46 pm
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2008/03/30 3:39 am
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2008/04/2 11:36 pm
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2008/07/14 1:20 pm
[…] WordPress自从2.1版本开始,在Privacy选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。其实robots.txt的用法有很多(robots.txt带来的好处),最近看了一些文章说,在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,这篇文章说,通过将comment feeds与Trackbacks排除在外,他的网站访问量上升了11.3%。 […]
2008/11/26 11:51 am
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2009/03/3 10:38 pm
[…] 百度百科 http://seo.highdiy.com/index.php/seo/why-to-use-robotstxt/ […]
2009/03/4 5:24 pm
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]
2009/03/26 4:26 pm
[…] WordPress自从2.1版本开始,在Privacy选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。其实robots.txt的用法有很多(robots.txt带来的好处),最近看了一些文章说,在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,这篇文章说,通过将comment feeds与Trackbacks排除在外,他的网站访问量上升了11.3%。 […]
2009/04/26 2:37 pm
[…] robots.txt 带来的好处很多,有文章说通过将 comment feeds 与 Trackbacks […]