SEO探索

中文网站搜索引擎优化技术研究


Yahoo支持在robots.txt使用通配符

2006/11/3 by HighDiy

  robots.txt 是一个标准文本文件档,意在阻止搜索引擎的Spider(或robots)从 Web 服务器下载某些或全部信息,控制Spider的搜索范围。之前我们曾探讨过网站为什么要使用robots.txt及如何使用robots.txt控制搜索引擎的抓取

  不过,在标准的robots.txt语法中,只可在 User-agent 项中使用通配符,即使用“*”来代表所有搜索引擎的robots,而在 Disallow 项中,则不能使用通配符以灵活配置robots.txt。

  Google率先提供了对在robots.txt中使用通配符的扩展支持——至于是不是唯一一个支持通配符语法的搜索引擎则不敢确定——,在Disallow 项中可使用“*”与“$”,其中,”*”匹配任意字符串,而”$”则标志Disallow项目中任意名称的结尾。如下面的例子中,将禁止Googlebot索引收录gif文件:

User-agent:Googlebot
Disallow:/*.gif$

  近日,Yahoo Search Blog 宣布 Yahoo Slurp也提供了在 robots.txt 中使用通配符的支持,其语法与Google大同小异,同样提供了两个通配符: “*” 与“&”,其中,“*”匹配url中的任意字符串,而“&”则类似于Google的“$”,告诉Yahoo Slurp已到达匹配字符串的结尾。——不知道Yahoo在此使用不同的字符标志结尾是否刻意为之。不过,总的说来,Yahoo最近逐渐呈现出切实满足用户的趋势,包括前不久提供对“NOODP”属性的支持,这是一个好趋势。

  Update : 之前的消息不确,Yahoo! Slurp同样使用“$”来标识匹配字符串的结尾,与Google和Live搜索的格式相同,这样,以上面的例子来说,我们可以用如下的格式来禁止所有搜索引擎收录GIF文件,——至少对Google、Yahoo与Live搜索有效:

User-agent:*
Disallow:/*.gif$

推荐:


1 回复 to “Yahoo支持在robots.txt使用通配符”

  1. 笑笑堂

    robots各家都有各家的标准,如果想用,每个都要研究,还是少用为妙。

回复 (回复须知)