Yahoo支持在robots.txt使用通配符
2006/11/3 by HighDiyrobots.txt 是一个标准文本文件档,意在阻止搜索引擎的Spider(或robots)从 Web 服务器下载某些或全部信息,控制Spider的搜索范围。之前我们曾探讨过网站为什么要使用robots.txt及如何使用robots.txt控制搜索引擎的抓取。
不过,在标准的robots.txt语法中,只可在 User-agent 项中使用通配符,即使用“*”来代表所有搜索引擎的robots,而在 Disallow 项中,则不能使用通配符以灵活配置robots.txt。
Google率先提供了对在robots.txt中使用通配符的扩展支持——至于是不是唯一一个支持通配符语法的搜索引擎则不敢确定——,在Disallow 项中可使用“*”与“$”,其中,”*”匹配任意字符串,而”$”则标志Disallow项目中任意名称的结尾。如下面的例子中,将禁止Googlebot索引收录gif文件:
User-agent:Googlebot
Disallow:/*.gif$
近日,Yahoo Search Blog 宣布 Yahoo Slurp也提供了在 robots.txt 中使用通配符的支持,其语法与Google大同小异,同样提供了两个通配符: “*” 与“&”,其中,“*”匹配url中的任意字符串,而“&”则类似于Google的“$”,告诉Yahoo Slurp已到达匹配字符串的结尾。——不知道Yahoo在此使用不同的字符标志结尾是否刻意为之。不过,总的说来,Yahoo最近逐渐呈现出切实满足用户的趋势,包括前不久提供对“NOODP”属性的支持,这是一个好趋势。
Update : 之前的消息不确,Yahoo! Slurp同样使用“$”来标识匹配字符串的结尾,与Google和Live搜索的格式相同,这样,以上面的例子来说,我们可以用如下的格式来禁止所有搜索引擎收录GIF文件,——至少对Google、Yahoo与Live搜索有效:
User-agent:*
Disallow:/*.gif$









2006/11/4 4:11 pm
robots各家都有各家的标准,如果想用,每个都要研究,还是少用为妙。