SEO探索

中文网站搜索引擎优化技术研究


存档: 2006/08

Google的高级搜索技巧

2006/08/13

  相信即便是入门级的用户也都能很熟练地使用Google进行搜索:只需连接到Google的网站,在搜索框中输入待查询的词、词组或多个搜索词组的组合,Google便会返回相应的搜索结果。不过,这只是搜索引擎的最基本功能,除此之外,Google,以及很多其他搜索引擎,也提供了许多更有效的、更有针对性的搜索方法与命令,它们可以使您的搜索更为高效,搜索结果更为准确。

连接符

  • 使用引号强制搜索整个短语
    例如: 搜索[“Google的高级搜索技巧”]将只会返回包含这个完整短语的网页
  • 使用加号
    如果您希望只搜索中包含某个词组的网页,可以使用“+”强调,例如,使用类似于[网站优化 +SEO探索]搜索项,将会返回内中肯定包含“SEO探索”的网页,但是否一定存在“网页优化”则未必,尤其对排名靠后的网页而言。
  • 使用减号
    为了更精确地匹配搜索结果,有时候我们希望将部分网页排除在外,这时候可以使用“-”。比如说,我想查询一下本站的Google的补充结果,网页的坟墓?被哪些网站拷贝,可以使用类似于[Google的补充结果 网页的坟墓 -seo探索]的搜索项。

一般技巧

  • site:seo.highdiy.com
    这将返回SEO探索网站被Google收录的全部网页。
  • related:www.highdiy.com
    返回与指定URL相关的网页
  • link:www.highdiy.com
    返回指定URL的反相链接列表,在某种意义上,可以作为反映网站权威度的参考,更详细的解释参见如何查询反相链接的准确数量
  • cache:www.highdiy.com
    返回指定Url的网页快照,不过,国内用户最好还是不要用Google的快照功能,不然,要做好一定时段内不能访问Google的准备。
  • info:www.highdiy.com
    返回Google对指定Url网页所知的信息

高级技巧

  • filetype:
    指定要搜索的文件类型,如[filetype:PDF]将只返回文件格式为PDF的搜索结果。注:可以与(-)结合使用,如[SEO探索 -filetype:PDF]将返回除PDF格式之外的搜索结果。
  • daterange:
    输出指定日期范围内的搜索结果,注意,只支持Julian日期格式。
  • allinurl:
    通过使用 [allinurl:]限定的搜索项,可以让Google返回精确匹配在URL中包含相应搜索项的结果,如[allinurl: seo highdiy]将返回Url中同时具有“seo”和“highdiy”的结果,基本上这些结果除极少数外都应是SEO探索的内部网页。
  • inurl:
    [inurl:]与 [allinurl:]的区别在于,让我们继续用上面的例子说明,[inurl:seo highdiy]的返回结果是,Url中包含“seo”,而“highdiy”则可以出现在网页内或Url中,可以看出其结果的范围要比[allinurl:]大不少。
  • allintitle:
    同样地,使用[allintitle:]命令的返回结果将返回在网页Title中同时包含所有搜索项的网页,如 [allintitle: SEO 探索] 的返回结果中网页标题中肯定同时包括“SEO”和“探索”。
  • intitle:
    [intitle:seo 探索]将返回那些在网页标题中包括“SEO”同时在网页内容或标题中存在“探索”的网页。

  当然,如果您不愿意费力去记这些稍嫌啰嗦的命令,使用Google的高级搜索也可实现大部分的功能。

  Tags:

出站链接与入站链接的平衡

2006/08/12

  在上篇文章中我们探讨了网站中存在一定数量出站链接的必要性,以及出站链接作为网站内容的必要补充将有助于更好地满足访问用户的需求,提高用户的满意度,从而更有效地促成网站的建设目标。不过,对许多网站建设者而言,忌讳在自己的网页中使用出站链接,原因除了(1)隐藏所参考的资源,力图使自己与用户之间信息不对等;(2)不希望损失访问量,认为出站链接将导致自己网站的流量损失外,还有一个重要原因,那便是担心出站链接或过多的出站链接会影响网站的优化效果,这方面许多的“SEO专家”也推波助澜,给出很多似是而非的说法,造成许多网站建设者在对待出站链接时总是十分踌躇。

出站链接会造成PageRank的损失?

  在这些对出站链接的不利说法中,最常见的即是类似于这样:基于链接能传递PageRank的理由,许多人便顺理承章地认为,建立指向外部网站的链接会造成自己网页的PageRank流失,为他人所用,白白为他人做贡献,同时,造成网页上内部链接的“贬值”,相应内部链接指向的页面得不到足够的PageRank传递。

  这种说法其实根本经不起推敲,首先,PageRank不是那种一次性的或消耗性的资源,不是那种建立了链接就会造成自己数量减少的资源,当向链接指向的网页传递PageRank时并不意味着要做出源网页的PageRank为代价,也即是说,网页中加入指向外部网站的出站链接不可能造成网页自身PageRank的“流失”;其次,网页中存在出站链接也绝不会影响网页上内部链接的价值,事实上,一个缺乏外部链接或外部链接不足却有着大量内部链接的网页,反而会因这种内部链接与出站链接的不平衡而大大影响网站优化的效果,影响网页的PageRank并最终影响网页在SERP中的排名。

单向链接更有价值,因此,应避免出站链接?

  随着主要搜索引擎体现真正有价值链接的努力,特别是Google近来的算法调整,越来越多的人认识到,传统的交换链接或互惠链接渐渐走到了尽头,与其相对应的,单向链接更有价值。这当然是很有道理的,不过,也有不少人据此认为,为了要使网站获得的链接成为这类有价值的“单向链接”,便要刻意避免建立指向来源网站的出站链接,不然,单向也就不能称其为单向了,从而影响网站最终的优化效果。

  对这种看法需要客观地看待,最基本的,搜索引擎之所以体现单向链接的价值,便是要试图剔除那种单纯地为了获得好的搜索引擎排名而人工添加或交换达成的链接,体现真正意义上的链接,即因优秀内容而获得的自然链接,的价值,而绝不是杜绝能够为网站内容提供必要补充的外部链接。对Internet而言,链接是其根本,对网站优化效果有害的是那些不自然的,比如说使用交换链接的方式可以使网站在一夜之间突然出现的几十个甚至更多的链接,这明显有太多的人工雕琢的痕迹。

  从访问用户的角度,必要的出站链接能够为其提供内容相关但自身网站所不能提供的资源,这是非常有价值的。同样地,对搜索引擎也是如此,毕竟,搜索引擎能够生存与发展的基础在于是否能够向用户提供最相关的内容。

  当然,这一切的前提是网站的出站链接的数量要适度,同时,在选择链接伙伴时要慎重,链接要具有相关性,同时,没有链接到那些“Bad Neighborhoods”。

  Tags: , ,

OutfoxBot : 这是哪家搜索引擎的爬虫?

2006/08/9

  我们服务器的带宽资源紧张问题由来已久,无论IT技术点评前段时间的改版,还是近来为图片加水印以防止盗链目的均是出于节约带宽的考虑,之所以对Yahoo Slurp颇有微辞也是因为其疯狂的数据请求及对带宽的占用。不过,最近一个名叫OutfoxBot 的搜索引擎爬虫则让Yahoo Slurp相形见绌,其疯狂程度已远远超过巅峰时期的Slurp了,让我们本以为Yahoo推出新爬虫后服务器能轻松一点的天真想法显得那么幼稚。

  本来,OutfoxBot 对网站的访问自网站开通以来一直都存在,只不过前几个月其访问量虽然也名列前五,但因混同于Googlebot等“一般群众”未引起我们的注意,进入8月份以来,不知道它吃错了哪副药,——可能是兴奋剂?——以破刘翔记录的幅度挺进:自8月1日至今(8月9日),其数据请求达到了71.86 M,与其对应的是,Yahoo的40.73M 、Google的16.29M和Baidu的8.59 M,这也未免太夸张了些!

OutfoxBot的特征

  从访问日志看,OutfoxBot主要来自220.181.9.* 与 220.181.8.* 两个网段,查询相应的Whois信息,应该是北京电信IDC,如下:

inetnum: 220.181.0.0 - 220.181.255.255
netname: CHINANET-IDC-BJ
country: CN
descr: CHINANET Beijing province network
descr: China Telecom
descr: No.31,jingrong street
descr: Beijing 100032

  看来属于一个国产的或民族的产品无疑。

  解析出来的特征码则为:

OutfoxBot/0.3 (For internet experiments; http://; outfox.agent@gmail.com)

  连个网址也没有,只有一个E-mail, :cry: 这到底是哪家民族搜索引擎的东西?值得玩味的是其中的“For internet experiments”,看来不是一家商业的搜索引擎?能想到只有那曾多次获奖的天网了,(纯属猜测),TMD,再这样下去也许该出来位Terminator对付它了。

  前两天尝试在robots.txt中禁掉它,不过发现虽然它也多次读取robots.txt,但似乎置若罔闻,并不遵循robots.txt中的指令,不知道是不是应该多等几天还是它根本就不理会robots.txt之流由鬼子制订的规则!

  当然,另一点不解的是为什么它突然发疯了,莫非新一轮的国家科学奖又开始鉴定评选了?

  希望了解OutfoxBot属于哪家搜索引擎以及如何禁掉它的朋友提供帮助,谢谢!

  Tags:

网站的出站链接

2006/08/8

  一般说来,在网站建设中,大多数网站建设者对入站链接,也即网站的反相链接,均给予足够的重视,毕竟,从网站优化或者更准确地说搜索引擎优化(SEO)的角度,最重要的工作便是为网站建立足够的、质量有保障的反相链接,对目前的任何一个主流搜索引擎来说,反相链接对网站/网页在搜索引擎结果页面出现的位置具有决定性的作用,虽然不同的搜索引擎可能对同一个链接赋予不同的权重。

  但另一方面,对网站的出站链接,即网站外出指向其他网站的链接,却往往重视不够,而且,往往走入两个极端:要么处理得十分草率,如对要求交换链接的网站不作甄别,有求必应,使得自己的网站充斥指向无关站点的链接甚至指向所谓的“Link Farm”;要么谨慎得过了头,如听信某些所谓的SEO专家类似那种“建立指向其他网站的链接会将自己网站的PageRank传给该网站从而使网站自身的PageRank流失”之类的胡说八道,而不敢建立出站链接,——说来好笑,笔者就曾见过一个根本没有任何出站链接的网站——这种不自然的方式使得网站成为某种意义上的“孤岛”,既不符合搜索引擎的取舍原则也会因不能满足访问用户的需要而被用户抛弃。

没有或很少有出站链接的网站存在致命的缺陷

  Internet的本质即是不同网站间通过链接构建成的庞大信息网络,链接是其精髓,没有链接,网站也就不能成其为网站,而这种链接,不仅仅是网站内部页面的互联,也包括网站间的链接,很难想象,一个以自然方式建立的,要向用户提供信息、产品、服务的网站会完全没有出站链接,除非网站建立刻意这么做。

  任何一个网站,无论其内容多么翔实都无法做到包罗万象,在网站涉及的领域内都会有自己没有覆盖到的内容,建立指向这些用户需要的且内容相关网站的链接能够在更大程度上完善自己的网站,使网站更有价值,无论对搜索引擎还是访问用户来说都是如此:适当的出站链接有助于搜索引擎和访问用户放大网站的价值,比如说如果网站建立了指向具有高质量相关内容网站的链接,在搜索引擎和用户眼中,对方网站的价值将会有部分体现或附加在您的网站上。

  不少网站建设者另一个不愿意在网站内建立出站链接的原因是,担心这样会让用户离开自己的网站,损失访问量。这种情况当然是存在的,但也必须明确,访问用户不可能永远停留在您的网站中,他们总是要离开的,毕竟浏览器有地址输入栏有关闭按钮嘛,区别只是以哪种方式离开而矣。而只有当网站能够提供给用户所需的信息、资源时,——这也包括出站链接的资源——才会让用户有再次访问网站的动因。而一个没有出站链接的网站是很难得到用户信任的,而适当的出站链接则可以在很大程度上给予网站用户较好的访问体验。

    总的说来,链接不仅能够为您的网站增值,也会在另一方面向用户显示您的网站没有隐藏重要的东西,——与此形成鲜明对比的是,很多专门拷贝别人内容的网站总是要装做不知道自己剽窃内容来源网站的存在——也会让用户产生您对自己的网站更有信息的印象。

出站链接:给予,才能有回报

  从简单的角度看,如果您的网站没有提供出站链接,或者,象上文的说的剽窃站点那样隐藏有价值的链接,结果只能是把访问用户赶回搜索引擎,这对网站来说不会有任何回报;另一方面,如果您以出站链接的方式将部分访问流量转移到链接指向的网站,一般说来,那些网站同样会以适当的方式回馈于您。

  给予,然后自然有回报,这个现实生活中的规律同样适用于网站优化与网站推广方面。

  试想一下,如果网站建设者都只希望从别人那儿得到链接,但自己却不想链接到别人,那么,恐怕“链接”这个名词将不复存在。

出站链接的选择要慎重

  但是,在权衡是否建立指向某个网站的出站链接时一定要慎重,特别要注意避开所谓的“网上恶邻”。对大多搜索引擎来说,如果您建立了指向spam网站的链接,搜索引擎便会考虑您的网站是否也属于spam网站的可能性。

  这种情况尤其对Google而言至关紧要,不当的链接伙伴会大大影响网站在Google中的收录与排名,甚至会导致网站在Google中消失。因此,在建立链接之前认真考察对方网站的质量是尤为重要的。

  具体可参考链接伙伴的选择网站间的相关性探讨

  Tags: , ,

Yahoo!的新爬虫 : Slurp

2006/08/7

  最近,Yahoo!宣布其新的网站爬虫已投入使用,根据David Simpson在Yahoo Search Blog上的说明,该新爬虫仍然沿用Yahoo!爬虫的传统名称,Slurp,但索引速度更快更有效率,与它的前辈相比,它大约可节省25%的访问请求和带宽占用。

  Yahoo!爬虫的效率对我们来说一直是个困扰,以IT技术点评6月份的情况为例,“Yahoo Slurp的读取数据量为170.31M,与之相对的是Googlebot的57.48M和BaiduSpider 39.26M,明显的投入产出比较差,有点可笑的是,6月Yahoo Slurp读取Robots.txt的次数为3104,平均每天100次,不知道是不是因为Yahoo Slurp从不记录Robots.txt的内容,每读取一次网页就要查看一下Robots.txt。”老实说,究竟为什么Yahoo!的效率低到这个程度我们也无从知晓,也许,是Yahoo!与Yahoo!中文造成的重复访问?(纯属猜测)

  Anyway,希望新的索引爬虫的上线能够让这种情况多多少少得到些改善,不然,真的要考虑是不是干脆在robots.txt中禁掉了Yahoo! Slurp了。

Yahoo! Slurp的介绍

  从Yahoo!对其的介绍看,应该还是值得期待的。——虽然目前从我们的Web服务器日志上仍看不出有什么改变。

In addition to crawling the Internet faster, our new crawler is more efficient at visiting websites. As a result, site owners will notice as much as a 25% reduction in the number of requests and bandwidth consumed by the crawler.

Now, with the new crawler in full production, we have turned off the old crawler and site owners should see a much lower crawl load without a loss in content coverage.

  同时,Yahoo!还对前段时间引人诟病的Yahoo!爬虫“疯狂”的访问提出解释:

While transitioning to the new crawler over the past few weeks, we had been running both crawlers in tandem. In some cases, this increased the frequency of Yahoo Search requests to websites. Now, with the new crawler in full production, we have turned off the old crawler and site owners should see a much lower crawl load without a loss in content coverage.

With this change of behavior in the crawler, you may see some shuffling of the pages that are included in the index and some changes in ranking as well.

  Tags: