SEO探索

中文网站搜索引擎优化技术研究


存档: 2006/09

BigDaddy印象: 如何建立链接?

2006/09/7

  在个人的感觉中,Bigdaddy更新带来的最大变化莫过于对链接的处理,Google试图让链接回归到其最初的自然状态,虽然最终效果如何仍有待观察,但在某些方面已经迫使SEO界对长期约定俗成的链接策略进行重新考虑与定义。

  其实,即使在现在,单纯从理论上来衡量Google使用链接来判断网页权威度的PageRank,应该说也是相当优秀的思路。但是,PageRank机制的最大问题在于,要保证其准确性,链接须是那种纯自然状态的链接,即只存在于为内容提供相关的补充、参考材料或相关资源以及网站导航时,很明显,随着”SEO”理论与技术的不断发展,这几乎不可能得到满足,各种旨在提高网站在搜索引擎中排名的链接方式的出现,使得这种排名方式的弊端愈来愈明显,很多时候已经很难保证搜索结果的准确性。事实上,对许多网站而言,寻找链接是比创建内容更优先的大事,这已经偏离了网站建设的正常轨道。

  BigDaddy通过将网站的入站链接(反相链接)与出站链接综合起来,通过一系列的比对,包括如链接存在时间、其中存在多少匹配项、比对其中的链接两端所在页面内容的相关性、所在网站的质量级别与可信任程度等,试图找出网站整体的链接策略以及具体链接的目的,并进而摒弃掉不合格链接可能给网站带来的好处,或者根据情况对相应的网站给予降级等惩罚。事实上,BigDaddy对链接处理的变化不仅影响网站最终在搜索引擎中的排名,还会影响网站页面的收录与索引,有兴趣的朋友可以参考一下Matt Cutts的indexing timeline及其中近千条讨论。 (more…)

Bigdaddy印象 : 强调内容的原创性

2006/09/6

  也许Bigdaddy是Google历史上耗时最长的一次更新了,当然,Google更宁愿将其称为“New Infrastructure(新架构)”而非“Update(更新)”,自去年年底开始进行以来,几个月间Google一直处于某种动荡之中,让人很难对它做出整体上的评价,事实上,即便在现在,尤其考虑到Google.cn等特殊因素造成的滞后,现在对它下最终的结论仍嫌过早,因此,本文至多只能算是Bigdaddy更新的初步印象,谬误之处,敬请海涵。

  从整体上看,Google的Bigdaddy更新仍然不脱如何让算法更有效地判断网站是否违反其网站管理员指南并将违反规则的网站排除或降级的目标,同以前多次更新的根本目的相同,但具体地看,则重点在对链接全面考量、网站/网页质量评级及重复内容(Duplicate Content)过滤做出比较大的改进。客观地说,新的链接考量与网站/网站质量评级策略在SEO(搜索引擎优化)方面带来的影响更为深远,不过,本文宁可先来讨论一下BigDaddy在解决Duplicate Content方面的进展,毕竟这对抄袭成风的Internet界有着深远的意义,也是很多人——当然,包括本人 :oops: ——期待搜索引擎解决的问题,毕竟,只有这样,类似“复制转载会影响原始网页的权威性么?”之类疑问才能有更明确的答案。

Bigdaddy更有效地保护原创内容

  虽然搜索引擎一直都在强调网站内容质量的重要性,但是,从根本上说,内容质量是个很难衡量很难判断的概念,大多数搜索引擎在对其的处理上采取的办法往往是将其简化为两个判断因素:1、是否能够向用户提供有价值的信息?(当然,这么说仍然有些虚,对其的判断要综合链接与网站/网页质量评级等,在之后的文章中再详细介绍)2、内容是否原创?不过,在BigDaddy之前,受索引数据库大小及算法处理的限制,搜索引擎往往很难真正有把握地找到内容的原始出处,因此,除非真正确凿的,很多时候为误伤无辜引起民愤, :? 便对Copy的内容睁只眼闭只眼了。

  BigDaddy首先以更有效的索引数据库组织方式保证了能够找到内容的原始出处,同时,优化的算法也能够保证用户在搜索时Duplicate Content Filtering不致影响搜索的效率。在判断Duplicate Content时,不仅仅包括如之前的通过比对两个网页之间重复内容的百分比之类,还引入了其他衡量因素,包括网页的被信任程度、来自可信任网站/网页的链接等,以及另一个重要的因子:相应网页所在网站中原创内容的比例。——这对很多靠拷贝内容建设的网站打击是致命性的,对他们来说,除了开始创作内容外,似乎没有其他更好的选择,除非彻底不考虑Google。——当然,这又与网站/网页质量评级有关,看来先谈BigDaddy对原创内容的保护是个错误。 :)

  自BigDaddy更新以来,许多网站受到了沉重的打击,不仅包括广为人知的大量DMOZ Clone网站被封杀,很多的网上商店也因使用相同的产品描述而蒙受巨大的损失,对Google而言,并不是那些产品描述是没有价值的,而在于在Google的索引数据库中已经存在多个相同内容的样本而被忽略掉。

  越来越多的人观察到,除了被封杀的情况外,还有大量的拷贝网页被Google纳入了补充结果(Supplemental Results),虽然说Google的补充结果是网页的坟墓有点夸张,但是,被放入补充结果的网页只会在Google找不到足够的与搜索项匹配的网页时才会偶尔露一小脸,对SEO来说,基本上没有任何意义了。

  以我最近的三篇文件:如何看待SEOSEO与网站内容质量的诡辩SEO的技术含量为例,在Google中搜索一下(为简化起见,以标题为搜索项,搜索时间:9/4 13:20),便会发现其结果几乎可以称为完美,如《如何看待SEO》一文,SEO探索排在第一位,Robin的Blog排在第二位,而第三位则是从Robin的Blog上转载的另一网站,但在Baidu下SEO探索则根本没在前3页,而那些在Baidu中排名前十位的网站除Robin的blog外则统统在Google中根本没有出现(只检索了前三页,后面是不是出现就不得而知了)。

  BigDaddy观察系列:

  1. Bigdaddy印象 : 强调内容的原创性
  2. BigDaddy印象: 如何建立链接?
  3. BigDaddy印象 : 如何评定网站与网页质量
  4. BigDaddy印象 : 网站的信任指数
  5. Google Bowling: 竞争对手能破坏我的网站排名么?

RSS改用摘要输出

2006/09/5

  对SEO探索的RSS输出究竟是采用全文(Full Text)还是摘要(Summary)方式的问题,曾权衡了很长时间,虽然泛泛说来摘要与全文各有利弊,但似乎大部分读者更喜欢全文RSS方式,毕竟这样在不访问网站的情况下即可读到全部内容,而摘要方式的RSS似乎有强迫读者访问之嫌。

  不过,对网站而言,全文输出的RSS除了减少页面浏览量外,也有某些弊端,如要适当控制RSS文件的大小,过大的文件会延长读者阅读时的下载时间——这方面虽然有所注意,但SEO探索中文章的长度仍然比一般的Blog文章长——再就是如果要在文章中使用图片,全文RSS输出会造成某些问题,比如有个叫周博通的RSS阅读器曾经在一天内读取某个图片文件近百次,不知道是什么原因,但至少我不相信SEO探索的RSS订阅量会有那么高,没办法,惹不起还躲不起嘛。 :)

  通过对VISTA天地两个月的测试(RSS摘要输出是测试目标之一,见测试说明)与比较分析,最终决定输出摘要方式的RSS。

  对于此举给您带来的不便,谨在此致歉。

从搜索引擎的角度考虑SEO

2006/09/5

  时常看到很多人提出类似于“如何让我的网站在搜索引擎排名第一”等极富侵略性的问题,诚然,对SEO (Search Engine Optimization : 搜索引擎优化)而言,其目标便是通过搜索引擎让网站获取尽可能多的收益,这本无可厚非,但是,如果一味地沉浸在以自己、自己的网站为中心,执着于采取何种手段才能让搜索引擎为我所控,很多时候往往是事倍功半的。有时,倒不如换位思考一下,如果你是搜索引擎(也许准确点说,是搜索引擎的决策者或技术实施人员),你会让什么样的网站排名在前?拿相应的标准来考核一下自己的网站,客观地评估一下网站与该标准存在哪些距离以及如何改进。

认识搜索引擎的目标与策略

  在市场化的机制下,搜索引擎肯定也是要追逐利润的,只不过借搜索服务这个载体而矣。那么,首先的问题便是,搜索引擎为什么要让你的网站在SERP中排名第一,这会给搜索引擎带来什么好处?不然,搜索引擎们都玩竞价排名多好,出价高者位置靠前,这样收钱多直接?

  显然,那是竭泽而渔的做法,毕竟竞价排名的位置只与钱有关,而与网页真正内容之间没有直接的联系。对用户而言,当搜索结果页面中出现的全部或大部分是竞价排名而不是想要寻找的真正相关内容时,这样的搜索引擎其价值便大大缩水,用户便自然会转而使用别的搜索引擎。——存在不可抗力因素用户没有其他选择则是另一种情况。

  因此,无论搜索引擎意图通过什么手段实现利润,都要建立在能够向搜索用户返回与搜索项真正相关内容的基础上——在这个前提下,适量地在左侧排名中添加部分竞价排名网页虽然有损用户的搜索体验,稀释搜索结果的准确度,但作为无奈的结果也不是不能接受。——只有在这个基础上,搜索引擎的准确性与公正性得到体现后,才会有更多的用户使用该搜索引擎而不是其他。也即是说,让某个具有真正相关内容的网页在SERP中排名第一,不是搜索引擎的恩赐,而是搜索引擎保证自身生存与发展的基础。

  要实现这一点,搜索引擎需要一整套完善的策略与方法来判断网页内容与搜索项之间的相关性,包括网页自身内容与搜索项间的关联程度如搜索项在网页内出现的频次以及位置、突出程度等,也包括判断网页重要性的策略,如判断内容的原创性及受欢迎受认可程度等,以及将这些因素综合起来来衡量特定网页的策略。从这个角度,理清搜索引擎的思路与想法,辨清不同搜索引擎间不同的侧重点,摸清搜索引擎的脉搏,才是SEO的出发点,在此基础上改进自己的网站,才能让自己的网站从全球那么多的网站中脱颖而出,得到搜索引擎的青睐。

了解搜索引擎策略的技术实现

  无论搜索引擎的策略多么完美,都需要通过一定的技术手段实现和保证,其策略的执行程度取决于技术能力。尤其对于那些希望在特定某个搜索引擎获得成功的SEO——比如说,对图铃下载的网站而言,多项统计与调查显示,来自Baidu的用户下载比例远远高于其他搜索引擎——而言,了解相应搜索引擎技术上的特点就更有意义了。

  当然,这并不是说SEO要成为技术专家,而是说,更深入地了解搜索引擎真正的技术能力能够达到的水平,才能有的放矢地针对其进行优化。比如说,即便一个在其搜索结果页面中充斥大量完全无关的网页的搜索引擎也会强调高质量内容的重要性,分析一下其判断内容质量的机制,便会发现许多有价值的信息,比如说广为采用的基于链接判断网页权威度的算法,有些搜索引擎可能考虑得更全面,将“自引”(网站内部链接)与“他引”(来自外部网站的反相链接)分开对待,而有的搜索引擎则出于简化算法的需要,将“自引”与“他引”混在一起,并在计算时彻底采用真正的“稀疏”矩阵式,老实说,对这样的搜索引擎,如果它又没有能力判断内容原始出处的话,与其进行繁琐的SEO,很多时候甚至不如使用某些采集软件,满世界找来可抄袭对象,一夜之间建立一个上万个页面甚至更多页面的网站,只要其内部充分互链,相应的页面因素稍稍优化一下便能获得不错的效果。

分析搜索引擎的规则底线

  对搜索引擎而言,其对网页重要性的排名策略中总会存在某种漏洞,可能被人滥用从而破坏整个规则,这会动摇搜索引擎整体的基础,从而也是搜索引擎防范的重点。

  因此,在试探搜索引擎的底线前最好先想想如果自己是搜索引擎,会采取哪些手段保证规则不被破坏?其中,哪些是可以通过相应的技术自动判断完成的?哪些又需要人工干预?如何避免人工干预时伴随的随意性与主观性?以及最重要的,如何在打击作弊者的同时避免误伤无辜等等?

  想通了这些后,也许可以让自己的SEO工作少走些弯路,当然,信奉“高风险高回报”也是另一种选择。

UTF-8的BOM问题与WordPress

2006/09/3

  我们都知道,在WordPress中编辑模板或改动相应的函数文件时,如果使用了中文字符,那么保存时应选择“UTF-8”格式。不过,笔者之前使用UltraEdit编辑时总出问题,上传改动后的函数或插件文件后屡屡发现很多基于COOKIE或SESSION的功能变得不正常,甚至不能进入管理面板。老实说,以前一直以为这可能是缘于UTF-8可能与SEO探索使用IIS实现WordPress的伪Permalinks之间存在某种不兼容的地方,毕竟IIS臭名昭著,出点问题也很正常 :) 。而将编辑后的UTF-8格式的模板文件上传时,尽管不会出这么大的问题,但在显示页面时往往会多出一个空行或乱字符,造成搜索引擎如Baidu收录页面出现多了一个“?”的情况。——不过,Google与Yahoo则没有这个现象,所以,之前也曾怀疑Baidu在支持UTF-8方面存在某些不足

SEO探索在baidu中的显示
注意内容描述前面的“?”

  自己找到的笨办法便是使用WordPress自带的编辑器,虽然麻烦了些,但总算能够趋于正常。

  近日在Yskin’s Blog发现了这篇文章,对这类情况如何解决解释得很详细,推荐一下,希望对也遇到同样困扰的朋友有所帮助。

  简单地说,这类问题的原因在于,在将文件保存为UTF-8格式时,编辑器默认在文件开始位置添加三个字节的BOM(Byte Order Mark),内容为“FFFE”,但PHP设计之初并没有考虑BOM,因此,便会将文件开头这三个BOM字符直接输出。这是造成上述问题的根本原因。

  解决方法也很简单,即在使用UltraEdit保存UTF-8格式文件时,选择“UTF-8 no BOM”,而不是单纯的“UTF-8”。