SEO探索

中文网站搜索引擎优化技术研究


闲话

SEO : 从黑到白的过度色

2006/11/2

  一般而言,对于那些通过spam技术或手段实施搜索引擎优化的SEO(er),人们常用Black Hat SEO 来标识,而与其相对应的White Hat SEO,则表示SEO的另一个极端,即通过诚实、正当手段来优化网站以获得理想的搜索引擎排名。不过,正如人不能简单地以非好即坏评判一样,这样的非黑即白非白即黑事实上也不能准确概括SEO市场的实际情况,毕竟中间存在着很多过渡色。

  近日,任职于Yahoo!的Tim Converse给出了更详细的分类方法,——当然,是否合理或是否仍有遗漏值得商榷,不过,挺有意思。——在他名为Search engine optimization (SEO) from black to white文中,给出了如下九种SEO:

  1. Dark Inky Black Hat SEO: 排名第一的肯定是最不道德的一种情况了,其目标不仅针对搜索引擎,也针对访问用户,比如说使用spyware。——但愿这样的论述不致引起某些极度爱国人士的反弹,认为这是鬼子对泱泱中华的侮辱。毕竟曾几何时,通过流氓软件来推广网站在中文网站中相当普遍,也是某些民族精英之所以成为精英的基石。
  2. Charcoal Hat SEO: 在法律的界限以内,通过欺骗搜索引擎,尽一切可能让与搜索项无关的网页出现在搜索结果前列。——这类SEO颜色如此之“深”有点奇怪,老实说,个人感觉在中文网站搜索引擎优化中这类SEO算是很不错的了。
  3. Dark Gray Hat SEO: 通过窃取其他网站内容来创建网页的SEO。——这比Charcoal Hat SEO更道德?
  4. Slate Gray Hat SEO: 通过link farms 、linkage或网页跳转等方式实施的SEO。——老实说,有点怀疑本人是不是对Tim Converse的Charcoal Hat SEO理解错了。
  5. Gray Hat SEO: 研究搜索引擎的规范、要求、指南,在其允许的范围内尽可能地打擦边球。——惭愧,在本人之前的认识中,这样基本上应该算White Hat SEO了,尤其在中文网站的搜索引擎优化中。
  6. Light Gray Hat SEO: 这类SEO创建大量的原创内容,但出发点首先考虑搜索引擎的排名机制、如何逃搜索引擎的duplicate content检测,最后才是该内容是否真正对用户有价值,也即是针对搜索引擎而不是用户。
  7. Off-White Hat SEO: 这类SEO在保证网站具有良好架构内部页面可爬行可索引的基础上,针对重要的关键词优化页面。在链接方面,这类不通过linkfarms之类的方式获得链接,但使用大量来自朋友、联盟网站的链接。
  8. White Hat SEO: 在网站结构合理的基础上,通过有价值的原创内容和优化手段,让网页无论对搜索引擎还是对访问用户而言都是有价值的,其优化目标为让网页出现在最相关的关键词搜索中。
  9. Luminescent Pearly White Hat SEO: 在 White Hat SEO的基础上,避免网页出现在不相关的关键词搜索中。——Tim Converse给出一个这类SEO的例子

  您属于哪个类型的SEO呢?Just for fun!

RSS改用摘要输出

2006/09/5

  对SEO探索的RSS输出究竟是采用全文(Full Text)还是摘要(Summary)方式的问题,曾权衡了很长时间,虽然泛泛说来摘要与全文各有利弊,但似乎大部分读者更喜欢全文RSS方式,毕竟这样在不访问网站的情况下即可读到全部内容,而摘要方式的RSS似乎有强迫读者访问之嫌。

  不过,对网站而言,全文输出的RSS除了减少页面浏览量外,也有某些弊端,如要适当控制RSS文件的大小,过大的文件会延长读者阅读时的下载时间——这方面虽然有所注意,但SEO探索中文章的长度仍然比一般的Blog文章长——再就是如果要在文章中使用图片,全文RSS输出会造成某些问题,比如有个叫周博通的RSS阅读器曾经在一天内读取某个图片文件近百次,不知道是什么原因,但至少我不相信SEO探索的RSS订阅量会有那么高,没办法,惹不起还躲不起嘛。 :)

  通过对VISTA天地两个月的测试(RSS摘要输出是测试目标之一,见测试说明)与比较分析,最终决定输出摘要方式的RSS。

  对于此举给您带来的不便,谨在此致歉。

UTF-8的BOM问题与WordPress

2006/09/3

  我们都知道,在WordPress中编辑模板或改动相应的函数文件时,如果使用了中文字符,那么保存时应选择“UTF-8”格式。不过,笔者之前使用UltraEdit编辑时总出问题,上传改动后的函数或插件文件后屡屡发现很多基于COOKIE或SESSION的功能变得不正常,甚至不能进入管理面板。老实说,以前一直以为这可能是缘于UTF-8可能与SEO探索使用IIS实现WordPress的伪Permalinks之间存在某种不兼容的地方,毕竟IIS臭名昭著,出点问题也很正常 :) 。而将编辑后的UTF-8格式的模板文件上传时,尽管不会出这么大的问题,但在显示页面时往往会多出一个空行或乱字符,造成搜索引擎如Baidu收录页面出现多了一个“?”的情况。——不过,Google与Yahoo则没有这个现象,所以,之前也曾怀疑Baidu在支持UTF-8方面存在某些不足

SEO探索在baidu中的显示
注意内容描述前面的“?”

  自己找到的笨办法便是使用WordPress自带的编辑器,虽然麻烦了些,但总算能够趋于正常。

  近日在Yskin’s Blog发现了这篇文章,对这类情况如何解决解释得很详细,推荐一下,希望对也遇到同样困扰的朋友有所帮助。

  简单地说,这类问题的原因在于,在将文件保存为UTF-8格式时,编辑器默认在文件开始位置添加三个字节的BOM(Byte Order Mark),内容为“FFFE”,但PHP设计之初并没有考虑BOM,因此,便会将文件开头这三个BOM字符直接输出。这是造成上述问题的根本原因。

  解决方法也很简单,即在使用UltraEdit保存UTF-8格式文件时,选择“UTF-8 no BOM”,而不是单纯的“UTF-8”。

Google : Going to be evil?

2006/08/27

  不管是不是真正的企业操守,还是仅仅缘于包装宣传的得力,至少Google凭借“Don’t be Evil”获得了良好的企业形象,这在浮燥的Internet界尤为难得,也使得Google自觉不自觉中获得了很难动摇的先天道德优势,几年来几乎无往而不利。——当然,中文市场除外。

  Google中国最近估计也挺郁闷,不但一直在市场份额方面落后于Baidu,而且,近来还据说要被Yahoo!中文超过了 :oops: ,连老二的位置也保不住,在博大精深的“中国国情”因素影响下,总脱不了强龙难压地头蛇的窠臼。

Google Adsense的垃圾广告  Google is always a lot smarter than you,看来Google中国终于找到摆脱困境的办法,那便是多方面拓展盈利渠道,今日惊奇地发现一则Google Adsense广告(见左图)——庆幸的是,没出现在我的网站上——,似乎Google在火爆的中国教育市场嗅到了巨大的商机 :idea: ,不过,窃以为,既然如此,Google倒不如干脆再玩大些,干脆考虑出版几本学术刊物吧,当然,不必经过新闻出版署的批准,直接以“国际期刊”的名义,无疑对广大“学术爱好者”是个更大的福音,收到的版面费不比这类电线杆广告多得多?

  只是不知Google搜索的中国化步骤要走多快,也许Google也快到了向Yahoo!学习的时候了?当年Yahoo!意气丰发地收购3721,将自己的道德水准拉到了3721的水平,便已注定了日后不得不在Yahoo!中文与Yahoo!建立区隔与缓冲,以保护Yahoo!所余不多的正面形象,没准Google中国也正在找“民族企业”接手?若果如此,民族企业有福了!

抄袭内容者的可笑借口

2006/08/20

  本来,大多数内容网站对内容转载要求并不高,只要不是用于商业用途,在转载时注明出处和原文链接,同时不要把作者改成自己就行。在某种程度上,这也可视为约定俗成的通行准则,不过,在许多人那儿,这种准则没有任何约束力。

  近日,problogger的 Darren Rowse写了一篇很有趣的文章,Top 8 Excuses for Stealing Other People’s Content,介绍了当他与problogger网站内容的抄袭者交流时,抄袭者给出的荒唐借口,其中部分非常好玩。

1. “I was just testing a new template with your posts.” (all 100 of them)
(……)
4. “Sorry, my Son was playing with my blog and did it without me knowing.”
(……)
6. “I was just doing it to see how long it would take you to realize I was doing it.”
(……)
7. “Sorry, but can you tell me whose site you’re scraping your content off?”

  相对于鬼子的呆板,深谙孔孟之道的国人显然处理这类问题更游刃有余,比如说,笔者就曾遇到一位将抄袭归功于其老妈的误操作,并活灵活现地刻画了一位退而不休始终坚持学习的老太太形象,令人顿生“巍巍乎若泰山”般的敬意,与Darren的第4项中栽赃于天真可爱的孩子的弱智,显然有天壤之别,云泥立现,更具幽默感。

  受Darren的启发,我也将本人遇到的一些经典的解释作个列表,当然,可能与具体的原话有出入,请勿对号入座,呵呵

  • “Internet的精髓便在于知识的共享
    这位同学看来学习相当不错,连“共享”这么专业的词汇都知道。——再去念点书,搞明白什么叫共享再说。
  • “资料收藏,供自己学习之用”
    本地系统中有收藏夹,网上有各种书签,难道发布到Internet上才叫收藏?另外,是不是只有将作者名称改为自己才能学习啊?——对学习条件的要求忒高了点。
  • “从网上某处找到的,没有找到原始出处”
    拜托,连续14篇文章都出自SEO探索,甚至连发表的顺序都没有改变,连个谎都撒不圆!——真给中国辉煌的教育成就抹黑。
  • “网上哪有什么抄袭的说法”
    下一句是不是要说,读书人,窃书不算偷?——真以为自己是孔乙己啊?
  • “有什么大惊小怪的,你也可以去抄别人的啊”
    大学校园里倒是常见到这样的事,自己的自行车被偷后,随手再找一辆骑走就得了。——只不知这个自行车食物链的最终受害者是谁?
  • “抄你是看得起你”
    当然,这句就显得幽默不足而无赖有余,对这类缺乏搞笑天份的人应予BS :lol: 。——不知道别人有没有拒绝被“看得起”的权力?