SEO探索

中文网站搜索引擎优化技术研究


存档: 2006/10

Latent Semantic Indexing : 隐性语义索引

2006/10/10

  在Google最近一次更新后,许多网站发现自己在搜索结果页面中的排名大幅下降,很多以前能够出现在第一页的网页现在掉到了三、四页甚至十页开外,针对此的讨论在多家SEO论坛上很激烈。

  事实上,我们自己的网站也出现了类似的现象,在查询网站在Google补充结果中网页数量的方法一文中曾提到过,IT技术点评的排名下降幅度很大,来自Google的访问量损失了很多。虽然可能与上个月我们的服务器故障有关,如googlebot不能正常索引网页,导致部分网页被放入了补充结果,或者Google因此降低了IT技术点评的信任指数,但仅仅几天的服务器故障——甚至不是完全意义的停机,而只是IIS间歇性重启——竟能触发如此大的波动?仍然让人怀疑,尤其是考虑到处于同一服务器上的SEO探索Vista天地并没有表现出如此明显的趋势。

  在很多人的分析中,提到了这可能缘于在Google最近的排名算法调整中,将原先对最终网页排名影响微乎其微的Latent Semantic Indexing的权重大大提高,从笔者个人的角度看,似乎有一定道理。

  那么,应如何理解Latent Semantic Indexing?Latent Semantic Indexing怎样影响网站/网页在Google中的排名呢?

什么是Latent Semantic Indexing(隐性语义索引)?

  我们都知道,传统的搜索引擎算法基于关键词,——当然,这里所说的关键词,不仅仅指网页中的关键词,还包括链接Anchor Text中的关键词。——搜索引擎通过统计特定网页中关键词的位置、密度以及链接Anchor Text中的关键词甚至URL中的关键词,从而按照匹配程度给出与用户搜索项相关的结果,这是之前计算机发展水平下搜索引擎对“向用户提供所需内容”的最接近模拟。

  但是,我们必须看到,从自然语言的角度,即便不能说所有的词(或短语),但至少大部分词具有一词多义的特点,同时,自然语言也具有一义多词的特点,这样,搜索结果与用户的理想值便存在很大的距离:一词多义将导致基于精确匹配的搜索算法在结出的结果中包含很多并非用户真正要查找的内容,而一义多词则使用得基于精确匹配的搜索算法在给出的结果中遗漏很多用户真正要查找的内容。

  这个弊端是传统的搜索引擎算法所无法克服的,毕竟,机器算法是死的,就象施州长扮演的Terminator,无法做到像人那样理解、分析。虽然如今多家搜索引擎都在进行自然语言方面的研究,但客观地说,自然语言理解仍然停留在研究阶段,距真正能够使用可以信赖的地步还差得很远,甚至换个角度,就算自然语言理解发展到实用阶段,其效率能否可以保障还在未知之数,而对搜索引擎而言,效率也是必须考虑的因素,他们也不希望需投入更多的服务器及其他网络资源才能完成同样的任务,而如果让用户进行一次搜索需等上半天才能看到搜索结果则无异于搜索引擎的噩梦。——当然,这仅仅针对笨笨的Google,也许国产搜索引擎伟大的“中文分词技术”已经能够圆满地解决这个问题。 :)

  Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。 (more…)

Google Blog Search支持Ping

2006/10/6

  10月5日,Google在其官方Blog上宣布,其Blog Search开始支持Ping服务,这在某种程度也可以看成Google的一次妥协:之前Google一直不接受Ping曾引起很多非议。但无论如何,今后当我们在Blog上增加了新内容或内容改变后可直接通知Google Blog Search,加快被Google Blog Search收录的速度。

  目前,对于能够提供RSS、Atom、XML格式大多数Blog平台,均可实现这一功能。详细信息可参看其FAQ

Ping Google Blog Search

  可手动地Ping或让Blog程序自动Ping Google Blog Search。

  如对常用的WordPress平台而言,只需在Options => Writing选项页中,在“Update Services”添加一行:

http://blogsearch.google.com/ping/RPC2

  至于已经可以被Google blog search正常收录的网站而言,是不是也需Ping则仍无定论,但个人认为,就算没有好处,但至少也没有坏处,还是加上吧。

网站优化与SEO的误区

2006/10/5

  在网站优化与SEO(Search Engine Optimization : 搜索引擎优化)方面,总有许多似是而非的说法,相信朋友们都曾或多或少地听说过类似的论断,这之中,有些属于之前正确但随着搜索引擎算法的调整不再有效甚至对SEO效果有害的一类,有些属于对网站排名分析方法的不正确或不完善而得出的错误结论,当然,也有些则属彻头彻尾的胡说八道——这方面,很多国产SEO专家功不可没,至于这些SEO专家缘何作出那样的论断则不好评断:如果说他们有意误导,似乎有从人格上否定他们的嫌疑;如果说他们是无心之失,则无疑于从侧面指责他们不学无术,毕竟,如果说当年鲁迅先生认为“中医不过是一种有意或无意的骗子”时,还可用当时科学不发达,大多中医不懂人体的基本构造与病理机制来用“无意”开脱的话,对吃SEO这碗饭的专家们也用“无意”来解释就有点搞笑了,特别考虑到令人顿生高山仰止之感的吓人名头与长得绝对需要换几口气才能读完的头衔。 :P

  有点扯远了,下面简要归纳一下笔者常见的网站优化与SEO中的误区:

SEO很简单

  这一点常常见诸于SEO初学者的口中,许多人往往把调整一下Html的Meta项、提高一下关键词密度称之为SEO,并据此认为SEO不过如此耳耳,此言谬矣!从根本上说,SEO是一项相当复杂、精细的工作,成功的SEO涉及网站建设从网站品牌的确立到ROI (Return on Investment)方方面面,是多种技术、技巧的综合,将SEO想得过于简单化只能是一厢情愿。

  也许,我们可以假设一下,如果SEO很简单,那么,是不是意味着SEO容易取得成功?这就出现了一个问题:搜索引擎如何在搜索结果页面的第一页或第三页摆下这么多“成功实施SEO”的网站/网页? :lol:

  成功的SEO意味着在搜索引擎中取得领先于竞争对手的优势,这并不是一件简单的事。 (more…)

网站管理员工具中的查询统计信息更新频率

2006/10/2

  Google网站管理员工具(即之前的Google Sitemap)可以提供很多有价值的信息,帮助网站建设者分析并改正网站中存在的错误,找出提高网站在Google中排名的途径。其中,查询统计信息无疑是其中较受网站管理员喜欢的功能之一,在该项中,网站管理员可以看到网站网页的搜索查询信息,包括热闹搜索的关键词及平均最前排名、热闹搜索点击的关键词及平均最前排名等。

  但是,之前的查询统计信息有个最大的问题,那便是其更新较为缓慢,其周期大约为三周,这在很多情况下显得过于“滞后”,不足以反映网站的当前情况。不过,近来可能不少朋友觉察到其更新的幅度加快了不少,根据Vanessa Fox在Google网站管理员中心的官方Blog上的说明,Fresher query stats,目前更新频率提高到每周一次,这样其结果将更能准确地反映网站的当前状态。

  在该文中,Vanessa Fox还详细解释了查询统计信息的计算方法。如果有朋友对查询统计信息的数据感到困惑的话,可以仔细地阅读一下。