Latent Semantic Indexing : 隐性语义索引
2006/10/10
在Google最近一次更新后,许多网站发现自己在搜索结果页面中的排名大幅下降,很多以前能够出现在第一页的网页现在掉到了三、四页甚至十页开外,针对此的讨论在多家SEO论坛上很激烈。
事实上,我们自己的网站也出现了类似的现象,在查询网站在Google补充结果中网页数量的方法一文中曾提到过,IT技术点评的排名下降幅度很大,来自Google的访问量损失了很多。虽然可能与上个月我们的服务器故障有关,如googlebot不能正常索引网页,导致部分网页被放入了补充结果,或者Google因此降低了IT技术点评的信任指数,但仅仅几天的服务器故障——甚至不是完全意义的停机,而只是IIS间歇性重启——竟能触发如此大的波动?仍然让人怀疑,尤其是考虑到处于同一服务器上的SEO探索与Vista天地并没有表现出如此明显的趋势。
在很多人的分析中,提到了这可能缘于在Google最近的排名算法调整中,将原先对最终网页排名影响微乎其微的Latent Semantic Indexing的权重大大提高,从笔者个人的角度看,似乎有一定道理。
那么,应如何理解Latent Semantic Indexing?Latent Semantic Indexing怎样影响网站/网页在Google中的排名呢?
什么是Latent Semantic Indexing(隐性语义索引)?
我们都知道,传统的搜索引擎算法基于关键词,——当然,这里所说的关键词,不仅仅指网页中的关键词,还包括链接Anchor Text中的关键词。——搜索引擎通过统计特定网页中关键词的位置、密度以及链接Anchor Text中的关键词甚至URL中的关键词,从而按照匹配程度给出与用户搜索项相关的结果,这是之前计算机发展水平下搜索引擎对“向用户提供所需内容”的最接近模拟。
但是,我们必须看到,从自然语言的角度,即便不能说所有的词(或短语),但至少大部分词具有一词多义的特点,同时,自然语言也具有一义多词的特点,这样,搜索结果与用户的理想值便存在很大的距离:一词多义将导致基于精确匹配的搜索算法在结出的结果中包含很多并非用户真正要查找的内容,而一义多词则使用得基于精确匹配的搜索算法在给出的结果中遗漏很多用户真正要查找的内容。
这个弊端是传统的搜索引擎算法所无法克服的,毕竟,机器算法是死的,就象施州长扮演的Terminator,无法做到像人那样理解、分析。虽然如今多家搜索引擎都在进行自然语言方面的研究,但客观地说,自然语言理解仍然停留在研究阶段,距真正能够使用可以信赖的地步还差得很远,甚至换个角度,就算自然语言理解发展到实用阶段,其效率能否可以保障还在未知之数,而对搜索引擎而言,效率也是必须考虑的因素,他们也不希望需投入更多的服务器及其他网络资源才能完成同样的任务,而如果让用户进行一次搜索需等上半天才能看到搜索结果则无异于搜索引擎的噩梦。——当然,这仅仅针对笨笨的Google,也许国产搜索引擎伟大的“中文分词技术”已经能够圆满地解决这个问题。
Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。 (more…)
在Google最近一次更新后,许多网站发现自己在搜索结果页面中的排名大幅下降,很多以前能够出现在第一页的网页现在掉到了三、四页甚至十页开外,针对此的讨论在多家SEO论坛上很激烈。
事实上,我们自己的网站也出现了类似的现象,在查询网站在Google补充结果中网页数量的方法一文中曾提到过,IT技术点评的排名下降幅度很大,来自Google的访问量损失了很多。虽然可能与上个月我们的服务器故障有关,如googlebot不能正常索引网页,导致部分网页被放入了补充结果,或者Google因此降低了IT技术点评的信任指数,但仅仅几天的服务器故障——甚至不是完全意义的停机,而只是IIS间歇性重启——竟能触发如此大的波动?仍然让人怀疑,尤其是考虑到处于同一服务器上的SEO探索与Vista天地并没有表现出如此明显的趋势。
在很多人的分析中,提到了这可能缘于在Google最近的排名算法调整中,将原先对最终网页排名影响微乎其微的Latent Semantic Indexing的权重大大提高,从笔者个人的角度看,似乎有一定道理。
那么,应如何理解Latent Semantic Indexing?Latent Semantic Indexing怎样影响网站/网页在Google中的排名呢?
什么是Latent Semantic Indexing(隐性语义索引)?
我们都知道,传统的搜索引擎算法基于关键词,——当然,这里所说的关键词,不仅仅指网页中的关键词,还包括链接Anchor Text中的关键词。——搜索引擎通过统计特定网页中关键词的位置、密度以及链接Anchor Text中的关键词甚至URL中的关键词,从而按照匹配程度给出与用户搜索项相关的结果,这是之前计算机发展水平下搜索引擎对“向用户提供所需内容”的最接近模拟。
但是,我们必须看到,从自然语言的角度,即便不能说所有的词(或短语),但至少大部分词具有一词多义的特点,同时,自然语言也具有一义多词的特点,这样,搜索结果与用户的理想值便存在很大的距离:一词多义将导致基于精确匹配的搜索算法在结出的结果中包含很多并非用户真正要查找的内容,而一义多词则使用得基于精确匹配的搜索算法在给出的结果中遗漏很多用户真正要查找的内容。
这个弊端是传统的搜索引擎算法所无法克服的,毕竟,机器算法是死的,就象施州长扮演的Terminator,无法做到像人那样理解、分析。虽然如今多家搜索引擎都在进行自然语言方面的研究,但客观地说,自然语言理解仍然停留在研究阶段,距真正能够使用可以信赖的地步还差得很远,甚至换个角度,就算自然语言理解发展到实用阶段,其效率能否可以保障还在未知之数,而对搜索引擎而言,效率也是必须考虑的因素,他们也不希望需投入更多的服务器及其他网络资源才能完成同样的任务,而如果让用户进行一次搜索需等上半天才能看到搜索结果则无异于搜索引擎的噩梦。——当然,这仅仅针对笨笨的Google,也许国产搜索引擎伟大的“中文分词技术”已经能够圆满地解决这个问题。
Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。 (more…)








