SEO探索

中文网站搜索引擎优化技术研究


指望搜索引擎判断内容的原始出处是一场遥不可及的梦

2007/12/1 by HighDiy

点石互动近来内容更新量很大,许多朋友针对SEO的不同侧面提出了自己的观点,有价值的内容颇多。其中,石头关于原创内容版权保护的无奈一文是我比较感兴趣的。

虽然,关于抄袭特别是内容被抄袭后原创网站在SEO方面所受影响的讨论几乎是伴随搜索引擎的出现便始终存在的热点话题,SEO探索之前也进行过很多类似的讨论,但严格说起来,在抄袭已成为自然不抄反而是另类的今天,这一问题几乎是无解的,石头在文中也不无无奈地写道:

也许我们真的,只有期望搜索引擎能很快地识别原创内容来源,最好有一天,搜索引擎能识别那篇文章是侵权的,直接按照相关的法律将侵权的站点直接拒之门外。这种想法,大家听了是不是觉得很天真?

似乎有着浓浓一定的“悲凉”味道, :P 这可能也是每个深入考虑“原创内容的版权保护问题”的人不得不得出的无奈答案。毕竟,在其他方案都证明不可行的前提下,将判断内容原始出处的重任交给搜索引擎,至少可以让我们拥有“hope” :oops: ,但客观想来,但这种美好的愿望恐怕在可预期的将来都很难成为现实。

搜索引擎有判断内容原始出处的动力么?

当然不能说没有。对每家搜索引擎而言,如果能在保证搜索结果与用户搜索项高度匹配的前提下,以优先或其他方式强调显示内容的原始出处网站,肯定是件好事。

但这只是锦上添花的东西,搜索引擎还有很多更重要的工作或者说优先级更高工作待完成。

了解搜索引擎的朋友都很清楚如今搜索引擎的技术水平,即使由“权威调查机构”担保“搜索质量最佳”的搜索引擎,其搜索结果距真正意义上的“准确”都还有着相当大的距离,用户搜索鸡蛋时没准返回的结果却是鸭蛋、驼鸟蛋甚至不名所以的华南虎蛋 :) ,这是搜索引擎改进算法的重点,至于说相应的鸡蛋究竟由哪只母鸡下的,从来都不是搜索引擎真正关心的对象。何况,恐怕搜索引擎也不会认为母鸡是搜索用户所关心的就问题,相比较而言,鸡蛋是不是美味是不是可口甚至是不是已经变质等才是用户搜索的真正目的。

此外,如何保证搜索结果的时效性,提高搜索引擎索引与收录的速度与效率,以及中文领域能不能唱唱绕口令以证明自己更懂中文等,在搜索引擎眼里,都比判断内容的原始出处更为重要。

从这个角度看,尽管不会有哪家搜索引擎会笨到否认判断内容原始出处的意义,但恐怕也不能排除,相当部分搜索引擎并不认为判断内容的原始出处是其自身的义务

搜索引擎有能力准确判断内容的原始出处么?

退一步,即使某家搜索引擎希望能在搜索结果中分辨出内容的原始网站与转载、抄袭网站,其有能力做到这一点么?

恐怕即使最乐观的人,也很难相信目前的搜索引擎有这样的技术能力,或者严谨点说,目前很难找到足够的迹象、证据能够证明搜索引擎在可预计的将来会拥有将误差控制在可以接受范围内的前提下判断内容原始出处的技术能力。

这么说并不是否认搜索引擎在判断内容原始出处方面所做工作的正面意义,而是,在目前的算法条件下,搜索引擎无法找到一个可靠的基准来判断哪个网页为内容的原始出处而哪些则为复制而成。靠什么?尽管乍看判断原始出处并不难,但事实上这个问题复杂得很,靠按网页被索引、收录的时间顺序?这个地球人都知道并不可靠;靠网站的权威度分析?同样不足为凭;靠对网站的历史数据包括文字风格及写作特点?愚蠢的机器显然不能胜任。

从根本上说,尽管目前不同的搜索引擎各有各的特点,但核心机制仍然沿用多年来的基于链接的价值判断算法,而这种以链接为核心的算法,本身便有着规避对内容原始出处的作出判断的考虑,尽管各大搜索引擎一直在试图弥补这一缺陷,但本即固定仅仅治标的效果显然是有限的。拿Google引以为豪的Duplicate Content过滤算法为例,如果您耐下心来仔细查看其相关的专利、文档与文献,便会发现其真正有效的部分在于从同一网站内多个存在重复内容的网页中“挑选”出一个权威网页,而不是针对于多网站间的抄袭或转载,毕竟,这样相对而言更稳妥,即使有偏差也不会闹出太大的笑话。

但是,这种基于链接的核心算法在目前包括今后相当长的一段时间内是不可能有太大改变的,尽管如今看来其存在很多不尽如人意之处,然而很难找到一个更佳的选择,而这正是Google为打击Paid Links不惜弄得鸡飞狗跳的根本原因,而只能在原有算法的基础上修修补补。而在这个条件下,搜索引擎要正确判断内容的原始出处,也许只能指望网站建设者们的“人肉搜索”,期待网站建设者们在引用、链接时都会找到内容的原始出处而不是复制网站,在这个基础上,搜索引擎才能“理所当然不可不戒”地定位原始网站——当然这比较搞笑,所以才一不小心冒出桃谷六仙的口头禅。 :)

无奈之后怎么办?

虽然如今的Internet大气候并不“鼓励”原创,但内容终归不会从天上掉下来,终归会有一定数量的原创作者。也许,对原创作者而言,除了在创作内容时注入更多的个人化风格,为内容本身构建让抄袭者入较高的门槛外,所能做的是:

  • 从我作起,从自己做起,套用句俗话,己所不欲勿施与人,首先做到自己不抄袭,哪怕仅仅为了谴责抄袭者时自己的腰杆能稍微硬一些;
  • 不与文抄公网站产生联系,对于那些靠抄袭他人的方式建设的网站,直接无视,当然,合法转载的网站除外
  • 在引用、链接相关内容时,确保链接到内容的原始网站,尽量为搜索引擎判断内容的原始出处提供方便;
  • 等等

当然,这类倡议恐怕同石头的无奈一样,更多地只是一个梦想而矣,毕竟,对很多聪明人来说,所谓的规范只是希望别人去遵守的,而他自己则正好反其道而行之,不希望别人抄自己但并不反对自己抄别人。 :)

推荐:


8 回复 to “指望搜索引擎判断内容的原始出处是一场遥不可及的梦”

  1. cangbai

    确实,操作起来很大难度,精确的话,不太实际。

  2. DJ舞曲

    除非搜索引擎的蜘蛛每天24小时不停爬每个站,才能保证有原始出处…

  3. 布衣

    se的不够重视是关键,如果能成为影响其发展的大问题
    我想判断原创出处对那些天才们应该是件不难的事情

  4. SEO学院

    这俨然成为一个头痛的问题。希望日后能够有好转

  5. sorryle

    国内风气十分糟糕

  6. xing

    是一个让人头痛的问题

  7. 飘易博客

    在可以预计的未来,我猜想SE不会有可行的技术方案来识别原创。
    SE有更重要的事要做。~~

  8. 都市旅行网

    确实,操作起来很大难度,精确的话,不太实际。

回复 (回复须知)