搜索引擎机制与反spam斗争——for BSP

自从blog开始出现后,在我们使用搜索引擎的时候会发现这样一个现象:很多内容在搜索引擎中排名靠前的都是来自于blog。为什么blog的内容呈现会超越以前的CMS类的新闻系统呢?鄙人以为是和blog几个属性分不开:
1.静态页。搜索引擎对静态页的支持要远远好于动态调用页。因为蜘蛛在抓取的时候还是要抓取内容的,静态html类页面的内容呈现无疑是最好的。blog程序本身就是一个强大的CMS,而且多为静态发布页,每个页面甚至可以设立单独的关键词(Tag)来引导搜索引擎。
2.超链接。搜索引擎无疑对超链接是敏感的。一个例子就是google的page rank, 这个标准中的核心就是反向链接的数量和质量。对于blog而言,其一,blog本身可以设置大量的链接,甚至很多程序都有“自动链接”(auto link)这个功能,再加上评论(comment)还有一个blog精髓技术反向引用(trackback)这些都是链接,在一定意义上,RSS订阅也是 一种链接;其二,有众多的BSP服务提供商,申请blog已经简化到了两三个步骤。很多BSP在申请上也不加限制或控制,大量免费的资源可以被利用。这样 一来,在不同的BSP申请无数的blog,在blog发布大量的链接全部指向其中某个页面或者是blog,这样就会发现,某个blog只有寥寥几篇文章确 有上百万的浏览。
3.关键词。关键词优化是SEO里最基本的方法。传统的CMS类网站进行这样优化是很困难的,因为页面数量巨大。而blog则可以方便地,甚至是暴力地设置关键词。自从blogbus推出第一个中文Tag后,中国的blog才开始对Tag产生理解,当blogbus代表中文blog向Technorati输送Tag时候,这本身就是一种搜索递交。所以Tag本身已经超越了“分类”方法,对于搜索引擎来说是一种关键词。
我不懂技术,仅仅看到这个层面,其实想说的主要是针对大型blog服务提供者进行spam防治的方法,当然不是我想出来的,我只能做点学习。
1.验证。这个验证不仅仅包括验证码,还要包括对blog申请的验证。邮件验证是目前可取的有效方法。我并不认为,添加验证码是对用户体验的不尊重, 反过来,我认为验证码的初衷正是为了blogger有个清洁的环境,自己出了家门也还上个锁的呀。至于技术层面交给技术人员吧,如果一般的图形验证码解决 不了问题,那就还有必须有中文字符验证?或者随机产生问题?比如给句唐诗,让对下句(还能复习知识,很好^_^)?或者出个简单的数学运算?我相信群发机 器人还没有聪明到这个程度吧。验证的好处在于可以有效屏蔽绝大部分的spam,给网站带来的,肯定是带宽的节省,更重要的是,避免垃圾的困扰。
2.启用第三方支持。这里包括软件支持和服务支持。目前blog程序里最有名的肯定是wordpress,针对WP开发的插件akismet相信无人不知,另外对于MT,我想SpamLookup应该是个好工具,或针对早期MT的MT-Blacklist也是个不错的。另外,已经有专门的网站提供收费的anti-spam的服务了,可以考虑。
3.留言机制。验证已经说过了,另外还有几种我想是可行的方法,一种是审核制,评论要等blog主人审核后才能予以发布,虽然麻烦,但是如果blog 后台加入批量删除spam的功能,应该还是方便的,当然要牺牲很多,可以间歇性使用。一种是留言预览式,即在留言后有个预览——确认的过程才能发布发布留 言,相信这个过程可以让很多群发器瘫痪。还有一种就是关闭很久以前文章的评论。经验告诉我,很多的spam攻击对象不是更新频繁的blog,而恰恰是一些 更新缓慢,或者是N久以前的blog,所以,在适当的时候,关闭某些日志的评论,比如设定一个default time or list,在到达条件后给于自动锁定,如果有需要当然可以解开。
4.当然,防不胜防。对于已经存在spam如何找出来杀掉呢?另外一种就是在comment甚至在log里添加nofollow属性,这个以后清洁工还要罗嗦。方法还是有几个的,当然还是我学习的,原因还是那个:我不懂技术。
a。查找反向链接。很多网站提供这个免费的服务,可以轻松地查到大量的反向链接。因为spam的目的有两个,在内容层面广告宣传,在技术层面上反向链接,增加PR值,增大流量,所以会做出大量的link,在简单搜索后会发现很多这样的spam,杀!当然,alltheweb会是一个很好的反向链接搜索工具。
b。搜索引擎语法。
语法一:search $key site:blog***.com。key替换为关键词,你会发现令你惊讶的一些东西,当然,要去掉search这个词语。
语法二:bo** blog** site:blog***.com,你会发现很多blog在这些BSP里都安了家,并且会集中指向其中某个blog。
c。数据库关键词搜索。这个基本上是人肉机器类别的,不提也罢。
反spam就如扫垃圾,任重而道远,国家一日不可无清洁工,网站一日不可无spam killer,不信,你试试?
^_^。参考阅读:

Blog与Spam的战争

Concerning Spam

spam的根源pagerank? 利益?