过滤垃圾信 Filtering Spam
早期尝试对垃圾信息进行过滤所用的都是基于规则的分类器(rule-based classifiers),使用时会有人事先设计好一组规则,用以指明某条信息是否属于垃圾信息。典型的规则包括:英文大写字母的过度使用,与医学药品相关的单词,或是过于花哨的HTML用色等。
基于规则的分类器,其问题很快就显现了出来--垃圾信息制造者在知道了所有规则以后,为了绕开过滤器,其行为就会变得更加隐蔽;而且人们会发现,如果他们的父母不知道关闭大写锁定键(Caps Lock),一些正常的邮件也会被归类成垃圾邮件。
基于规则的过滤器还有另一个问题--是否被当作垃圾信息很大程度上因其所面对的读者和张贴位置的不同而不同。对于某一位特定用户、公告留言板或维基而言,那些可以用来明确指示是否垃圾信息的关键词,在其他场合下可能就会变得相当正常。
为了解决这一问题,本章所要考查的程序会在开始阶段和逐渐收到更多消息之后,根据人们提供给它的有关哪些是垃圾邮件,哪些不是垃圾邮件的信息,不断地进行学习。通过这样的方式,我们可以分别为不同的用户、群组或网站建立起各自的应用实例和数据集,它们对垃圾信息的界定将逐步形成自己的观点。