1.1.02_文档过滤 Document Filtering

文档过滤 Document Filtering

文档分类是机器智能(machine intelligence)的一个非常实用的应用,而且越来越普及。其中,最有价值也是人们所熟知的应用,恐怕要数垃圾邮件过滤了。

这里介绍的算法更为一般,并不是专门针对垃圾信息的,它可以学习并鉴别文档所属的分类,因此我们还可以将其应用于一些相比垃圾信息而言不那么令人生厌的问题。比如根据邮件的征文自动将收件箱中的邮件划分为社交类邮件和工作类邮件等。

过滤垃圾信 Filtering Spam

早期的垃圾信息过滤都是基于规则的分类器(rule-based classifiers),典型的规则包括:

  • 英文大写字母的过度使用
  • 与医学药品相关的单词
  • 过于花哨的HTML用色等。

基于规则的分类器的问题:

  • 垃圾信息制造者知道规则以后,绕开过滤器
  • 误输入(忘记关闭大写锁定键(Caps Lock))导致误分类
  • 分类过于依赖用户

为了解决这一问题,程序会在开始阶段和逐渐收到更多消息之后,根据人们提供给它的有关哪些是垃圾邮件,哪些不是垃圾邮件的信息,不断地进行学习。通过这样的方式,我们可以分别为不同的用户、群组或网站建立起各自的应用实例和数据集,它们对垃圾信息的界定将逐步形成自己的观点。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,403评论 19 139
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 9,397评论 1 10
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 47,054评论 6 342
  • 过滤垃圾信 Filtering Spam 早期尝试对垃圾信息进行过滤所用的都是基于规则的分类器(rule-base...
    资深小夏阅读 3,211评论 0 0
  • 前几天,有次坐公交车回学校,一进站直奔555号公交车,然后投了1元下去。这时师傅问,你到哪里啊,我说到白蛇过路...
    小朱砂阅读 4,849评论 0 0