《自己动手写网络爬虫》第二篇笔记

第二篇:自己动手抽取Web内容

  1. 正则表达式
  2. HtmlParser:文本抽取,链接抽取,资源抽取,链接检查,站点检查,URL重写,广告清除,将HTML转化为XML,HTML页面清理。
  3. 抽取正文:驱除杂质,JavaScript抽取方案。
  4. 提取PDF内容 |————|
  5. 提取Office内容 | 各种库 |
  6. 抽取RTF |————|
  7. 抽取视频:关键帧(基于镜头边界系数),镜头,情节,节目
  8. 抽取音频,MP3格式分为三个部分
  9. 网页中的噪声:与主要内容无关的文本、链接、图片、Flash等等。可以人工提取组织模式,一般用统计的方法实现网页去噪。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容