登录注册写文章

《自己动手写网络爬虫》第二篇笔记

《自己动手写网络爬虫》第二篇笔记

第二篇：自己动手抽取Web内容

正则表达式
HtmlParser:文本抽取，链接抽取，资源抽取，链接检查，站点检查，URL重写，广告清除，将HTML转化为XML，HTML页面清理。
抽取正文：驱除杂质，JavaScript抽取方案。
提取PDF内容 |————|
提取Office内容 | 各种库 |
抽取RTF |————|
抽取视频：关键帧(基于镜头边界系数)，镜头，情节，节目
抽取音频，MP3格式分为三个部分
网页中的噪声：与主要内容无关的文本、链接、图片、Flash等等。可以人工提取组织模式，一般用统计的方法实现网页去噪。

最后编辑于：2017.12.07 23:10:42

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

一小时入门 Python 3 网络爬虫
声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
Bruce_Szh阅读 13,017评论 6赞 28
关于HTML/HTML5（一）
学习HTML的最佳网站没有之一http://www.w3school.com.cn/html/ 关于HTML/HT...
Amyyy_阅读 2,384评论 0赞 16

网络营销讲师邓海舟-SEO必备的54大技巧
网络营销讲师邓海舟-SEO必备的54大技巧 1 如果你必须使用Java script的下拉菜单、图片地图、或者图片...
d17cdfd29cf9阅读 480评论 0赞 0
无标题文章
2017遇见更好的自己
zyh曾一一阅读 182评论 0赞 0
五律·高考出成绩（新韵）
雨洗群山翠，云迁鹤雾迎。粉蝶花下舞，黄鹊树端争。短信传佳报，乘风御太空。
秋风起花香阅读 400评论 0赞 4

友情链接更多精彩内容

赞1赞

赞赏

手机看全文