简单的Python网络爬虫

认识爬虫:

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

尝试爬取一个小说的章节:

1.首先,我们需要根据URL获取网页:

我们选择的环境为Anaconda3-5.2.0-Windows-x86_64,即Anaconda的Windows64位版本。



通过上述代码我们可以获得《明武天下》这本小说的章节的信息以及大量我们不需要的内容。


2.找出想要的信息,并进行数据清洗:

通过浏览器的查看功能(轻击鼠标右键可看到选项),可以知道章节是被包含在<dl></dl>之中。这时候我们可以使用'<dl.*?>(.*?)</dl>'来达到我们的目的。


通过上述表达式我们已经可以把我们想要的章节名拿出来了。


接下来就要进行数据清洗来达成我们的最终目的了:


3.总结

这只是一个简单的爬取小说章节的小程序,如果有喜欢python的小伙伴可以通过深入学习来实现更多的功能。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容