登录注册写文章

简单的Python网络爬虫

没时没分每秒

简单的Python网络爬虫

认识爬虫：

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

尝试爬取一个小说的章节：

1.首先，我们需要根据URL获取网页：

我们选择的环境为Anaconda3-5.2.0-Windows-x86_64，即Anaconda的Windows64位版本。

通过上述代码我们可以获得《明武天下》这本小说的章节的信息以及大量我们不需要的内容。

2.找出想要的信息，并进行数据清洗：

通过浏览器的查看功能（轻击鼠标右键可看到选项），可以知道章节是被包含在<dl></dl>之中。这时候我们可以使用'<dl.*?>(.*?)</dl>'来达到我们的目的。

通过上述表达式我们已经可以把我们想要的章节名拿出来了。

接下来就要进行数据清洗来达成我们的最终目的了：

3.总结

这只是一个简单的爬取小说章节的小程序，如果有喜欢python的小伙伴可以通过深入学习来实现更多的功能。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

新手向爬虫（三）别人的爬虫在干啥
爬虫文章 in 简书程序员专题： like:128 - Python 爬取落网音乐 like:127 - 【图文详...
treelake阅读 29,589评论 33赞 638
一小时入门 Python 3 网络爬虫
声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
Bruce_Szh阅读 12,783评论 6赞 28
Python爬虫学习手册
爬虫文章 in 简书程序员专题： like:128-Python 爬取落网音乐 like:127-【图文详解】py...
喜欢吃栗子阅读 22,034评论 4赞 411
《这就是搜索引擎》爬虫部分摘抄总结
《这就是搜索引擎》这本书的第二章是关于爬虫的，干货很多（文章几乎没有废话，所以复制居多），可以参考搜索引擎是如何构...
SeanCheney阅读 2,125评论 0赞 20
一个简单的网络爬虫入门python（包括开发环境搭建和pycharm激活）
基本任务： I 搭建python开发环境 II 写一个简单的网络爬虫，在某一个网站将一部小说各章节（一般是一个章节...
Python爬虫学习阅读 3,912评论 3赞 5

1赞2赞

赞赏

手机看全文