使用python3 requests和bs4进行爬虫(二)爬取文章

为了做到更优雅,这次抛弃了urllib库的引用,使用requests和beautifulsoup搭配的方式进行

首先构建一个请求并且响应它


构建请求

然后呢到简书上找一篇文章试试手,看一下网页源码找到文章的div


找到标题

以及找到文章内容,仔细看看内容还挺不错哈哈


内容

可以发现所有的内容都在p标签里面,那么接下来就简单多了只需要


f5运行一下

最后使用codecs库来进行文件操作将文章保存到本地


没错使用上requests和bs4之后爬取文章的工作是那么的轻松呢


效果图

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容