Python爬虫笔记(2):利用requests库和BeautifulSoup库爬取煎蛋网段子。

对于刚刚上路的新手,那就写一个简单点的爬虫练练手,提升一下信心吧。

生活总会无聊,不如看点段子开心一下吧。所以今天我写的第一个爬虫笔记——爬取煎蛋网段子(段子 - 轻松一刻 - 无节操,冷笑话,内涵段子)并保存成txt文件供自己阅读

一、本次爬虫涉及到的知识点

1. 利用requests库的get()方法获取煎蛋网的html。

2. 利用BeautifulSoup库的Select()方法解析并获取作者和段子。

3. zip()函数:用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。

4. 对字符串的操作:strip()函数,将字符串两端的空格去掉

4. 用open()函数将结果写入到txt文档中。

具体代码如下:


二、 运行结果


一共爬取四千多条段子
生成为txt文件
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。