对于刚刚上路的新手,那就写一个简单点的爬虫练练手,提升一下信心吧。
生活总会无聊,不如看点段子开心一下吧。所以今天我写的第一个爬虫笔记——爬取煎蛋网段子(段子 - 轻松一刻 - 无节操,冷笑话,内涵段子)并保存成txt文件供自己阅读
一、本次爬虫涉及到的知识点
1. 利用requests库的get()方法获取煎蛋网的html。
2. 利用BeautifulSoup库的Select()方法解析并获取作者和段子。
3. zip()函数:用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
4. 对字符串的操作:strip()函数,将字符串两端的空格去掉
4. 用open()函数将结果写入到txt文档中。
具体代码如下:
二、 运行结果