Python网络爬虫之爬取糗事百科案例

项目说明

使用Python写网络爬虫之糗事百科示例

使用工具

Python2.7.X、pycharm

使用方法

在pycharm中创建一个ceshi.py文件,撰写代码,运行代码,查看运行结果

操作原理

1.首先先了解正则表达式的使用方法,见:正则表达式

2.找到糗事百科的主页URL:http://www.qiushibaike.com/hot/page/1

可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为编写程序做准备。

然后,右击查看页面源码:

网页源码分析-图1
网页源码分析-图2

观察发现,每一个段子都用div标记,其中class必为content,我们只需要用正则表达式将其“扣”出来就可以了。

示例代码

代码示例1
代码示例2

运行结果

运行结果

参考来源:http://blog.csdn.net/pleasecallmewhy/article/details/8932310

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容