记录一下折腾了近一天的爬虫过程。
学习python半月以来,算是颇有收获。还以为自己已经掌握了许多知识,没想到写个网站的爬虫代码竟折腾了一天,若非道友相助,怕是今晚都没法睡觉了。(没办法,栽在了一个我都不知道为什么这样处理的问题上)。为了不能让今日的辛苦白白付出,还是要写一篇总结,来提炼一下今日的收获。(ps:本人小白,大神看见勿喷,不过其中有错还望指点一二,哈哈)
此次爬虫其实也没用到什么复杂的框架,只是跟着慕课网的一个爬虫教程学习了一下,便着手开始了自己的爬虫之旅。通过本次对斗鱼网站的爬虫,可将网页爬虫的过程逐个分为以下几个部分:
一、获取网页内容
二、定义正则表达式
三、提取网页中自己所需内容
四、定义函数优化列表中字典值的内容格式
五、排序
其中分为两个部分:
1、对优化格式后的列表按需进行排序
2、定义排序方式
六、定义入口方法
以上就是网页爬虫过程中几大主要的步骤了。当然爬虫的世界是浩瀚无垠的,本次爬虫案例也十分简单,只可称之为沧海一粟。但是麻雀虽小,五脏俱全,思考的过程还是值得借鉴的!