爬虫是一个技能型的知识,不是说掌握了一次就能学好,而是需要学懂原理,在不同的网站上有不一样的设置和应用。
今天就来3个练习题,每道题练习5遍,确保熟练掌握。
1,抓取下面这个页面文章所有的标题
https://www.zhihu.com/people/huangyoucan/answers
2,抓取《猫总在路上》这个公众号所有的历史文章标题
3,抓取豆瓣Top250所有电影的标题
https://movie.douban.com/top250
任务一答疑——
为什么只能抓第一页的内容?
抓取后会发现所有的回答有7页,但是按照之前学会的selector设置,只能抓取第一页,怎么办呢?
我们需要观察第一页和后面页码的命名规则,以知乎回答页面为例,
第一页:https://www.zhihu.com/people/huangyoucan/answers?page=1
第二页:https://www.zhihu.com/people/huangyoucan/answers?page=2
这种命名是很规则的,那么我们可以在下图的地方将URL进行修改,让爬虫抓取所有7页的数据。
在这个链接后面改成page=[1-7]变成
https://www.zhihu.com/people/huangyoucan/answers?page=[1-7]
就可以抓取1-7页所有的标题了。
如果网速不好的,建议在delay这里设置长一点,给一点时间缓冲,避免爬虫漏抓,500代表0.5秒。
为了避免前面的设置出问题,可以先抓第一页看是否正确,再设置多页抓取。
好啦,今天我们又掌握了一个爬虫新技能——
如何多页面抓取,赶紧去试试看你是否掌握了吧!