1.准备工作
我们要分析豆瓣前250的电影~首先因为他是25部电影一页,所以我们看看他是怎么分页的
原来,在link里面,如果start = 25的话,新的一页就会显示从26个电影开始的page 2
如果要爬取登录以后才能爬取的,那就必须弄一个cookie
按f12--左上角的箭头--点击一个下面这一行可以锁定位置:
编码规范:
定义程序入口的位置就是在main的:之后
也就是:
接着,我们引入模块:
需要的模块:sys, bs4, re, urlib, xlwt
他们的作用是:
2. 获取数据
模拟浏览器头部信息:
Beautiful Soup抓取标签:
他只能拿到他抓到的第一个内容
如果直接.string:就会出现标签里的内容
文档的搜索:
也可以通过传入参数的方式:
就是这么写:
也可以通过text的方式
还可以limit它的个数:
最后是css选择器