1.准备工作
我们要分析豆瓣前250的电影~首先因为他是25部电影一页,所以我们看看他是怎么分页的

原来,在link里面,如果start = 25的话,新的一页就会显示从26个电影开始的page 2

如果要爬取登录以后才能爬取的,那就必须弄一个cookie
按f12--左上角的箭头--点击一个下面这一行可以锁定位置:

编码规范:
定义程序入口的位置就是在main的:之后

也就是:

接着,我们引入模块:
需要的模块:sys, bs4, re, urlib, xlwt

他们的作用是:

2. 获取数据

模拟浏览器头部信息:

Beautiful Soup抓取标签:
他只能拿到他抓到的第一个内容

如果直接.string:就会出现标签里的内容

文档的搜索:


也可以通过传入参数的方式:

就是这么写:

也可以通过text的方式

还可以limit它的个数:

最后是css选择器
