python学习笔记 -- 爬虫1

1.准备工作

我们要分析豆瓣前250的电影~首先因为他是25部电影一页,所以我们看看他是怎么分页的

原来,在link里面,如果start = 25的话,新的一页就会显示从26个电影开始的page 2

如果要爬取登录以后才能爬取的,那就必须弄一个cookie

按f12--左上角的箭头--点击一个下面这一行可以锁定位置:

编码规范:

定义程序入口的位置就是在main的:之后

也就是:

接着,我们引入模块:

需要的模块:sys, bs4, re, urlib, xlwt

他们的作用是:

2. 获取数据

模拟浏览器头部信息:

Beautiful Soup抓取标签:

他只能拿到他抓到的第一个内容

如果直接.string:就会出现标签里的内容

文档的搜索:

也可以通过传入参数的方式:

就是这么写:

也可以通过text的方式

还可以limit它的个数:

最后是css选择器

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容