登录注册写文章

python学习笔记 -- 爬虫1

认真学习的兔子

python学习笔记 -- 爬虫1

1.准备工作

我们要分析豆瓣前250的电影～首先因为他是25部电影一页，所以我们看看他是怎么分页的

原来，在link里面，如果start = 25的话，新的一页就会显示从26个电影开始的page 2

如果要爬取登录以后才能爬取的，那就必须弄一个cookie

按f12--左上角的箭头--点击一个下面这一行可以锁定位置：

编码规范：

定义程序入口的位置就是在main的：之后

也就是：

接着，我们引入模块：

需要的模块：sys, bs4, re, urlib, xlwt

他们的作用是：

2. 获取数据

模拟浏览器头部信息：

Beautiful Soup抓取标签：

他只能拿到他抓到的第一个内容

如果直接.string:就会出现标签里的内容

文档的搜索：

也可以通过传入参数的方式：

就是这么写：

也可以通过text的方式

还可以limit它的个数：

最后是css选择器

最后编辑于：2021.01.30 22:16:48

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python网络爬虫学习笔记
Requests库以管理员身份运行cmd，输入pip install requests，等待安装。安装成功后，可...
anRank阅读 4,587评论 0赞 1
爬虫学习笔记(1)
爬虫入门的学习比我想象的要简单，目前已经掌握了固定网页的定向爬取。网页爬取 Requests库的7个主要方法 g...
TOP生物信息阅读 3,616评论 0赞 1

爬虫学习笔记总结<1>
技术路线：requests + bs4 + re 1.requests requests库负责向指定URL下载和传...
小码弟阅读 2,738评论 0赞 0
大师兄的Python学习笔记(二十一）: 爬虫（二）
大师兄的Python学习笔记(二十）: 爬虫（一）大师兄的Python学习笔记(二十二）: 爬虫（三）三、提取信...
superkmi阅读 3,496评论 0赞 1
家长会谈合作
久违的晴天，家长会。家长大会开好到教室时，离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。放学铃声...
飘雪儿5阅读 12,192评论 16赞 22

1赞2赞

赞赏

手机看全文