Python爬网页

重点回顾

  1. requests库的get方法怎么用
  1. 真实网页中定位元素位置的方法? 一句话:找唯一特征
  2. 使用headers,假装是人类 。构造headers字典。
  3. 连续爬多页内容。
  4. 被反爬了怎么办?使用手机页面

想获取已登录状态下的信息:

构建headers字典(内容包括user-agent和cookie)
步骤如下:

  1. cookie信息:审查>network>doc>name>headers>代表身份的cookies信息填写进去(向服务器证明我们是已经登录的状态)
  2. user-agent:路径同上,最下方

获取多页的内容

url="http://bj.lianjia.com/ershoufang/fengtai/pg2/"

urls=["http://bj.lianjia.com/ershoufang/fengtai/{}/".format(str(i)) for i inrange(1,100,1)]

print(urls)

tips:range的第三个参数是频率。


批量输出图片

wb_data=requests.get(url,headers=headers)
#开始解析网页数据
soup=BeautifulSoup(wb_data.text,'lxml')
imgs=soup.select('div.mod_media > div > img')
for i in imgs:    
        print(i.get('origin-src'))

步骤:

  1. 先通过requests.get(参数有网址和headers)获取数据
  2. 通过soup将requests到的信息文本化
  3. 通过select 将所有图片找出来(使用循环
  4. 通过get函数 打印标签内的图片地址
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,390评论 19 139
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 14,378评论 6 28
  • 目录: Python网络爬虫(一)- 入门基础Python网络爬虫(二)- urllib爬虫案例Python网络爬...
    一只写程序的猿阅读 14,421评论 17 68
  • 幕帘下 是晴的干净的天空 听姥姥说 还可以看见云彩哩 仰望着 静静的站在院子的中央 星 闪闪 树 婆娑 似乎有着神...
    轻翎微酲阅读 988评论 0 0
  • 今天办理个信息提醒的业务,被银行员工劝说开网上银行的户。说是办活动,免费,还有赠一个U盘,正好有人在那里办理,...
    想哭时也要笑阅读 1,527评论 0 0