登录注册写文章

Python爬网页

Python爬网页

重点回顾

requests库的get方法怎么用

真实网页中定位元素位置的方法？一句话：找唯一特征
使用headers，假装是人类。构造headers字典。
连续爬多页内容。
被反爬了怎么办？使用手机页面

想获取已登录状态下的信息：

构建headers字典（内容包括user-agent和cookie）
步骤如下：

cookie信息：审查>network>doc>name>headers>代表身份的cookies信息填写进去（向服务器证明我们是已经登录的状态）
user-agent：路径同上，最下方

获取多页的内容

url="http://bj.lianjia.com/ershoufang/fengtai/pg2/"

urls=["http://bj.lianjia.com/ershoufang/fengtai/{}/".format(str(i)) for i inrange(1,100,1)]

print(urls)

tips：range的第三个参数是频率。

批量输出图片

wb_data=requests.get(url,headers=headers)
#开始解析网页数据
soup=BeautifulSoup(wb_data.text,'lxml')
imgs=soup.select('div.mod_media > div > img')
for i in imgs:    
        print(i.get('origin-src'))

步骤：

先通过requests.get（参数有网址和headers）获取数据
通过soup将requests到的信息文本化
通过select 将所有图片找出来（使用循环）
通过get函数打印标签内的图片地址

最后编辑于：2017.12.05 00:54:50

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 136,362评论 19赞 139
一小时入门 Python 3 网络爬虫
声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
Bruce_Szh阅读 12,971评论 6赞 28

Python网络爬虫（五）- Requests和Beautiful Soup
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
一只写程序的猿阅读 13,108评论 17赞 68
星芒
幕帘下是晴的干净的天空听姥姥说还可以看见云彩哩仰望着静静的站在院子的中央星闪闪树婆娑似乎有着神...
轻翎微酲阅读 159评论 0赞 0
对不受控制的恐惧
今天办理个信息提醒的业务，被银行员工劝说开网上银行的户。说是办活动，免费，还有赠一个U盘，正好有人在那里办理，...
想哭时也要笑阅读 240评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文