爬取网站下载大量图片

遇到的问题以及解决

下载方式
通过导入urllib.request
利用该函数urllib.request.urlretrieve()
网站403 封IP 反爬取
利用header 伪装
添加网站Host
通过sleep()函数增加爬取之间间隔
遇到图片具有非法字符路径时
通过 replace函数替换
clear()清空List
乱码问题

import requests
url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9'
r = requests.get(url)
r.encoding = 'GBK'
print r.text

最后编辑于：2017.12.04 01:32:09

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,267评论 45赞 523
Python爬虫日记一：爬取豆瓣电影中速度与激情8演员图片
一、前言这是我第一次写文章，作为一个非计算机，编程类专业的大二学生，我希望能够给像我这样的入门的朋友一些帮助，也...
梅花鹿数据阅读 2,686评论 5赞 11

红叶微语之187(原创)
有想见的人，有想做的事，有想去的地方，有想爱的人。但最终:不会见，不去做，不动身，不能爱。坚持原创，转载请联系本...
珠海红叶原创阅读 231评论 1赞 1
时间与你会证明，自律的人生是值得的
年初，各平台及朋友圈都被浵浵的妈妈的那篇《我的2016—自律改变我的人生》刷屏，细读了几遍，很受震撼。在这篇文章...
可乐别加冰阅读 754评论 0赞 5
雪落边疆
漫天飞舞着白沙，人远赴做客天涯，朵朵寄相思，那是寒风激起的浪花，加上雾的混杂...
山野狂客阅读 408评论 3赞 2

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文