爬取网站下载大量图片

遇到的问题以及解决

  1. 下载方式
    通过导入urllib.request
    利用该函数urllib.request.urlretrieve()

  2. 网站403 封IP 反爬取
    利用header 伪装
    添加网站Host
    通过sleep()函数 增加爬取之间间隔

  3. 遇到图片具有非法字符路径时
    通过 replace函数 替换

  4. clear()清空List

  5. 乱码问题

import requests
url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9'
r = requests.get(url)
r.encoding = 'GBK'
print r.text
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容