遇到的问题以及解决
下载方式
通过导入urllib.request
利用该函数urllib.request.urlretrieve()网站403 封IP 反爬取
利用header 伪装
添加网站Host
通过sleep()函数 增加爬取之间间隔遇到图片具有非法字符路径时
通过 replace函数 替换clear()清空List
乱码问题
import requests
url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9'
r = requests.get(url)
r.encoding = 'GBK'
print r.text