1-3使用代理

  • requests中使用代理:可以用爬虫爬取xicidaili.com上面的免费代理
  • 保存文件
  • 使用format
import requestsfrom bs4 
import BeautifulSoup

proxies = {'http' : '36.7.172.18:82'}
headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
def save_img(url):
    r = requests.get(url, proxies = proxies, headers = headers, stream = True)
    if 200 != r.status_code:
        print('unable to open {}'.format(url))
        return
    filename = './images/{}.jpg'.format(url.split('/')[-2])
    with open(filename, 'wb') as f:
        f.write(r.content)
def get_pic_url(url):
    r = requests.get(url, proxies = proxies, headers = headers)
    if 200 != r.status_code:
        return []
    soup = BeautifulSoup(r.text, 'lxml')
    imgs = soup.select('img.entry-thumbnail')
    urls = []
    for i in imgs:
        urls.append(i['src'])
    return urls
if __name__ == '__main__':
    for page in range(1, 2):
        url = 'http://weheartit.com/inspirations/taylorswift?page={}'.format(page)
        imgs = get_pic_url(url):
        print('{} images are found in Page {}.'.format(len(imgs), page))
        for p in imgs:
            save_img(p)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,328评论 19 139
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 14,377评论 6 28
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,176评论 25 709
  • 2017.11.8 感谢老公分享的能力模型,促使我回顾了我的岗位能力模型,并制定了2周的能力提升项。一下子...
    amylismile阅读 936评论 1 1
  • 有弟兄们问,刚入职场,碰上酒局,该怎么应对? 实际上,喝酒就是喝酒,无所谓应对。当然,酒局多了,没法应付,只好寻求...
    小机关里的大机关阅读 3,089评论 0 0