【python】网络爬虫抓取图片

利用python抓取网络图片的步骤:
  1.根据给定的网址获取网页源代码
  2.利用正则表达式把源代码中的图片地址过滤出来
  3.根据过滤出来的图片地址下载网络图片
今天我们用(http://www.umei.cc/) 作为事例,教大家爬取美女图片:
1:打开: http://www.umei.cc/

2:打开网页源代码,找到图片的正则规则:

Paste_Image.png

3:开始爬取

#-*-coding:utf-8-*-
# 正则
import re
# 网络交互
import requests
# 操作系统功能
import os

# 定义一个类
class Spider:
    #定义一个函数
    def savePageInfo(self, _url, _position, _regX):

        # 要爬的网址
        url = _url
        # 本地地址 
        position = _position
     # 获取网页源代码
        html = requests.get(url).text

        # 正则
        regX = _regX

        pic_url = re.findall(regX,html,re.S)

        i = 0
        for each in pic_url:

            pic = requests.get( each )
            print  url + each
            # 如果文件夹不存在,则创建一个文件夹
            if not os.path.isdir(position):

                os.makedirs(position)

            fp = open( position+str(i)+'.jpg', 'wb' )
            fp.write(pic.content)
            # print position+each
            fp.close()
            i+=1


#===================网页爬取图片========================

position_end = ''

# 要爬的网址
url = 'http://www.umei.cc/' + position_end

# 本地地址
position = '/Users/edison/Desktop/1/' + position_end

# 正则
regX = '_blank\'><img src=(.*?) t'

#参数 url, 储存位置, 爬取的正则
spider = Spider()
spider.savePageInfo(url, position, regX)

三分钟学会,如囊中取物。

工具:PyCharm

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 176,752评论 25 709
  • 要考经济法了,好紧张。考完了,感觉考砸了,感觉看的和考的完全不一致。心慌慌。
    五月sn阅读 1,441评论 0 0
  • 他今天似乎不开心,趴在桌上闷闷不乐,午餐也没去食堂,午休我没有回宿舍,跑回教室呆着偷看他,他趴着似乎睡着了 密密的...
    简天才阅读 1,702评论 0 0
  • 虽说禁欲,做起来是很难的,与人共处一室,看到他吃你不想吃么?看到他喝你不想喝么?并没什么欲望的,看到室友买了新衣服...
    猫原阅读 1,409评论 0 1
  • 7月就这样匆匆流逝,庆幸的是我努力坚持简书输出31篇文章,我清楚的知道自己的写作离牛人差距甚远,我反复琢磨31篇最...
    玉儿说阅读 1,837评论 1 3

友情链接更多精彩内容