鸟与虫(四)pexels搜到的我都想要,

  • 啊哈,又见面了,我把学校的项目做完了,然后趁自己还没生爬虫,就做了这个
  • 老样子,还是看的知乎大神
  • 然后这个做的是运用pexels网站,pexels是一个免费搜索图片的网站,然后就是运用它搜索后的url爬图片,好像中文不太好用,我搜的bikini →_→
  • 好了,话不多说上代码
'''
    根据知乎大神的分享
    自动下载图片
    代码作者:高佳乐
    网站:https://www.pexels.com/
'''

##导入库
import requests                                     ##导入requests库,发送请求用的
from lxml import etree                              ##导入lxml库以便xpath解析
import re                                           ##导入re,正则表达式
import os                                           ##导入os创建目录
import time                                         ##爬虫就要有礼貌
import random                                       ##导入随机库,伪装,减少被反

##定义类
class images():
    def __init__(self):                             ##定义结构函数,把原网址放入
        self.url='https://www.pexels.com/search/'

    ##获取html
    def gethtml(self,url):                          ##定义一个获取html响应,发送请求的方法
        html = requests.get(url)                    ##html是发送请求后返回的响应
        html_text = html.content                    ##html_text是发送后返回的内容,如果直接text下边的xpath就会出错,直接在这content和解析utf-8
        html_text = html_text.decode('utf-8')       ##然后把返回的内容用utf8解析
        return html_text                            ##返回用utf-8解析后的代码

    ##拼接url后获取
    def geturl(self,key):                           ##这个方法是用于把你输入的关键字拼接成url然后返回
        url = self.url+key+'/'                      ##把key 到网址后边拼接
        return url                                  ##返回拼接后的搜索网页

    ##用xpath获取image并保存
    def image(self,url):                            ##此方法是保存图片了
        html = self.gethtml(url)                    ##html是使它获取形参的html
        html_text= etree.HTML(html)                 ##用xpath解析以上获得的url
        image=html_text.xpath(".//a[@class='js-photo-link']/img[@class='photo-item__img']/@src")##然后就是获取自己想要的了,对就是图片的url,这个xpath的意思是,在当前页面所有class是js-photo-link的a标签里的class是photo-item_img的img标签里的src属性
        i=0                                         ##就是低端代码用的计数器=_=
        for img in image:                           ##在上边获取到的src中遍历
            img_url = re.compile('(.*?)\?auto=.*?',re.S)   ##然后制定一个正则表达式,因为上边获取的是缩略图的url要想获取原图就要用正则在里边抓取,这个就是抓取前边到?前的url
            img_url = re.search(img_url, img)       ##然后找到使用上边定义的正则在img的url里抓取原图url,search是只获取到第一个然后返回索引啥的
            url = img_url.group(1)                  ##然后url里边存上边正则时候的第一个匹配到的字符
            img_name = re.compile('.*?://images.*?/photos/.*?/(.*?)\?.*?',re.S)##然后每个图片有jpg或者jpeg格式,然后自己获取他的最后的名字就是在jpg和JPEG的名字字符
            img_name = re.search(img_name, img)     ##然后用上边的正则在img获取 到他的名字。
            name = img_name.group(1)                ##然后name存上边获取到的第一个
            panduan = os.path.exists(name)          ##然后设置一个判断重复的,这里的os是指判断当前文件夹里有没有这个文件,也就是图片,有就返回true没有就返回false
            if panduan:                             ##如果真就是存在
                print('老板,这个图片已经存在了已存在了,还要他干啥,有空间啊?')
            else:                                   ##反之就是假就存图片,字啊变的这个user_agents是有十个header以便减小被反
                user_agents = [
                    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
                    'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
                    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
                    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36',
                    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/602.2.14 (KHTML, like Gecko) Version/10.0.1 Safari/602.2.14',
                    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36',
                    'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0',
                    'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
                    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0',
                    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'
                ]
                index = random.randint(0,9)         ##运用随机数随机获取上边列表里的索引
                user_agent = user_agents[index]     ##然后get是后的header是在上边列表里的各个元素随机选
                headers = {'User_agent':user_agent} ##然后header是一个字典,因为getheader是字典
                html_img = requests.get(url,headers)##然后html_img就是获取到url,(url是上边获取到的图片的原图地址),并且请求头是上边的集合里边的
                fil = open(name,'wb')               ##然后在当前文件夹里创建一个文件名字是上边获取到的jpg或者jpeg格式,然后打开形式是wb
                fil.write(html_img.content)         ##然后写入是以二进制写入
                fil.close()                         ##然后随手关闭文件,随手关文件才是好孩子
                print('报告老板,第%d个图片保存完毕'%i)##然后报告完成
                i+=1                                ##计数器+1不然就没意义=_=
        print('老板我这页爬了%d个图片,我太厉害了。'%i)##然后循环保存图片结束后,报告一页的全部图片

    ##创建目录
    def dir(self,name):                             ##这个方法是创建目录
        dir = '第'+name+'个文件夹'                   ##dir是提前弄好目录名字,这个name是实参传入时的参数
        panduan = os.path.exists(dir)               ##然后判断当前文件夹里有没有上边的文件夹
        if panduan:                                 ##如果有就是真,就报告有了
            print('老板,这个文件夹已经存在了已存在了,直接在里边写了')
        else:                                       ##反之就是没有
            os.makedirs(dir)                        ##就创建这个文件夹
            print('报告老板,创建成功')               ##报告创建成功
        return dir                                  ##返回创建好的文件夹


    ##输入页数的方法
    def all(self,key,star,end):                     ##这个方法是分页处理,输入关键字,开始和结束页数
        if star == 1:                               ##如果用户输入的开始页是1,
            chil = os.getcwd()                      ##chil是当前的路径,
            os.chdir(chil + '\pexels')              ##我这是手动创建了一个pexels的目录,你也可以自己创建,然后这行代码是切入到pexels目录里边
            key = self.geturl(key)                  ##然后把上边的关键字参数用上边的拼接url方法拼接搜获关键字后的url
            dir = self.dir(str(star))               ##然后dir是在当前目录创建文件夹,名字是输入时的页数
            os.chdir(dir)                           ##然后上边创建后进入刚刚创建的文件夹里
            self.image(key)                         ##然后用self.image获取上边拼接好的关键字的url,image就是上边的保存图片的方法
            os.chdir('..')                          ##然后返回上一层也就是我手动创建的pexels以便分页创建文件夹
            star+=1                                 ##上边的是第一页的图片,然后改第二页了,所以让第一页+1
            for i in range(star,end+1):             ##然后循环,从第二页和尾页之间
                key =key+'?page='+str(star)         ##然后这里的关键字就是航变的关键字+?page=页数,页数就是第几页就是i,star也行因为我star+1了
                dir = self.dir(str(star))           ##然后dir是创建文件夹,名字就是页数
                os.chdir(dir)                       ##然后切入刚创建的目录
                time.sleep(3)                       ##爬虫要有礼貌,就要这样等待三秒,好吧我怕被反
                self.image(key)                     ##然后就获取并保存上边的拼接关键字url
                os.chdir('..')                      ##然后返回上一级的文件夹就是pexels,以便下一个文件夹,
                star+=1                             ##然后star+1 就是页数要一页一页的+,也可以取消这个上边直接用i
                if star == end+1:                   ##然后如果+1的页数=结尾的页数+1就停止函数
                    return
        else:                                       ##反之,就是开始不是输入的是第一页比如输入了,2,4就是从第二页开始了
            chil = os.getcwd()                      ##也是获取当前路径
            os.chdir(chil + '\pexels')              ##然后在进入当前路路径的pexels,我是手动,你也可以自动创建,就是判断当前有没有这个文件夹,有就跳过,没有就创建
            for i in range(star,end+1):             ##然后就从输入的第几页开始
                key = self.geturl(key)+'?page='+str(star)   ##这就直接拼接搜索后的url的详情页数
                dir = self.dir(str(star))           ##然后创建当前页数的目录
                os.chdir(dir)                       ##然后切入新建目录
                time.sleep(3)                       ##咳咳咳,爬虫要有礼貌
                self.image(key)                     ##然后就开始爬图片了,爬的url是上边拼接好的key
                os.chdir('..')                      ##在当前也就是新的目录里存完图片后就退出当前目录,返回pexels以便下一个文件夹
                star+=1                             ##然后star+1就是页数+1
                if star == end+1:                   ##如果输入的页数慢慢的长到了尾页数就停止函数
                    return








zhangsan = images()
zhangsan.all(key=input('老板,你要搜索那个图片'),star=int(input('老板,你要从第几页搜')),end=int(input('老板,给个尾页不然很累的,还被反')))
  • 以上的就是运用我所学的,菜菜的自动下载图片的小爬虫
  • 好了,上几张我爬到的图片
pexels-photo-191741.jpeg
pexels-photo-156934.jpeg
pexels-photo-434090.jpeg
  • 好了图片我也上传了= =
  • 希望这些可以帮助你们。砸门下次见

Good bye

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,060评论 25 707
  • 定时发数据类日报、周报什么的非常枯燥,如果能定时自动化实现,是件美事。 这里的关键点:1. 数据源是否自动更新的;...
    废柴社阅读 3,086评论 3 6
  • 在生活中我们学会了各种技能。吃,穿,买,在妈妈的陪伴下成长。我们用眼发现妈妈身上的各种优点,去学习爱。 当我们长到...
    花痴女人阅读 206评论 0 0
  • 孩子回到家,一般的状态是大喊一声:妈。或爸,我妈呢? 这是做为妈妈,无数,无数个白天与夜晚的陪伴让孩子养成的行为意...
    逍遥行2345阅读 582评论 12 6
  • 有一种职业叫做老师,有一种语言叫做无声,咽在心口远比嘴上洋溢来得生动,有一种文字叫做感动,发之内心远比纸上流淌...
    土左旗014王新燕阅读 418评论 0 0