selenium+geckodriver+火狐爬取图片集2018-01-17

由于需要的数据集是用于特定的场景，明星脸需要自己搜集。学习用Python实现自动用谷歌搜索下载图片。

工具：

selenium：自动化测试工具，支持各种浏览器（Chrome，Firefox，Safari等）。Selenium2合并了Selenium与Webdriver。

geckodriver:第三方浏览器，对selenium3.x版本要使用个geckodriver来驱动Firefox。geckodriver.exe文件放到火狐浏览器的安装目录下。最后将火狐浏览器的安装目录添加到系统环境遍历path中即可。

安装：pip install selenium

使用示例：

from selenium import webdriver 
browser=webdriver.Chrome() 
browser.get('http://www.baidu.com/')

运行即可自动打开谷歌浏览器并访问百度。

程序原理

模拟人在浏览器中进行图片搜索的过程，通过下拉页面获取更多的搜索结果，并把结果图片的url保存下来，最后再通过这些url把图片下载到本地。

谷歌搜索URL：谷歌搜索表单参数url参数详解

例如url：“https://www.google.com/search?tbm=isch&q=Scarlett+Johansson”中，tbm=Isch表示搜索类型是图片搜索；q的内容是是搜索关键词。

getIMGurlsGoogle：输入一组搜索关键词，函数爬取相关的图片url并保存到指定目录下以关键词命名的文件夹中。

def getIMGurlsGoogle(search_items,num,bottom,saveDIR,items_per_round):
    if(os.path.exists(saveDIR) == False):
        os.mkdir(saveDIR)
    driver = webdriver.Firefox()
    driver.maximize_window()
    threshold = items_per_round - 1
    item_cnt = 0
    for search_item in search_items:
        if(item_cnt%items_per_round == threshold):
            driver.quit()
            driver = webdriver.Firefox()
            driver.maximize_window()
        print '#%d: %s' % (item_cnt, search_item)
        search_item = search_item.split(' ')
        search_item = '+'.join(search_item)
        search_url = 'https://www.google.com/search?aq=f&tbm=isch&q=%s' % search_item
        img_url_set = set()
        driver.get(search_url)
        pos = 0
        cnt = 0
        ans = []
        while(True):
            if((cnt >= num) or (pos >= bottom)):
                break
            js = "document.documentElement.scrollTop=%d" % pos
            driver.execute_script(js)
            for element in driver.find_elements_by_tag_name('a'):  
                href_ori = element.get_attribute('href')
                if(href_ori == None):
                    continue
                href_decoded = urllib.unquote(href_ori)
                if(href_decoded.find('imgres?imgurl=http') < 0):
                    continue
                img_url =  href_decoded[href_decoded.find('imgurl=')+len('imgurl='):href_decoded.find('&imgrefurl')]
                if(img_url not in img_url_set):
                    img_url_set.add(img_url)
                    ans.append(img_url)
                    cnt += 1
                    if(cnt >= num):
                        break
            pos += 600
        f = open(saveDIR + '\\' + search_items[item_cnt] + '.txt', 'w')
        for u in ans:
            f.write(u)
            f.write('\n')
        f.close()
        item_cnt += 1
    driver.quit()

getIMG: 根据图片url将图片下载到本地

def getIMG(fns,readDIR,saveDIR):
    if(os.path.exists(saveDIR) == False):
        os.mkdir(saveDIR)
    for fn in fns:
        name = fn[:-4]
        if(os.path.exists(saveDIR + '\\' + name) == False):
            os.mkdir(saveDIR + '\\' + name)
        furl = open(readDIR + '\\' + fn)
        count = 0
        for url in furl.readlines():
            count += 1
            socket.setdefaulttimeout(120)
            try:
                urllib.urlretrieve(url, saveDIR + '\\' + name + '\\%d.jpg' % count)
            except:
                continue
            print 'Downloading: %s ---- #%d' % (name, count)

getIMG_mt: 多线程版本的图片下载函数

def getIMG_mt(num_t,readDIR,saveDIR):
    if(num_t <= 0):
        num_t = 1
    fns = os.listdir(readDIR)
    total_num = len(fns)
    avg = total_num / num_t
    left = total_num % num_t
    threads = []
    cur_idx = 0
    for i in range(left):
        t = threading.Thread(target=getIMG,args=(list(fns[cur_idx:cur_idx+avg+1]),readDIR,saveDIR))
        threads.append(t)
        cur_idx += avg+1
    for i in range(num_t-left):
        t = threading.Thread(target=getIMG,args=(list(fns[cur_idx:cur_idx+avg]),readDIR,saveDIR))
        threads.append(t)
        cur_idx += avg
    
    for i in range(num_t):
        threads[i].start()
    
    for i in range(num_t):
        threads[i].join()

最后只需要设定自己需要搜索的条件，确定图片以及URL在电脑上存放的路径即可。

if __name__ == '__main__':
    # example:
    url_saveDIR = r'C:\Users\changjianhui\Pictures\urls'
    img_saveDIR = r'C:\Users\changjianhui\Pictures\imgs'
    search_items = ['男明星脸']
    # '女'
    getIMGurlsGoogle(search_items = search_items, num = 10000,bottom = 10000,saveDIR = url_saveDIR,items_per_round = 10)
    getIMG_mt(num_t = 2,readDIR = url_saveDIR,saveDIR = img_saveDIR)

源码地址

selenium+geckodriver+火狐爬取图片集2018-01-17