参考资料:利用google图片搜索收集图片数据集
由于需要的数据集是用于特定的场景,明星脸需要自己搜集。学习用Python实现自动用谷歌搜索下载图片。
工具:
selenium:自动化测试工具,支持各种浏览器(Chrome,Firefox,Safari等)。Selenium2合并了Selenium与Webdriver。
geckodriver:第三方浏览器,对selenium3.x版本要使用个geckodriver来驱动Firefox。geckodriver.exe文件放到火狐浏览器的安装目录下。最后将火狐浏览器的安装目录添加到系统环境遍历path中即可。
安装:pip install selenium
使用示例:
from selenium import webdriver
browser=webdriver.Chrome()
browser.get('http://www.baidu.com/')
运行即可自动打开谷歌浏览器并访问百度。
程序原理
模拟人在浏览器中进行图片搜索的过程,通过下拉页面获取更多的搜索结果,并把结果图片的url保存下来,最后再通过这些url把图片下载到本地。
谷歌搜索URL:谷歌搜索表单参数url参数详解
例如url:“https://www.google.com/search?tbm=isch&q=Scarlett+Johansson”中,tbm=Isch表示搜索类型是图片搜索;q的内容是是搜索关键词。
getIMGurlsGoogle:输入一组搜索关键词,函数爬取相关的图片url并保存到指定目录下以关键词命名的文件夹中。
def getIMGurlsGoogle(search_items,num,bottom,saveDIR,items_per_round):
if(os.path.exists(saveDIR) == False):
os.mkdir(saveDIR)
driver = webdriver.Firefox()
driver.maximize_window()
threshold = items_per_round - 1
item_cnt = 0
for search_item in search_items:
if(item_cnt%items_per_round == threshold):
driver.quit()
driver = webdriver.Firefox()
driver.maximize_window()
print '#%d: %s' % (item_cnt, search_item)
search_item = search_item.split(' ')
search_item = '+'.join(search_item)
search_url = 'https://www.google.com/search?aq=f&tbm=isch&q=%s' % search_item
img_url_set = set()
driver.get(search_url)
pos = 0
cnt = 0
ans = []
while(True):
if((cnt >= num) or (pos >= bottom)):
break
js = "document.documentElement.scrollTop=%d" % pos
driver.execute_script(js)
for element in driver.find_elements_by_tag_name('a'):
href_ori = element.get_attribute('href')
if(href_ori == None):
continue
href_decoded = urllib.unquote(href_ori)
if(href_decoded.find('imgres?imgurl=http') < 0):
continue
img_url = href_decoded[href_decoded.find('imgurl=')+len('imgurl='):href_decoded.find('&imgrefurl')]
if(img_url not in img_url_set):
img_url_set.add(img_url)
ans.append(img_url)
cnt += 1
if(cnt >= num):
break
pos += 600
f = open(saveDIR + '\\' + search_items[item_cnt] + '.txt', 'w')
for u in ans:
f.write(u)
f.write('\n')
f.close()
item_cnt += 1
driver.quit()
getIMG: 根据图片url将图片下载到本地
def getIMG(fns,readDIR,saveDIR):
if(os.path.exists(saveDIR) == False):
os.mkdir(saveDIR)
for fn in fns:
name = fn[:-4]
if(os.path.exists(saveDIR + '\\' + name) == False):
os.mkdir(saveDIR + '\\' + name)
furl = open(readDIR + '\\' + fn)
count = 0
for url in furl.readlines():
count += 1
socket.setdefaulttimeout(120)
try:
urllib.urlretrieve(url, saveDIR + '\\' + name + '\\%d.jpg' % count)
except:
continue
print 'Downloading: %s ---- #%d' % (name, count)
getIMG_mt: 多线程版本的图片下载函数
def getIMG_mt(num_t,readDIR,saveDIR):
if(num_t <= 0):
num_t = 1
fns = os.listdir(readDIR)
total_num = len(fns)
avg = total_num / num_t
left = total_num % num_t
threads = []
cur_idx = 0
for i in range(left):
t = threading.Thread(target=getIMG,args=(list(fns[cur_idx:cur_idx+avg+1]),readDIR,saveDIR))
threads.append(t)
cur_idx += avg+1
for i in range(num_t-left):
t = threading.Thread(target=getIMG,args=(list(fns[cur_idx:cur_idx+avg]),readDIR,saveDIR))
threads.append(t)
cur_idx += avg
for i in range(num_t):
threads[i].start()
for i in range(num_t):
threads[i].join()
最后只需要设定自己需要搜索的条件,确定图片以及URL在电脑上存放的路径即可。
if __name__ == '__main__':
# example:
url_saveDIR = r'C:\Users\changjianhui\Pictures\urls'
img_saveDIR = r'C:\Users\changjianhui\Pictures\imgs'
search_items = ['男明星脸']
# '女'
getIMGurlsGoogle(search_items = search_items, num = 10000,bottom = 10000,saveDIR = url_saveDIR,items_per_round = 10)
getIMG_mt(num_t = 2,readDIR = url_saveDIR,saveDIR = img_saveDIR)