搞SEO的有时候会遇到批量查询百度指数的需求,但市面上大多数工具查询的数据有延时,并不是实时数据。那有没有更好的方式实时获取百度指数呢?
当然有。那就是利用selenium获取百度指数。得益于百度指数的改版,相对于以前获取百度指数的难度降低不少。改版之前如果想要获取百度指数的话,需要用selenium模拟浏览器,定位到百度指数数据的位置,然后把百度指数数据截图保存,然后利用图像识别技术最终识别出数据,难度比较高。总之一句话,改版后难度小,可以为所欲为。
运行代码之前,需要保证已安装selenium及pyquery库,示例代码如下:
代码示例
from pyquery import PyQuery as pq
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time,urllib,random
word_indexs = []
options = webdriver.ChromeOptions()
options.add_argument('--headless') #设置为无界面模式,不然会报错!!
options.add_argument(r"--user-data-dir=C:\Users\hp\AppData\Local\Google\Chrome\User Data") #获取登陆后保持的cookie
browser = webdriver.Chrome(chrome_options = options)
wait = WebDriverWait(browser,5)
for kw in open('keywords.txt',encoding='utf-8-sig'):
kw = kw.rstrip()
word = urllib.parse.quote(kw)
newurl = 'http://index.baidu.com/v2/main/index.html#/trend/{}?words={}'.format(word,word)
browser.get(newurl)
time.sleep(random.uniform(0.5, 1.5))
try:
wait.until(EC.visibility_of_element_located((By.TAG_NAME,'tbody'))) #等到元素可见
html = browser.page_source
doc = pq(html)
indexs = doc('.veui-table').text().split()
# print(indexs)
total_index = indexs[8]
mobile_index = indexs[9]
except:
# print('{}无指数'.format(kw))
total_index = 0
mobile_index = 0
index = '{}\t{}\t{}'.format(kw,total_index,mobile_index)
word_indexs.append(index+'\n')
print(index)
with open('百度指数查询结果.txt','w',encoding='utf-8') as f:
f.writelines(word_indexs)
参数说明
--user-data-dir:修改成电脑Chrome浏览器User Data文件夹所在路径
keywords.txt:关键词存放文件,一行一个
什么?你还想知道百度指数改版前的获取方法?我也不会,不过有代码参考,一并奉上。见:https://github.com/plus0318/BaiduIndex
PS:经测试查询500-600个关键词的时候,百度指数会封账号,但不会封IP换账号可以继续采集。被封账号第二天可自动解封。