预·思路
要做的并不多,封装类,方法各司其职!验证的关键部位(文字坐标)交给第三方平台;
以国家企业信用信息公示系统网站为例,点击查询就会产生验证界面!
- selenium控制浏览器进入页面,查询调出验证页面
- 查看网页获取图片链接,将图片转成字节流的形式传给第三方平台
- 第三方返回图片中各个文字的坐标值,点击图片中的文字
- 等待验证成功!
有一些编写程序时候的问题,在最后说明;
正·代码
- 进入页面,输入查询公司或企业,点击查询,弹出验证页面
# 注册超级鹰,进入页面生成软件id
CHAOJIYING_USERNAME = ''
CHAOJIYING_PASSWORD = ''
CHAOJIYING_SOFT_ID =
CHAOJIYING_KIND_FOUR = 9004 # 1~4 9004 #1~5 9201
CHAOJIYING_KIND_FIVE = 9008 # 5~8 9008
DATA_TEXT = '小米科技'
class CrackTouClick():
def __init__(self):
self.url = 'http://www.gsxt.gov.cn/index.html'
self.browser = webdriver.Chrome()
self.wait = WebDriverWait(self.browser, 20)
self.chaojiying = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)
def __del__(self):
self.browser.close()
def open(self):
"""
打开网页输入用户名密码
:return: None
"""
self.browser.get(self.url)
def text_input(self):
'''
输入查询标签
:return:
'''
input = self.wait.until(EC.presence_of_element_located((By.ID, 'keyword')))
return input
-
这个时候利用第三方平台,传入图片字节流(或者base64加密转码)!
注意:
在第三方源码中第二种方式需要更改键为file_base(已标注)
第三方返回信息(其中就有文字坐标)(pic_str)
{'err_no': 0, 'err_str': 'OK', 'pic_id': '3068920282435800059', 'pic_str': '203,298|67,264|242,60|238,260', 'md5': '6330865e91232108ae828df101edff12'}
- 这样,我们获取了文字坐标值,就可以进行解析点击文字了!
def get_touclick_button(self):
"""
获取初始验证按钮
:return:
"""
time.sleep(3)
button = self.wait.until(EC.element_to_be_clickable((By.ID, 'btn_query')))
return button
def get_touclick_element(self):
"""
获取验证图片对象
:return: 图片对象,图片链接
"""
element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_item_img')))
url_http = element.get_attribute('src')
#print(url_http)
return element,url_http
def get_points(self, captcha_result):
"""
解析识别结果
:param captcha_result: 识别结果
:return: 转化后的结果
"""
groups = captcha_result.get('pic_str').split('|')
locations = [[int(number) for number in group.split(',')] for group in groups]
return locations
def touch_click_words(self, locations):
"""
点击验证图片
:param locations: 点击位置
:return: None
"""
for location in locations:
print(location)
element,url_http = self.get_touclick_element()
ActionChains(self.browser).move_to_element_with_offset(element, location[0],
location[1]).click().perform()
time.sleep(0.5)
def touch_click_verify(self):
"""
点击验证按钮
:return: None
"""
button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'geetest_commit_tip')))
button.click()
def request_download(self,IMAGE_URL):
'''
获取图片链接转换字节流,传入超级鹰
:return:
'''
r = requests.get(IMAGE_URL)
res = requests.get(IMAGE_URL,stream=True) # 获取字节流最好加stream这个参数,原因见requests官方文档
byte_stream = BytesIO(res.content) # 把请求到的数据转换为Bytes字节流
roiImg = Image.open(byte_stream) # Image打开Byte字节流数据
# roiImg.show() # 弹出 显示图片
imgByteArr = BytesIO() # 创建一个空的Bytes对象
roiImg.save(imgByteArr, format='PNG') # PNG就是图片格式,我试过换成JPG/jpg都不行
imgByteArr = imgByteArr.getvalue() # 这个就是保存的图片字节流
with open('img.png', 'wb') as f:
f.write(r.content)
return imgByteArr
- 到这里,我已经完成了程序需要的一切,配合selenium工具是大大减少了开发者的编写难度,需要关注的主要是图片转码、解析返回信息等图片处理问题!
说明·问题
- 本次验证码识别借鉴崔庆才《python3爬虫开发实战》提供的代码思路,有一个比较大的问题就是他用网页截图的方式来获取图片,毕竟是两年前的代码,当时的验证码肯定和现在的有所不同,所以说不能直接截取(不能获取文字顺序,影响识别率),经过优化,获取网页隐藏图片链接地址,通过io库里的方法,对图片进行转换字节流传入第三方py文件!
第三方(超级鹰)
-
在网站注册账号,进入页面生成软件id;
-
还有需要在那下载一个py文件(在开发文档里),放入你程序同位置就好(方便调用)
- 还有一个问题就是,在第三方网站中没有提供1~5个文字的坐标代码,联系客服得知有这个代码9201,但是识别率不太好,所以没有放出来,同时5~8文字的坐标代码还是有的,并且可以识别5个字符以下的文字!
完整代码
送给你们:
Valar morghulis (凡人皆有一死) Valar dohaeris (凡人皆需侍奉)