如何进行Python爬虫验证码破解?(附详细代码)

1.破解验证码常见的三种方法:

(1)把验证码下载到本地,手动输入进行破解

(2)Tesseract光学识别模块:能够自动识别验证码,准确率不高,只能识别一些简单验证码

代码测试

pip install pytesseract

pip install pillow

# 转化为灰度图片

img = img.convert('L')

img.show()

# 二值化处理

threshold = 140

table = []

for i in range(256):

if i < threshold:

table.append(0)

else:

table.append(1)

out = img.point(table, '1')

out.show()

img = img.convert('RGB')

enhancer = ImageEnhance.Color(img)

enhancer = enhancer.enhance(0)

enhancer = ImageEnhance.Brightness(enhancer)

enhancer = enhancer.enhance(2)

enhancer = ImageEnhance.Contrast(enhancer)

enhancer = enhancer.enhance(8)

enhancer = ImageEnhance.Sharpness(enhancer)

img = enhancer.enhance(20)

(3)云打码平台:

云打码

2.下面是我们用第一种方法来破解验证码:把验证码下载到本地,手动输入进行破解

前期准备工作:

爬取网站:古诗文网站 https://www.gushiwen.org/

开发环境:pycharm,python3.6

抓包工具:fiddler抓包,抓取登录接口

使用第三方模块:请求模块 requests,解析模块bs4

流程思路:

(1)首先明确我们要爬取的内容,准备好需要的开发工具和环境

(2)第一步:我们要进行模拟登录古诗文网站遇到的验证码,使用requests模块进行模拟登录,同时我们要先找到验证码的链接,下载好验证码

(3)第二步:登录发送的请求时候,我们手动输入下载好的验证码

实战代码:

首先在pycharm下导入我们需要的第三方模块:requests,bs4

模拟登录页面的验证码图片,找到页面标签。然后解析定位,下载到本地

模拟登录之前,首先先输入验证码。然后再发送登录请求。用的是requests模块,直接封装好表单数据

运行函数:

上面是截图,下面是源代码:

#导入我们需要的第三方库

import requests

from bs4 import BeautifulSoup

import urllib.request

#封装好请求头

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',

}

#下载登录页面的图片

def download_code(s):

url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'

r = s.get(url=url, headers=headers)

soup = BeautifulSoup(r.text, 'lxml')

# 得到图片链接,

image_src = 'https://so.gushiwen.org' + soup.find('img', id="imgCode")['src']

# print(image_src)

r_image = s.get(image_src, headers=headers)

with open('code.png', 'wb') as fp:

fp.write(r_image.content)

# 查找表单所需要的两个参数

__VIEWSTATE = soup.find('input', id="__VIEWSTATE")['value']

__VIEWSTATEGENERATOR = soup.find('input', id="__VIEWSTATEGENERATOR")['value']

return __VIEWSTATE, __VIEWSTATEGENERATOR

#模拟登录

def login(view, viewg, s):

post_url = 'https://so.gushiwen.org/user/login.aspx?from=http%3a%2f%2fso.gushiwen.org%2fuser%2fcollect.aspx'

# 提示用户输入验证码

code = input('哥们.麻烦你输入验证码:')

formdata = {

'__VIEWSTATE': view,

'__VIEWSTATEGENERATOR': viewg,

'from': 'http://so.gushiwen.org/user/collect.aspx',

'email': '1090509990@qq.com',

'pwd': '123456',

'code': code,

'denglu': '登录',

}

r = s.post(url=post_url, headers=headers, data=formdata)

with open('gushi.html', 'w', encoding='utf8') as fp:

fp.write(r.text)

def main():

# 创建会话

s = requests.Session()

# 下载验证码到本地

view, viewg = download_code(s)

# 向post地址发送请求

login(view, viewg, s)

if __name__ == '__main__':

main()

----------END

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,131评论 19 139
  • 年轻财主的故事,大家都耳熟能详。笔者一直以来一直被一个罪所辖制,其实与其说辖制倒不如说是我不愿交出它。在笔者上午刷...
    HoseaYu阅读 824评论 0 0
  • 驾龙奔日 龙岂是人人可驾之宠物? 此处省去千万字
    纵情嬉戏天地间阅读 205评论 0 0
  • 第一章 将近九十的年迈老人坐在轮椅上看着两个孙子在嬉笑打闹,嘴角不自觉的往上翘,但不一会两个人就扭打在了一起,叶修...
    莫乐思思阅读 1,106评论 0 0
  • 游泳圈+电风扇=夏天的味道 矿泉水瓶的异质同构 用的是整齐的砖块来质换的,不知道是不是直接用砖块组成外形。 六一快...
    梦境兒阅读 2,521评论 3 1