使用Springboot + Tesseract OCR引擎实现图片文字自动识别

一、简介

1.1关于项目

Tesseract是一款优秀的开源OCR软件，是由HP实验室开发，Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。

目前由Google维护改进，已发展到5.0版本，从4.0版本起增加了基于LSTM神经网络的识别引擎

本项目使用Springboot + Tesseract OCR引擎实现图片文字自动识别功能。

1.2准备

JDK：17

Maven：3.6

开发工具：IntelliJ IDEA

Tesseract模型文件：chi_sim.traineddata

本项目源代码：可私信联系

1.3Tesseract模型文件下载

https://gitcode.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata

项目文件预览 - tessdata - GitCode

二、新建SpringBoot项目

点击"Finish"，项目创建。建议修改maven版本与配置文件（这里使用阿里云配置文件，以便支持后续导入依赖）

修改后，重新reload

三、项目配置

3.1引入依赖

net.sourceforge.tess4j tess4j 4.5.4

3.2yml配置

server: port:8888# 训练数据文件夹的路径tess4j: datapath: D:/tessdata

3.3 模型文件存到相应目录

有一点要注意的是，直接读resource目录下的路径是读不到的哈，所以我放到了D盘，训练数据本身也是更推荐放到独立的位置，方便后续训练数据。

四、开发

4.1配置类

我们新建一个配置类，初始化一下Tesseract类，交给Spring管理，这样借用了Spring的单例模式。

packagecom.example.tesseractocr.config;importnet.sourceforge.tess4j.Tesseract;importorg.springframework.beans.factory.annotation.Value;importorg.springframework.context.annotation.Bean;importorg.springframework.context.annotation.Configuration;/**

* @作者:

* @日期: 2023/10/12 22:58

* @描述:

*/@ConfigurationpublicclassTesseractOcrConfiguration{@Value("${tess4j.datapath}")privateString dataPath;@BeanpublicTesseracttesseract(){Tesseracttesseract=newTesseract();// 设置训练数据文件夹路径tesseract.setDatapath(dataPath);// 设置为中文简体tesseract.setLanguage("chi_sim");returntesseract; }}4、service实现

4.2service实现

packagecom.example.tesseractocr.service;importlombok.AllArgsConstructor;importnet.sourceforge.tess4j.*;importorg.springframework.stereotype.Service;importorg.springframework.web.multipart.MultipartFile;importjavax.imageio.ImageIO;importjava.awt.image.BufferedImage;importjava.io.ByteArrayInputStream;importjava.io.IOException;importjava.io.InputStream;@Service@AllArgsConstructorpublicclassOcrService{privatefinalTesseract tesseract;/** * 识别图片中的文字 *@paramimageFile 图片文件 *@return文字信息 */publicStringrecognizeText(MultipartFile imageFile)throwsTesseractException, IOException {// 转换InputStreamsbs=newByteArrayInputStream(imageFile.getBytes());BufferedImagebufferedImage=ImageIO.read(sbs);// 对图片进行文字识别returntesseract.doOCR(bufferedImage); }}

4.3Controller控制器类

packagecom.example.tesseractocr.controller;importcom.example.tesseractocr.service.OcrService;importlombok.AllArgsConstructor;importnet.sourceforge.tess4j.TesseractException;importorg.springframework.http.MediaType;importorg.springframework.web.bind.annotation.PostMapping;importorg.springframework.web.bind.annotation.RequestMapping;importorg.springframework.web.bind.annotation.RequestParam;importorg.springframework.web.bind.annotation.RestController;importorg.springframework.web.multipart.MultipartFile;importjava.io.IOException;@RequestMapping("/api")@RestController@AllArgsConstructorpublicclassOcrController{privatefinalOcrService ocrService;@PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)publicStringrecognizeImage(@RequestParam("file")MultipartFile file)throwsTesseractException, IOException {// 调用OcrService中的方法进行文字识别returnocrService.recognizeText(file); }}

五、测试

这里使用postman测试

这里是body中的参数，我们选择form-data中的File属性，表示以上传文件形式来调接口。

这里选取一个新闻内容

看下效果，其实还是挺不错的，我和图片比对了一下，基本上都识别出来了。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,539评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,594评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,871评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,963评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,984评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,763评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,468评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,357评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,850评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,002评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,144评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,823评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,483评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,026评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,150评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,415评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,092评论 2赞 355