一、场景
现在上班,健康码、行程卡以及核酸采样记录缺一不可;阿里云之类的云平台也提供了健康码、行程卡的ocr识别API;
这里简单介绍一下我怎么入坑百度飞桨PaddleOCR~(瞎搞搞,路子野)
二、PaddleOCR环境安装
推荐大家看官方文档,毕竟版本会一直更新,这里只是简单整理一下~点击传送
1. 安装Anaconda
- 地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D
- 大部分win10电脑均为64位操作系统,选择x86_64版本;若电脑为32位操作系统,则选择x86.exe
-
勾选conda加入环境变量
2. 打开Anaconda终端并创建conda环境
-
打开终端
- 创建1个名为paddle_env、python版本为3.8的可执行环境
# 在命令行输入以下命令,创建名为paddle_env的环境
# 此处为加速下载,使用清华源
conda create --name paddle_env python=3.8 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ # 这是一行命令
-
激活刚创建的conda环境并查看python位置
3. 安装PaddlePaddle
- 如果用cpu跑,请运行以下命令安装
python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
- 如果用gpu跑,看这里,根据下面的快速安装,找适合自己的
- 安装时,我遇到的一些问题
问题1:
ERROR: pips dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
daal4py 2021.3.0 requires daal==2021.2.3, which is not installed.
解决方法:
// 设置清华源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
// 安装daal4py
pip install daal4py
问题2:
ERROR: Cannot uninstall 'TBB'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.
解决方法:
pip install --ignore-installed TBB
4. 安装PaddleOCR whl包
- 执行安装命令
pip install "paddleocr>=2.0.1"
-
可能会报一大堆红色错误,注意看报错信息,去提示的网址安装一下即可;安装完tools,再执行一下安装whl包的命令。
error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/
三、windows下安装cuda
由于PaddleOCR飞桨CUDA版本的限制,我们可能需要自己安装cuda。
CUDA、CUDNN在windows下的安装及配置
四、测试
这里以行程卡为例,直接使用默认的模型,测试图片:
命令行运行后,执行的结果:
五、简单使用
思路:
简单的用python写一个服务,对外提供接口;
调用方调用接口时,python程序获取传过来的图片或者图片地址,调用PaddleOCR分析图片,并将分析的结果以JSON字符串传给调用方。
代码写的比较乱,会在下一篇博客中贴出示例代码并说明。