老板的项目需要用深度学习处理图像,其中有一个小的环节是自动识别图像拍摄的时间,这个最简单直接的就是用OCR识别。google了一下,在GitHub上也找了找,最终确定了用 opencv + tesseract的方案。
先上 一下图片
这是从原始的图像中截取的一部分。因为所有的数字区域都在图像相同的位置,可以用像素点位置固定截图。奇怪的是,我最开始是刚好沿着白框截的,识别的效果很不好。后来想到同事用Halcon处理时,截的区域比较大,我也就扩大了些,结果效果变好了。
代码如下
# 导入要用的包
import os
import numpy as np
import cv2
from PIL import Image
import matplotlib
%matplotlib inline
import pytesseract
from pytesseract import Output
# 图像预处理
# get grayscale image
def get_grayscale(image):
return cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# noise removal
def remove_noise(image):
return cv2.medianBlur(image,5)
#thresholding
def thresholding(image):
return cv2.threshold(image, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
#dilation
def dilate(image):
kernel = np.ones((5,5),np.uint8)
return cv2.dilate(image, kernel, iterations = 1)
#erosion
def erode(image):
kernel = np.ones((5,5),np.uint8)
return cv2.erode(image, kernel, iterations = 1)
#opening - erosion followed by dilation
def opening(image):
kernel = np.ones((5,5),np.uint8)
return cv2.morphologyEx(image, cv2.MORPH_OPEN, kernel)
#canny edge detection
def canny(image):
return cv2.Canny(image, 100, 200)
#skew correction
def deskew(image):
coords = np.column_stack(np.where(image > 0))
angle = cv2.minAreaRect(coords)[-1]
if angle < -45:
angle = -(90 + angle)
else:
angle = -angle
(h, w) = image.shape[:2]
center = (w // 2, h // 2)
M = cv2.getRotationMatrix2D(center, angle, 1.0)
rotated = cv2.warpAffine(image, M, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)
return rotated
#template matching
def match_template(image, template):
return cv2.matchTemplate(image, template, cv2.TM_CCOEFF_NORMED)
# 图像中数字识别的主程序
def img_to_digit(img_path,crop_path):
img = cv2.imread(img_path)
# 这里是截取的含有数字的部分
img_c = img[700:800,700:800]
# 因为我的图像就是黑白的,不进行预处理效果也很好。其他情况可以适当处理
#gray = get_grayscale(img_c)
#thresh = thresholding(gray)
#opening = opening(gray)
#canny = canny(gray)
cv2.imwrite(crop_path,img_c)
d = pytesseract.image_to_data(img_c, output_type=Output.DICT)
return d['text']