前言
在iOS12时,苹果推出了text detection的能力,有VNDetectTextRectanglesRequest这个request可以调用。但是因为只支持检测而不支持识别,所以当时只能检测是否有文字并且输出一个boundingbox,并不知道具体的文字是什么。
在iOS13推出时,苹果推出了text recognition的能力,也就是这次可以检测+识别文字了。相当于自带了OCR的能力,这个是非常重要的更新。因为目前OCR都是第三方库+公共模型或者是自己训练模型来实现的,实现的效果和模型+深度学习库的性能有很大关系。苹果自带OCR之后,算是苹果AI赋能,减少app的实现成本。
示例代码
步骤很简单,创建request,获取图片,执行request并处理结果。
- 新建一个VNRecognizeTextRequest,写好识别之后的回调,并且把识别到的字符串拼接
let textRecognitionRequest = VNRecognizeTextRequest { (request, error) in
guard let observations = request.results as? [VNRecognizedTextObservation] else {
print("The observations are of an unexpected type.")
return
}
// 把识别的文字全部连成一个string
let maximumCandidates = 1
for observation in observations {
guard let candidate = observation.topCandidates(maximumCandidates).first else { continue }
self.resultingText += candidate.string + "\n"
}
}
- 设置文字识别request的精度,分为fast和accurate,并把request放入一个request array
textRecognitionRequest.recognitionLevel = .fast
self.requests = [textRecognitionRequest]
- 创建一个VNImageRequestHandler,传入要处理的图片,然后执行request。最后我们就可以在回调中拿到识别结果了。
if let cgImage = image.cgImage {
let requestHandler = VNImageRequestHandler(cgImage: cgImage, options: [:])
do {
try requestHandler.perform(self.requests)
} catch {
print(error)
}
}
讨论
fast和accurate两个模式有什么区别?
按照苹果的说法,fast和accurate底层使用了不同的技术。fast使用了机器学习,只能按照字符来识别,而无法按照整句来识别。accurate使用了深度学习,可以按照整句识别,有更好的识别准确度,兼容大量不同的字体和旋转的文字。
从应用层面来说,如果你只是需要识别电话号码,email地址这种文字,并且对速度的要求非常敏感,或者要做成实时识别,那么你应该选择fast。如果要识别形成段落的文字,那么应该使用accurate并且择机进行perform request。按照官方的数据,识别头图的文字(本文章第一张图),fast需要的时间是0.25s而accurate需要2s。
语种支持
遗憾的是,现在VNRecognizeTextRequest仅仅支持英文。
我们可以使用supportedRecognitionLanguages来查看目前支持的语种:
let supportLanguageArray = try VNRecognizeTextRequest.supportedRecognitionLanguages(for: .accurate, revision: VNRecognizeTextRequestRevision1)
print(supportLanguageArray)
//["en-US"]
并且指定一个语种:
textRecognitionRequest.recognitionLanguages = ["ja-JP"]
语种需要训练模型才能得以支持。苹果会在更新系统+新的SDK时,更新算法的版本,添加语种的支持。我们可以通过supportedRevisions来查看算法版本,并且指定版本。通常来说,request的算法版本默认为最新的版本。
let supportRevison = VNRecognizeTextRequest.supportedRevisions
textRecognitionRequest.revision = VNRecognizeTextRequestRevision1;
有识别英文文本的同学可以直接考虑上手。