智能视觉领域是人工智能的一个重要分支。简单说来,基础视觉就是用机器代替人眼来做测量和判断。也是人工智能领域中建设最早,技术更成熟,应用最广泛的一个分支。其发展重心已经从技术突破转向场景落地,在OCR等领域已经有非常成熟的应用。
什么是OCR?OCR可以做什么?
OCR泛指包括扫描文档和自然场景等文本图像的文字检测和识别,是一种从图像中识别出文字的技术。简单是说:OCR识别是基于深度学习算法,利用光学字符识别技术,将图片上的文字内容,直接转换为可编辑文本。
OCR可以提供精准的通用文字识别、丰富的卡片证照识别,专业的票据单据识别,灵活的自定义模板文字识别,快速对接应用,可广泛应用于身份认证、票据单据识别、内容监管与审核等场景,支持提供定制化服务,可以有效地代替人工录入信息。让应用看图识字,提升输入效率,优化用户体验
OCR中台产品一般架构
最初需要大量数据采集,通过数据标注进行我们的算法模型的训练,主要流程环节有:图像的输入、图像预处理、文本行检测、字符切割、字符识别、后处理,算法模型完成后,封装成标准的API服务,面向用户提供识别能力。
OCR常用识别能力介绍
OCR应用场景
OCR识别涵盖通用类、票据类、证件类、定制类,典型的应用场景有商品图片中的敏感词文字检测及识别,企业和个人证件信息的自动识别和提取,财务税票的文字检测及识别,文档或者宣传资料中的文字检测识别等。由于深度学习和图像检测技术的发展,使得上述场景中的文字的检测和识别效果越来越好,使得机器自动识别成为可能,助力企业提高生产力,降低运营成本。
典型应用场景示例
1、财务报销核对场景:在报销环节将票据上的购买方名称、识别号、价税合计等项目和系统中的数据进行核对,减少人工校验成本
2、内容审核与监管:自动识别图片、视频中的文字内容,及时发现涉黄、涉暴、政治敏感、恶意广告等不合规内容,规避业务风险,大幅节约人工审核成本
3、商户、企业认证:可广泛应用在商户入驻、银行、保险、证券行业等需要验证用户身份的场景中,帮助减少用户的信息输入,提升效率,提高用户体验。