图片「大爆炸」的小挑战——锤子系统「从图片提取文字」功能的测试

锤子科技在12月2日推送了新一版本的系统。在这一版本中,最受关注的就是「Big Bang」加入了「从图片提取文字」的功能。我准备用各种各样的图片去尽量探索这一功能的表现和「边界」。

为了尽可能的使用各种各样的图片探索它的表现和「边界」,我向朋友征求两种图片:
1.现在或曾经最需要能「图片中提取文字」的图片。
2.最想看能不能实现「图片中提取文字」的图片。

此外在用目前比较流行的使用相同技术(OCR,光学字符识别)的两款软件「扫描全能王」(也是为「Big Bang」提供技术的厂商)和「ABBYY TextGrabber」对某些图片进行对比识别。

第一幅图:「书」

(左为原图,右为「Big Bang」,后同)

(左为「扫描全能王」,右为「ABBYY TextGrabber」,后同)

将书上的一段文字提取成文本,是大家最常想到也或许是有此功能最常有的一项。我的这位朋友随手拍的一张图有一点弯曲,对文字识别造成了干扰。但在文中「(二)欺诈的构成要件」之后,这三个软件都发挥的不错(注:「扫描全能王」要表现的更为出色一点)。

那如果我们再认真一点拍一下效果会怎么样呢?
我找了一本书的某一页。

在好好拍照的情况下,三个软件的识别率都非常高。

我们再试试好好拍英文书。


英文对这三款软件对发挥没有造成阻碍,它们都表现的很出色。(注:「扫描全能王」和「ABBYY TextGrabber」还支持很多其他语种,「Big Bang」目前只支持简体中文和英文。)

在测试途中,出现一个问题。

「Big Bang」无法识别出这张照片,也就是说,「Big Bang」对文字大小识别的范围要小于其他两款市面上主流的软件。(注:在这之后测试一个字体比这幅图小的pdf截图时,「Big Bang」虽然识别错误率很高,但是可以识别。笔者没有这样小的中文字体的书和其他材料进一步测试。但是又测了测上图所示书的其他片段发现还是不能识别。猜想或许是字又小又密集造成的。「Big Bang」的识别范围小这一判断没有改变,只是无法确定准确的因素。)

第一幅图:「书」,代表了我们手头的书本、材料、资料,有时候我们需要把他们转化成文字信息处理。在此种情景下,市面上的软件已经能提供非常出色的服务了。如果你恰好有一台M1,它的激光对焦和「Big Bang」会帮助你更快一点的完成这项任务。


第二幅图:「网盘」

这张图片代表的场景是我们需要从一张图片上选取某些文字信息,这样我们可以避免背诵或是来回翻看输入。我又找了一张更为典型的图片。

三款软件几乎没有压力。但是当图片的质量不好时,这些软件就基本失去了作用,比如下面这张朋友发来的以图片录入的pdf文件截图。

第二幅图:「网盘」,代表了我们要把图片中的文字提取一部分编辑。在此种情景下,后两款软件需要的操作步骤比「Big Bang」多了一些,显得有些「笨重」了。


第三幅图:「无法识别」

以上图片「Big Bang」都无法识别,除了背景不够纯净外,「字体」也影响着它的发挥。

我又做了如下测试。

我得出的结论是:当一个字体越接近宋体、黑体这种「板正」的字体时,它的识别率越高,当它越偏离「板正」的字体时,它的识别率越低。


总结:
1.「Big Bang」的独特之处在于它是全局状态下的迅速反应(注:在这一版本更新之前,笔者常用的软件中,微信的朋友圈和公众号文章、QQi的好友动态、Chrome浏览器以及Kindle阅读软件都是不能触发的。在这一版本更新后上述都可以触发,且不需要截图就可触发)。也就是说你机会不需要什么时间成本,就可以尝试能不能用更有简便的方法完成你的目的,即便不能,你也只是浪费了1s左右而已。而另两款软件则需要较多的步骤去操作(你需要截图、打开软件、读取图片才能进行识别)。

2.「Big Bang」在「把图片中的文字提取一部分编辑」的功能上提供的便利性是遥遥领先的,就算是提取全部文字,「Big Bang」的识别率也没有落后于另两款软件多少。

3.「Big Bang」不是那种给你一个特别明确的场景让你用的功能。它是一个把一件有用的事情变的简单好用。当你有这个功能时,你会经常触发一下,因为它只需要较大的接触面积按压和1秒左右的时间。当你发现可以用到这个功能时,有这个功能和没这个功能的效率差别是巨大的。

4.也有其他厂商在做类似的软件,锤子科技业也表示过将会开源这个软件。这个功能值得大家的关注。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 176,230评论 25 709
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 14,662评论 4 61
  • 船在海上开 听说还托运了 几十头猪 海岛上对陆地上的 牲畜和天空飞翔的鸟类 需求量不多 这是我坐上的第一条 能容纳...
    老晁阅读 5,201评论 5 9
  • 现在几乎所有的社交类APP都会需要做气泡聊天界面,而对于没有做过的同学来说还是有一定难度的。那么这篇博文就是记录一...
    fanly1987444阅读 13,882评论 9 51
  • 文/洛小简 清明假期,原本打算在住所度过,可以肆意看连续剧,或者看多部电影,甚至可以听一天或大半天的歌曲,但最理想...
    洛小简阅读 2,338评论 0 1

友情链接更多精彩内容