近来做了些 ocr 项目
使用了google的开源框架tesseract以及百度ocr引擎
网上强推的tesseract识别准确率并没有特别理想,可能tesseract并没有中英双语的识别库的原因,所以导致效果不理想吧,部分中文识别出来也是比较差。
百度ocr结合国情的原因效果比tesseract好上许多,但是还是有部分无法识别出来以及识别错误。
在识别出短文本后由于文本要做文本分类但是十几个字的短文本无法提取出较多有用特征。
所以用普通机器学习分类算法做出的NER识别真心效果不怎样。
由于文本位置无法像有规定规格位置的表单可以使用特定位置以及文本间的距离作为一个识别标准
所以这导致按照文本位置识别的思路也死掉了,再加上tesseract以及百度识别率有误差,所以在误差上再乘误差效果就更差了。(重新训练过tesseract = =)
感慨:没有一键解决所有问题的超强模型,只有解决一个个问题的思路
==================== 分割线 =========================
3月末,一些人走了之后,发现自己有些了真的想要的东西了,大概是失去了才会知道什么才是重要的吧。自大一后,早已习惯了准确地说对感觉已经麻木的我,终于有了所谓真正的心痛。。。。。
记得有人跟我说过:习惯了就好了,很快没事的
后来的我们,习惯了,所以不知什么叫喜怒哀乐
快乐过后,悲伤过后,躺在操场望着星空努力回想着那些事却并不知道为何要悲伤为何要快乐
好了,我已经不想去习惯这个世界了,我想让这个世界去习惯我