2019.6.21更新
转自虫部落赵云007提供的免费音频转文字软件:
软件基于百度语音识别,正确率和速度都不错
目前只有音频转文字的功能,仅支持普通话,支持批量选取音频转换,不限时长,免费,如下图测试批量音频识别正确率:
(1)比如批量识别小学生课文
(2)比如识别长达五分钟的《荷塘月色》
(3)识别岳云鹏的相声
3、软件操作
打开可能慢,且软件开启后带着cmd黑框。
4、软件下载
链接:https://pan.baidu.com/s/1knYlZfj4PayPdHqc3LaMEA
提取码:oslt
大家在浏览、工作的时候可能经常碰到以下问题,使得我们非常恼火:
1.网页限制视频下载
2.视频、音频的格式乱七八糟,需要转换的时候很不方便
3.没有靠谱的语音识别/机器翻译软件
4.讲座又没有字幕,需要记录发言人讲的话非常麻烦
不过不用担心,本次技术组针对第四点,将问题本身和衍生出来的子问题一网打尽,为各位提供便利的方法。
视频语音如何转成文字?
Step1:下载视频
这里技术组提供了一个好用的视频链接解析网站——视频鱼,只要输入链接,就可以在站内进行下载(也可以用来针对国内一些无良的视频门户网站)
网址:
也可以自由选择下载的大小与格式。
Step2:转换成音频
格式的转换和合并等操作,就需要一门神器——格式工厂的帮助了。
下载:
如果视频网站把视频分成了很多片段,可以下载后用之前分享的Bulk Rename Utility进行编号,然后使用格式工厂将这些片段的视频进行合并。
再利用格式工厂将视频格式转换成需要音频格式。
Step3:语音识别+机器翻译
一切准备工作就绪,在最后的是最困难的工作。
机翻其实目前已有很多成熟的工具,但由于目前的语音识别技术相比较机器翻译、语音合成技术并不是非常成熟与完善,人工语音识别服务价格太高,希望低成本完成任务的我们只好使用自动转换机翻服务。但即使利用了ai技术,这也不是个简单的活。
因此技术组特地再试用了十几种方法后,采用了其中4种相对可行性较高的推荐给大家。
(1)讯飞听见(科大讯飞产品,中文语音识别技术雄厚,处于国内领先地位)
讯飞听见是科大讯飞(也就是最近世界AI大会上曝出AI同传包含人工环节的企业,虽然是丑闻,但从另一方面说明其资格)以及一系列衍生产品提供了语音转换的服务,上传文件后自动接单。
价格:机翻价格0.33元/每分钟,有点贵【刚注册有2个小时免费转换时长】
速度:自动识别,1小时音频5分钟出稿
识别率:经过试用有90%以上【官方:最高95%】
(实际上机翻识别率达90%以上就到了及格线,足以满足痛点。但再想从95%往上提高,边际效益和边际成本都非常高,这个痒点亟待技术去满足。不过近期科大讯飞声称自己的技术已经达到了98%的识别率,在可见的未来我们使用语音转换的效率会更高)
存在形式:网页、APP
总结:效果最好的一个工具,如果能够报销(20元/小时)或者利用注册福利应该是比较好的选择
(2)录音啦
下载:
软件支持3个API接口、3个语种进行音频转文字的服务。
价格:按时间收费,价格适中,如下图【每台计算机半小时免费试用】
速度:自动识别,需等待一小段时间
识别率:综合来看在75~90%的区间,转换完了需要校对一遍,不过也省去了输入大部分文字的功夫,勉强可用(推荐云知声,试用下来识别率较高,在90%左右)
存在形式:PC端
总结:前期免费,目前开始收费,购买的都是目前国内比较有实力的语音识别产品的引擎,起到一个整合性服务的效果。总体来说比较有性价比,速度也不错,但精度不高还需人工校对
(3)speech to text
国外的语音转换产品,需要科学上网
价格:免费
速度:需要自动播放一遍,效率很低
识别率:70~80%,非常一般(注意语音模型改成普通话,关键词输入多一点,可以提高识别率)
存在形式:网页
https://speech-to-text-demo.ng.bluemix.net/
总结:虽然它需要fanqiang,虽然它需要自动放一遍,但是在目前的环境下免费的你还能说什么呢?不推荐,仅作为临时或小段语音转换时的工具
(4)有道云笔记
闲的没事做可以利用手机上微信、搜狗、百度、讯飞等语音输入APP一直按着输入,当然这样比较傻...
推荐使用有道云笔记的语音速记功能,并且不需要一直点击。
价格:免费
速度:需要记录一遍,最长可支持60分钟
识别率:90%以上,效果比较好
存在形式:APP(独占语音速记功能)
总结:免费的总有这么多那么多的限制,但比起speech to text,有道云笔记的语音速记是一个更好的选择,除了你需要身边再放着一块手机