【技术组工具分享】综合教程-视频语音转文字（2019.6.21更新）

2019.6.21更新

转自虫部落赵云007提供的免费音频转文字软件：

软件基于百度语音识别，正确率和速度都不错

目前只有音频转文字的功能，仅支持普通话，支持批量选取音频转换，不限时长，免费，如下图测试批量音频识别正确率：

（1）比如批量识别小学生课文

（2）比如识别长达五分钟的《荷塘月色》

（3）识别岳云鹏的相声

3、软件操作

打开可能慢，且软件开启后带着cmd黑框。

4、软件下载

链接：https://pan.baidu.com/s/1knYlZfj4PayPdHqc3LaMEA

提取码：oslt

大家在浏览、工作的时候可能经常碰到以下问题，使得我们非常恼火：

1.网页限制视频下载

2.视频、音频的格式乱七八糟，需要转换的时候很不方便

3.没有靠谱的语音识别/机器翻译软件

4.讲座又没有字幕，需要记录发言人讲的话非常麻烦

不过不用担心，本次技术组针对第四点，将问题本身和衍生出来的子问题一网打尽，为各位提供便利的方法。

视频语音如何转成文字？

Step1：下载视频

这里技术组提供了一个好用的视频链接解析网站——视频鱼，只要输入链接，就可以在站内进行下载（也可以用来针对国内一些无良的视频门户网站）

网址：

http://shipinyu.com/

视频鱼使用图（1）

也可以自由选择下载的大小与格式。

视频鱼使用图（2）

Step2：转换成音频

格式的转换和合并等操作，就需要一门神器——格式工厂的帮助了。

下载：

http://www.pcfreetime.com/

格式工厂适用文件

如果视频网站把视频分成了很多片段，可以下载后用之前分享的Bulk Rename Utility进行编号，然后使用格式工厂将这些片段的视频进行合并。

格式工厂视频合并图

再利用格式工厂将视频格式转换成需要音频格式。

格式工厂转换图

Step3：语音识别+机器翻译

一切准备工作就绪，在最后的是最困难的工作。

机翻其实目前已有很多成熟的工具，但由于目前的语音识别技术相比较机器翻译、语音合成技术并不是非常成熟与完善，人工语音识别服务价格太高，希望低成本完成任务的我们只好使用自动转换机翻服务。但即使利用了ai技术，这也不是个简单的活。

因此技术组特地再试用了十几种方法后，采用了其中4种相对可行性较高的推荐给大家。

（1）讯飞听见（科大讯飞产品，中文语音识别技术雄厚，处于国内领先地位）

讯飞听见网页使用图

讯飞听见是科大讯飞（也就是最近世界AI大会上曝出AI同传包含人工环节的企业，虽然是丑闻，但从另一方面说明其资格）以及一系列衍生产品提供了语音转换的服务，上传文件后自动接单。

价格：机翻价格0.33元/每分钟，有点贵【刚注册有2个小时免费转换时长】

速度：自动识别，1小时音频5分钟出稿

识别率：经过试用有90%以上【官方：最高95%】

（实际上机翻识别率达90%以上就到了及格线，足以满足痛点。但再想从95%往上提高，边际效益和边际成本都非常高，这个痒点亟待技术去满足。不过近期科大讯飞声称自己的技术已经达到了98%的识别率，在可见的未来我们使用语音转换的效率会更高）

存在形式：网页、APP

https://www.iflyrec.com/

总结：效果最好的一个工具，如果能够报销（20元/小时）或者利用注册福利应该是比较好的选择

（2）录音啦

下载：

https://www.luyinla.com/

录音啦使用图

软件支持3个API接口、3个语种进行音频转文字的服务。

价格：按时间收费，价格适中，如下图【每台计算机半小时免费试用】

录音啦价格图

速度：自动识别，需等待一小段时间

识别率：综合来看在75~90%的区间，转换完了需要校对一遍，不过也省去了输入大部分文字的功夫，勉强可用（推荐云知声，试用下来识别率较高，在90%左右）

存在形式：PC端

总结：前期免费，目前开始收费，购买的都是目前国内比较有实力的语音识别产品的引擎，起到一个整合性服务的效果。总体来说比较有性价比，速度也不错，但精度不高还需人工校对

（3）speech to text

speech to text使用图

国外的语音转换产品，需要科学上网

价格：免费

速度：需要自动播放一遍，效率很低

识别率：70~80%，非常一般（注意语音模型改成普通话，关键词输入多一点，可以提高识别率）

存在形式：网页

https://speech-to-text-demo.ng.bluemix.net/

总结：虽然它需要fanqiang，虽然它需要自动放一遍，但是在目前的环境下免费的你还能说什么呢？不推荐，仅作为临时或小段语音转换时的工具

（4）有道云笔记

闲的没事做可以利用手机上微信、搜狗、百度、讯飞等语音输入APP一直按着输入，当然这样比较傻...

推荐使用有道云笔记的语音速记功能，并且不需要一直点击。

有道云笔记使用图

价格：免费

速度：需要记录一遍，最长可支持60分钟

识别率：90%以上，效果比较好

存在形式：APP（独占语音速记功能）

总结：免费的总有这么多那么多的限制，但比起speech to text，有道云笔记的语音速记是一个更好的选择，除了你需要身边再放着一块手机