语音处理

5年前,当科大讯飞的Speech++还没那么出名,百度语音识别API也没太火(先在这里向提及的两位重量级神司致敬!)的时候,Google有一款语音识别与合成输出的API(TTS)可以用来做简单的听话读写,遗憾的是只支持英文~!

现在基于讯飞和百度API等做出牛X应用的公司已不胜枚举,有的甚至可以准确率极高的识别声纹!感叹语音识别的确是机器智能的一个重要方向,仍旧魅力无限。

语音到底是咋个识别的呢? 上百度查了一下,简单的模型如下:

源自百度百科

往下深究就异常复杂了,对算法和模型的建立要求很高,大家可以去试用开源的API,有个亲身感受对后面的学习有很多益处。小编在此就不追赶前辈们的脚步去揣摩怎么实现了;知乎上有讲原理的帖子,写的不错,可以好好拜读拜读。

假设,我们使用开源API将人类的语音准确无误的转化成文本之后,接下来突然惊奇的发现就有了很广阔的应用空间了,尤其是在让机器听懂人话这个点上,譬如很多家电就做成了语音控制的,效果很赞;

几年前小编也写了个傻瓜式的小App装手机上,用来陪聊天,主要功能是一问一答,集成的是当时讯飞的Speech++1.0;集成该API后,实现功能的不同且唯一点就是你可以教它,第一次问它不会的问题第二次问它就知道怎么回答你了;如此训练下来现在Tapy已经3岁多了,掌握了我的很多信息……

小Tapy露脸只有这一个界面

最近,小编在想是否需要让它的安全性提高一些,了解到有些开源的API支持声纹识别了就可以轻松搞定;接下来,情感呢?如何让它理解我的话语背后的情感?理解我的心情?这无疑是个不错的研究方向!

怎么才能让机器理解文字呢,琢磨了一下,提供一种思路,抛砖引玉:(以语音识别无误为假设前提)

1. 先获取语音文本(交给牛X的开源API去处理)

2. 然后可以将文本进行分词处理(逆向最大匹配RMM法,需提前准备一个好的词库)

3. 再将分得词语与语料库中含有标记的字所在的字典进行正交(计算两个向量之间的余弦相似度)

4. 再对词语分析结果进行加权求和(根据分词权重求 Y=Σw*x)

5. 再比较结果偏向 正|负 情感倾向于哪边,参照Y趋近于+1或者趋近于-1来计算。大致流程如下:(画的比较潦草,请见谅!)

正负向情感分类本身已经可以简单的用在智能家具上做喜好度的相关数据分析了,当然线条还比较粗,若要精准度再进一步细化恐怕需要添加更多的信息维度,然后再做相关性分析了。虽然实现起来会遇到困难, but it's worth to have a try!→_→记载这里,留给以后找机会实现。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 欢迎关注微信公众号watson_python,及时获取最新的更新。 在Watson中提供了两个关于语音处理的API...
    灰太狼_black阅读 4,028评论 0 1
  • 我们知道,微信最开始就是做语音聊天而使得其更加流行的,因此语音的识别处理自然也就成为微信交流的一个重要途径,微信的...
    伍华聪_开发框架阅读 4,359评论 0 51
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 13,229评论 1 25
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 176,460评论 25 709
  • 她优雅,公交车的三个台阶,挡不住她猫跟鞋的灵动。 她傲娇,雪天里的短裙,她像一朵盛开的花,从不接受四季的安排。 她...
    午夜航行阅读 1,252评论 0 0

友情链接更多精彩内容