Introduction VC aims to convert the non-linguistic information of the speech signals wh...
Introduction VC aims to convert the non-linguistic information of the speech signals wh...
Introduction The ASR system can be categoried as three classes by its output. Phonem Gr...
Background Automatic Speech Recognition (ASR) uses both acoustic model (AM) and languag...
Introduction In the previous articals, we have learnt the CTC loss makes assumption of ...
Introduction Keyword Spotting (KWS) aims at detecting predefined key-words in an audio ...
Multi-headed Attention 一个attention head可能权重大部分在某处,不能提取丰富的信息,需要多个进行融合。 Fusion/Aggregatio...
注意力机制 RNN编码-解码模型 论文[1]中,从RNN编码-解码模型演进出注意力机制。RNN编码-解码模型中,编码器输入序列,是编码器RNN在时刻的隐状态(hidden s...
背景 手写体识别、语音识别中,输入数据和输出的识别结果长度不一致、而且可变。直接用神经网络训练需要预分割、调整,得到对应关系,这很难做到。CTC提供了一种建模方式解决了这个问...
网络架构 可以分为3个部分 Head Region Proposal Network(RPN) Classification Network Region Proposal ...
简介 传统目标检测流程: 区域选择(穷举策略:采用滑动窗口,且设置不同的大小,不同的长宽比对图像进行遍历,时间复杂度高) 特征提取(SIFT、HOG等;形态多样性、光照变化多...
[TOC] YOLO V1 网络结构 Yolo采用卷积网络来提取特征,然后使用全连接层来得到预测值。网络结构参考GooLeNet模型,包含24个卷积层和2个全连接层,如图8所...