2025-05-26：学习

语音语言模型的目标与挑战
▫ 语音语言模型不仅要“听懂”声音，还要能“产生”声音，涉及输入输出均为语音的复杂任务。
▫ 相比文字，语音包含更多信息（如情绪、说话人、环境等），因此建模难度更大。
语音tokenization的技术演进
▫ 早期做法是将语音转为文字（ASR）再处理，但这样会丢失大量语音特有信息（如语气、情绪）。
▫ 另一极端是直接用采样点作为token，但数据量极大，模型难以处理。
▫ 目前主流做法是将语音信号压缩为离散token（如通过自监督模型或neural codec），在保留关键信息的同时降低序列长度。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

AI学习笔记01：AI基本常识
AI技术正成为一个新的风口，不管是创业还是就业，AI越来越成为一个新的选择。拥抱AI，将使我们获得更多机会，那么如...
AI初学汪阅读 2,735评论 0赞 4
语音识别初识（记录自己的学习过程）
(目的：方便自己下次看，有点流水账)简介：信号处理与特征提取传统声学模型基于深度学习的声学模型 ...
糖爰阅读 2,419评论 0赞 1
[转]大模型基础知识学习笔记之Tokenizer
一个知识点，一个知识点的慢慢学起来吧。https://www.jianshu.com/p/cff8b080de1e...
万州客阅读 114评论 0赞 0
transformers学习（七）学习笔记
transformers学习（七）学习笔记 Transformer 是一种基于自注意力机制的神经网络模型。它的设计...
鲸落_ALin阅读 2,532评论 0赞 0
语音交互学习
几个常见的语音交互平台的简介和比较 2018年07月12日 11:38:19青龙战阅读数：577 1.概述最近做...
Amy_GAOGAO阅读 789评论 0赞 3

赞1赞

赞赏

手机看全文

2025-05-26： 学习