开源视频实时翻译大语言模型：Meta AI 的 MuAViC 的新演示：第一个音频视频语音翻译基准

什么是MuAViC？

MuAViC是第一个音视频语音翻译基准，也是最大的音视频语音识别多语言基准。它包含大约 1,200 小时的跨 9 种语言的转录数据。

在无数的日常情况下，背景噪音——交通声、音乐声、其他人说话的声音——让我们更难理解别人在说什么。人类经常使用来自其他感官的信息，尤其是视觉，来帮助我们交流（正如 Harry McGurk 和 John MacDonald 在 1976 年的研究“听嘴唇和看声音”中指出的那样）。例如，如果您在一场喧闹的音乐会上与朋友交谈，您可能会关注他们的脸部以补充您能听到的内容。

还有 85% 的精彩内容

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

支付 ¥9.90 继续阅读

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文

开源视频实时翻译大语言模型：Meta AI 的 MuAViC 的新演示：第一个音频视频语音翻译基准

什么是MuAViC？

相关阅读更多精彩内容

友情链接更多精彩内容