人工智能的千百面（一）——音频智能

音频智能

人工智能研究构建的模型，用于会话语音的自我监督学习。
一、介绍
使用Speech-to-Text API 自动将音频/视频文件和实时音频流转换为文本。使用音频智能做更多事情：总结、摘要、主题检测、内容审核、情绪分析、PII 编辑等功能构建等。由尖端的 AI 模型提供支持。

API 的[音频智能]功能来可理解您的音频数据，包括情感分析、摘要、实体检测、主题检测等功能。

二、处理时间
1、异步转录
异步转录是指对预先录制的音频/视频文件的转录。当您提交音频文件进行转录时，它将在音频文件持续时间的 15-30% 内完成。
例如，一个 10 分钟的文件将在大约 1.5 分钟内完成，但最多可能需要 3 分钟。

2、实时流式转录
实时流式 WebSocket API 在几百毫秒内将文本转录流回客户端。

三、支持的文件类型
音频人工智能产品 API 可以转录大量的音频和视频文件格式。

1、支持的音频文件（仅做参考）
.3ga/.aac/.ac3 /.aif/.aiff/.alac/.amr/.ape/.au/.dss/.flac/.flv/.m4a/.m4b/.m4p/.mp3/.mpga/.ogg, .oga, .mogg/.opus/.qcp/.tta/.voc/.wav/.wma/.wv

2、支持的视频文件（仅做参考）
音频人工智能产品可自动从视频文件中剥离音频
.webm/.MTS, .M2TS, .TS/.mov/.mp4, .m4p (with DRM), .m4v/.mxf

四、核心转录
1、扬声器标签（扬声器分类）
API 可以自动检测音频文件中的说话者数量，转录文本中的每个单词都可以与其说话者相关联。只需在您的请求中包含speaker_labels参数，并将其设置为.POSTtrue演讲者将被标记为Speaker A、Speaker B等。
「注：双通道转录打开时不支持扬声器标签。提交文件进行转录时，您可以启用扬声器标签或双通道，但不能同时启用。」

2、双通道转录
一个双通道音频文件，例如一个通道上的人和另一个通道上的客户通话录音，API 支持分别转录每个通道。

五、音频智能功能
1、检测重要的短语和单词自动检测转录文本中的重要短语和单词。

2、主题检测（IAB 分类）标记音频/视频文件中所说的主题。
预测的主题标签遵循标准化的 IAB 分类法，这使得它们适用于内容相关定位用例。

3、实体检测识别音频文件中的各种实体。
例如个人和公司名称、电子邮件地址、日期和位置。

4、时间序列章节（总结）为音频/视频文件生成“时间摘要”。
自动章节首先将您的音频文件分割成逻辑“章节”作为对话主题的变化，然后为每个“章节”的内容提供自动生成的摘要。

5、内容审核检测音频/视频文件中的敏感内容。
例如仇恨言论、暴力、敏感的社会问题、酒精、毒品等。

6、PII （pii：个人可识别身份信息）编辑
通过 PII 编辑，API 可以在将转录文本返回给到之前自动从转录文本中删除个人身份信息 (PII)中。
例如全名，驾驶执照ID，电子邮件地址，银行账户信息，密码或电话号码之类的东西也可以被视为个人可识别信息。

7、情绪分析用于转录文本中的每个句子。
API 将返回识别中的声音的情绪、置信度分数、开始和结束时间，以及声音所属者的基本识别（年龄范围、性别等）。

人工智能的千百面（一）——音频智能

推荐阅读更多精彩内容