炸裂的开源AI语音生成模型ChatTTS

今天看到GitHub上开源了一个非常厉害的AI语音生成模型ChatTTS，可以生成和人类声音非常接近的语音，而且有语气、语调、可以停顿和发出笑声，再也没有了以前的AI味道

体验地址：https://colab.research.google.com/drive/1MYep5f0-BJevVdUZoBuMbjafTy1sfiCr?usp=sharing

ChatTTS是专门为对话场景设计的文本转语音模型，例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。

大鹏自己运行了下，发现效果很不错，可以看下面的示例效果

抖音演示地址

体验方法

感兴趣的朋友可以自己去尝试，HuggingFace地址是：https://huggingface.co/2Noise/ChatTTS

HuggingFace上面可能资源不足无法运行，可以使用谷歌的colab来运行

体验地址：https://colab.research.google.com/drive/1MYep5f0-BJevVdUZoBuMbjafTy1sfiCr?usp=sharing

将下面的代码放入其中执行即可，其中第一次运行估计要10分钟左右

先clone代码和安装包

!git clone https://github.com/2noise/ChatTTS
!mv ChatTTS test
!mv test/* .

!cat ChatTTS/__init__.py
!pip install omegaconf
!pip install vocos
!pip install vector_quantize_pytorch
!pip install nemo_text_processing

再运行chatTTS

import torch
import ChatTTS
from IPython.display import Audio

chat = ChatTTS.Chat()
chat.load_models()

texts = [
'''我觉得mdnice是非常优秀的markdown编辑器[laugh]，
可以用来作微信排版还有写作[uv_break]，
欢迎大家多多使用，使用了之后我请您吃葡萄，
吃葡萄不吐葡萄皮[laugh]，不吃葡萄倒吐葡萄皮
''']

params_refine_text = {
    'prompt': '[oral_2][laugh_0][break_6]'
}

wavs = chat.infer(texts, params_refine_text=params_refine_text, use_decoder=True)

Audio(wavs[0], rate=24_000, autoplay=True)

本文由mdnice多平台发布

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

炸裂的开源AI语音生成模型ChatTTS

炸裂的开源AI语音生成模型ChatTTS

体验方法

相关阅读更多精彩内容

友情链接更多精彩内容