ChatTTS: 最棒的开源中文文本转语音TTS模型

一款专门为对话场景设计的文本到语音TTS模型。

一、介绍

该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。

专为对话任务优化,能够支持多种说话人语音,中英文混合等。

模型还能够预测和控制细粒度的韵律特征,如笑声、停顿和插话等,还能进行更细粒度的调整,如语速、音调和情感等。

二、功能特性:

  • 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
  • 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
  • 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。

视频介绍: 见B站

用法:

import ChatTTS
from IPython.display import Audio

chat = ChatTTS.Chat()
chat.load_models(compile=False) # 设置为True以获得更快速度

texts = ["在这里输入你的文本",]

wavs = chat.infer(texts, use_decoder=True)

torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

三、网址

项目地址: https://github.com/2noise/ChatTTS
在线地址: https://huggingface.co/2Noise/ChatTTS

qingwuyun-banner.jpeg
赞(1)
未经允许禁止转载:优米格 » ChatTTS: 最棒的开源中文文本转语音TTS模型

评论 抢沙发

合作&反馈&投稿

商务合作、问题反馈、投稿,欢迎联系

广告合作侵权联系