语音合成,又称文本转语音(Text-to-Speech,TTS),是将文本转换为自然语音的技术。该技术基于机器学习算法,通过学习大量语音样本,掌握语言的韵律、语调和发音规则,从而在接收到文本输入时生成真人般自然的语音内容。
聊天数字人 电话客服 直播带货 有声阅读 语音导航 新闻播报 英文场景 语音助手 视频配音 百炼支持的语音合成模型包括CosyVoice和Sambert。 如果您希望声音更接近真人、有特色或者有生活气息,建议选择CosyVoice。CosyVoice基于新一代生成式语音大模型,能根据上下文预测情绪、语调、韵律等,具有更好的拟人效果。 如果您希望边输入文本边合成语音(比如大模型流式输出文本时实时合成语音,让虚拟数字人说话),请选择CosyVoice。 Sambert不支持流式输入,需一次性输入完整文本才能开始合成语音。 如果您有以下特定需求,请选择Sambert。 需要合成中英以外的语言(西班牙语、意大利语等)。 需要通过SSML标记语言控制声音的断句、停顿、情绪、发音等。 需要在输出音频流的同时,输出每个汉字/英文单词在音频中的时间戳,用于驱动虚拟人口型、制作视频配音字幕等。 请在语音合成页面选择“语音合成CosyVoice大模型”,单击立即体验。再选择合适的音色,输入自定义文本,在线体验语音合成。 您需要已获取API Key并配置API Key到环境变量。如果通过SDK调用,还需要安装DashScope SDK。 CosyVoice 将合成音频保存为文件 将LLM生成的文本实时转成语音并通过扬声器播放 Python Java Sambert 将合成音频保存为文件 将合成的音频通过扬声器播放 Python Java 您可以尝试: 将多音字替换成同音的其他汉字快速解决发音问题。 使用SSML标记语言:若您选择的是Sambert模型,可使用SSML标记语言对语音发音进行精确控制。CosyVoice不支持SSML标记语言。 在GitHub中扫描钉钉群的二维码,加入钉钉群,联系产品研发进行优化。 模型名称 提交作业接口RPS限制 cosyvoice-v1 3 cosyvoice-v2 3 模型名称 提交作业接口RPS限制 cosyvoice-v1 3 模型服务 提交作业接口RPS限制 模型服务 提交作业接口RPS限制 Sambert系列模型 20示例场景和语音
选择模型
CosyVoice支持流式输入+流式输出,以及非流式输入+流式/非流式输出。Sambert仅支持非流式输入+流式/非流式输出。
快速开始
在线体验
示例代码
import dashscopefrom dashscope.audio.tts_v2 import *# 若没有将API Key配置到环境变量中,需将下面这行代码注释放开,并将apiKey替换为自己的API Key# dashscope.api_key = "apiKey"model = "cosyvoice-v1"voice = "longxiaochun"synthesizer = SpeechSynthesizer(model=model, voice=voice)
audio = synthesizer.call("今天天气怎么样?")print('requestId: ', synthesizer.get_last_request_id())with open('output.mp3', 'wb') as f:
f.write(audio)
import dashscopefrom dashscope.audio.tts import SpeechSynthesizer# 若没有将API Key配置到环境变量中,需将下面这行代码注释放开,并将apiKey替换为自己的API Key# dashscope.api_key = "apiKey"result = SpeechSynthesizer.call(model='sambert-zhichu-v1', # 当text内容的语种发生变化时,请确认model是否匹配。不同model支持不同的语种,详情请参见Sambert音色列表中的“语言”列。
text='今天天气怎么样',
sample_rate=48000, format='wav')print('requestId: ', result.get_response()['request_id'])if result.get_audio_data() is not None: with open('output.wav', 'wb') as f:
f.write(result.get_audio_data())print(' get response: %s' % (result.get_response()))
API参考
常见问题
1. 语音合成的发音读错怎么办?多音字如何控制发音?
2. 限流