语音合成 语音合成(Text To Speech,TTS)将文本转成拟人化的语音。 1、接口描述 语音合成(Text To Speech,TTS)将文本转成拟人化的语音。目前仅支持中文语音合成,提供三种音色的选择(包含一个男声,两个女声),支持自定义语调、语速等参数,支持SSML标记语言功能。 2、请求方法 POST 3、接口要求 目前仅支持 base64 编码方式请求 一次请求仅支持一条数据 4、URI /v1/aiop/api/2z0yhhrzgv0g/tts/predict 5、请求参数 请求头header参数 参数 是否必填 参数类型 说明 示例 下级对象 ContentType 是 String json 格式 application/json appkey 是 String 应用appkey 562b89493b1a40e1b97ea05e50dd8170 ctyuneoprequestid 是 String 用户请求 id,由用户构造,用户可以通过 uuid 等方法自行生成唯一字符串,用于日志请求追踪。 详见文档:Python3调用示例 33dfa732b27b464fb15a21ed6845afd5 eopdate 是 String 请求时间,由用户构造,形如 yyyymmddTHHMMSSZ。 详见文档:Python3调用示例 20211221T163014Z host 是 String 终端节点域名,固定字段 aiglobal.ctapi.ctyun.cn EopAuthorization 是 String 由天翼云官网 accessKey 和 securityKey 经签名后生成,参与签名生成的字段包括天翼云官网 accessKey 、securityKey、平台应用的appkey(非必须),用户请求 id(非必须),请求时间,终端节点域名(非必须)以及请求体内容。 签名逻辑详见文档:认证鉴权和Python3调用示例 请求体body参数 参数 是否必填 参数类型 说明 示例 下级对象 Action 是 String 算法名称,固定值"TTS" TTS TextData 是 String 支持中文语音合成。合成语音的文本,按 UTF8 编码,最小支持 3 个字符,最多支持 300 个字符(声音类型为2、3、4)。 汉字、英文、数字、标点均等同于一个字符。 强烈建议输入文本加上标点符号,便于合成更正确的语音数据。 支持SSML标记语言输出 今晚去吃火锅吗 VoiceType 是 Int 声音类型,取值2、3、4。2为甜美女声,3为温柔女声,4为磁性男声 2 Pitch 否 Float 语调。返回范围 [0.8, 2],默认值为 1.0 1.0 Speed 否 Float 语速。返回范围 [0.5, 2],默认值为 1.0 Volume 否 int 音量。返回范围[5, 5],默认值为 0,表示正常音量。值越大表示音量越大,值越小表示音量越小。取值为 5 时为音量最小值,并非为无声。 TextData支持SSML语言输入: 标签 功能描述 语法示例 所有待使用SSML标签的根节点,一切需要调用SSML标签的文本都要包含在 中 需要调用SSML标签的文本 在指定位置插入停顿,插入处至少一侧需为中文文本 那我 打这个视频电话的意义在哪里? 指定文本连续读,中间没有任何停顿。仅支持中文 那 我打这个 视频电话的意义在哪里? 用拼音指定字的读音,其中用数字(15)分别代表一至四声调和轻声,写在拼音末尾。连续指定多个字时,拼音用空格隔开。仅支持中文 典当行 典当 行 指定数字是一个个读还是整体读 一个个读: 12345 整体读: 12345 指定英文按照一个个字母读 按照字母读: app 指定速度,仅支持纯中文。其中速度值需为50%200%间的百分数 如同爱人的鼻息吹着我 使用指定的别名代替原文本进行语音合成 文本语音合成代替TTS进行语音合成: TTS 使用SSML标记语言的文本中不要再使用‘<>’,否则会出现格式解析错误。