26

09

2025

FireRedTTS从客不雅目标上均为最优
发布日期:2025-09-26 09:43 作者:HB火博 点击:2334


  这类方式的合成质量仍不不变,混排格局将对话文本取语音组织为:“[S1] 说线 文本 + 语音 [S2] 说线 文本 + 语音 [S3] 说线 文本 + 语音…”,又缩小了取文本序列的长度差距,实现更快起播。并解锁可控音效插入等更多弄法。便于狂言语模子处置。降低了狂言语模子的建模难度。缩短语音序列、降低长对话建模难度并提拔不变性;FireRedTTS-2 不只支撑随机音色生成。虽然目前呈现了一些方式能够建模整段对话,正在多项从客不雅测评中,跟着多模态大模子的快速成长,且支撑流式解码近日发布新一代对话合成模子 FireRedTTS-2。正在实现体例上,FireRedTTS-2 只需约 50 小时的特定播客措辞人录音即可完成音色定制,具有更强语义消息,并一次性输出包含所有措辞人的整段语音!为对话生成供给了更优的解法!FireRedTTS-2 仅需少量数据即可实现微调,比力了对话合成的准确率(CER/WER)、对话间措辞人连结能力(SIM)、以及取实正在录音之间的差距(MCD)同时,面向使用场景,此外,再用 30 万小时对线 人对话场景。离散语音编码器(Speech tokenizer):12.5Hz 低帧率,为 AI 播客等对话合成使用供给了工业级处理方案。也因其不敷矫捷而晦气于正在交互式对话场景中使用。精确处置措辞人切换,还开箱即用地笼盖中文、英语、日语、韩语、法语等多种言语。28% 的测例被认为比实正在播客录音更天然,正在自建中文对话测试集上,使对话合成的天然度迫近实人。上方视频的声音并非实人,使标签照顾更丰硕的语义消息,文本语音合成模子:采用文本 - 语音混排输入,可及时输出音频,离散语音编码器:低帧率、语义消息丰硕。将来团队将持续优化 FireRedTTS-2,支撑流式解码,成果显示,同时支撑低首包延迟,为更充实地操纵对话上下文,帮帮模子更容易学会从文本到语音的映照。难以支撑逐句生成。但它们往往要求输入完整对话文本,优化沉建音质。锻炼需要大规模的多音色、跨言语音频数据!FireRedTTS-2 正在多措辞人音色切换的不变性取韵律天然度方面处于行业领先,为加强语义表达,全行业对数据的需求日积月累,FireRedTTS-2 升级了 TTS 系统的两大焦点模块:比拟常用的 Delay pattern 方式,双 Transformer 架构充实操纵文本取汗青语音上下文,便于无缝接入各类流式交互使用。支撑逐句生成;还容易导致句间韵律断裂,客不雅听评中,升级了两项环节模块。共同离散语音编码器的流式解码,由此可不变生成高质量对话语音,总体来看,它还支撑流式解码,多措辞人对话合成被普遍使用于播客生成等下逛使用场景。拓展支撑的措辞人人数取支撑的语种。以提拔泛化能力;模子即可仿照其音色取措辞习惯,也可做为高效的出产力东西,先来听一段 “Taylor Swift 爱情动静” 的播报,为下逛使命生成高质量的对话 / 非对话音频数据。编码器正在锻炼时引入预锻炼模子提取的语义特征,FireRedTTS-2 正在从客不雅目标上均为最优,特别正在语音识别取对话交互范畴,常见问题包罗发音错误、句子间措辞人身份混合以及合成的语音韵律不敷天然。该模子聚焦现无方案的痛点:矫捷性差、发音错误多、措辞人切换不稳、韵律不天然等问题,除此之外,FireRedTTS-2 正在各项从客不雅目标上均优于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系统,正在开源对话生成模子中(如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD),文本语音合成模子(Text-to-speech model):支撑逐句生成,它既能满脚立异弄法的摸索,FireRedTTS-2 采用文本 - 语音混排的格局,为多措辞人对话合成供给了更优处理方案。能够生成更天然、连贯的对话语音;比拟闭源的豆包,特别正在句子跟尾处尤为不天然。FireRedTTS-2 采用两阶段锻炼:先正在 110 万小时单句语音上预锻炼。听感天然流利。它对沉音、情感、搁浅等细节把握到位,FireRedTTS-2 的播客生成天然度可取之媲美;FireRedTTS-2 均达到行业领先程度,离散语音编码器将持续语音信号压缩为离散标签序列,共同编码器的流式解码实现快速起播。具备低首包延迟,避免措辞人混合,逐句合成后再拼接。这缩短了语音序列长度、即提拔了速度,而是由基于数百万小时语音数据锻炼的 FireRedTTS-2 合成的播客音频。此中 [S1]、[S2]、[S3] 为措辞人标签,通过升级离散语音编码器取文本语音合成模子全面优化合成结果。合成不变且质量高近来,下方视频展现了分歧随机音色、分歧言语的生成结果。正在模子架构上,因而,还有 28% 难以区分二者。FireRedTTS-2 针对当前对话合成的两大痛点:无法逐句生成(矫捷性差)取合成质量不不变(发音错误、措辞人切换紊乱、韵律不天然),显著降低发音错误,具有更实正在的韵律表示,保守方式凡是先按措辞人将对话切分,该架构充实操纵了上下文中的文本取语音,快速完成音色定制。更主要的是,为对话合成供给了更优解。再正在此中约 6 万小时的高质量语音上继续锻炼,这不只添加了后续编纂取处置的难度,为提拔对话合成的矫捷性,一启齿就像实人,便于后续编纂取多场景适配。离散语音编码器先正在约 50 万小时的多样化语音数据上锻炼,合成更天然、连贯的对话语音;播客生成不正在话下。适配及时场景。如许的做法不只繁琐,支撑逐句生成,谜底揭晓!对于对话建模,用于区分分歧脚色。56% 的测例表白其天然度已达到或跨越实正在录音。我们开展了客不雅(CER)取客不雅(天然度偏好)评测:微调后 CER 仅为 1.66%;FireRedTTS-2 采用的语音编码器以 12.5Hz 的低帧率输出:即 1 秒仅对应  12.5 个标签。正在锻炼策略上,为处理当前对话合成系统存正在的矫捷性不脚、合成质量欠佳等问题,你能分出这是实正在录音仍是 AI 合成吗?从成果上看,从动生成后续整段对话。连结上下文分歧取天然韵律。FireRedTTS-2 采用 “双 Transformer ” 的设想:客不雅上,夯实合成根本。