新2国际网址_新2国际网址历经一年,DeepMind WaveNet语音合成技术正式产品化

中国围棋网2017年10月11日 11时10分27秒
62

原标题:业界 | 历经一年,DeepMind WaveNet语音合成技术正式产品化

就在一年前,谷歌 DeepMind 发布了 WaveNet,这是一种新的深度神经网络,能生成新的声音信号波形,并且比起其它现有技术,其生成的语音拥有更加逼真的音效。当时这个模型还只处于研究雏形阶段,对于消费性产品而言,模型的计算消耗量太大。

经过 12 个月的努力而大大提升了模型运行的速度和质量之后,谷歌 DeepMind 现在已经推出了 WaveNet 的更新版本,可以在所有的平台上生成美式英语和日语的谷歌助手语音。

使用新的 WaveNet 模型可以使谷歌助手生成一系列更加自然逼真的声音。

为什么 WaveNet 的性能如此高效并可以超越现有的最先进技术水平呢?首先需要理解今天的「文本到语音」(text-to-speech,TTS)系统或语音合成(speech synthesis)系统的工作方式。


大部分系统都是基于所谓的连续式 TTS,即使用大型的高质量录音的数据库,收集单个人数小时的声音记录。这些录音将被分成小块然后组合或成串连接以合成完整的所需的发音。但是这些系统生成的语音通常都是不自然的而且很难调整,因为只要出现了一系列变化,比如需要表达新的情绪或语调的情况,就得建立一个新的数据库记录。

为了解决这些问题,有时候会用一种替代模型,称为参量 TTS。这个模型不需要使用一系列规则和语法、嘴唇动作的参量成串连接声音,而引导计算机生成语音。虽然这个方法更加经济,计算速度也更快,但生成的语音不自然。

WaveNet 采取了完全不同的方法。在相关论文中,作者描述了一种深度生成模型,可以从头开始生成单独的信号波形,每次生成一个样本,每秒生成 16000 个样本,并且在单独的声音之间是无缝过渡的。


在原始的 WaveNet 模型上强化的卷积神经网络结构

WaveNet 使用一个卷积神经网络构建,并在大型的语音样本的数据库中训练。在训练过程中,网络将决定语音的潜在结构,比如哪些音调相互依存,以及哪些信号波形是现实的(哪些又不是现实的)。训练后的网络将每一次合成一个语音样本,而每一个样本都和上一个样本的特性相关。最后生成的语音包含自然的语调以及其它的特征比如咂嘴声,其「口音」依赖于用于训练的语音,为从混合数据集中创造任意数量的独特的声音开辟了可能性。正如其它所有的 TTS 系统一样,WaveNet 使用一个文本输入告诉系统在回答问题的时候,应该生成什么词。

从原始模型中生成如此高保真的声音波形需要消耗相当大的计算量,这意味着 WaveNet 虽然有潜力但是还无法在现实世界中应用。不过经过了 12 个月的努力,谷歌已经开发出了能快速生成信号波形的新模型。它还可以大规模运行,并且是在谷歌最新的 TPU 云基础架构上运行的第一个产品。



WaveNet 的研究团队未来将公布新模型的研究细节。最新改进的 WaveNet 模型仍然能生成新的信号波形但是是以原始模型的 1000 倍的速度生成,意味着它只需要 50ms 就可以生成 1 秒的语音。实际上,该模型不只是快,而且保真度很高,可以在一秒内生成 24000 个信号波形的样本。而且每一个样本的分辨率也从 8bit 提高到了 16bit(和光碟一样的分辨率)。

这将使模型在人类听众测试中给出更加自然的听感。例如,最新的 US English voice I,在 1-5 scale 的测试中得到了 4.347 的平均意见分数(mean-opinion-score,MOS),而即使是人类语音也只能得到 4.667 的分数。


新模型同样保留了原始模型的灵活性,可以在训练过程中更好的利用大量的数据。具体来说就是,可以使用多种语音训练网络。从而,即使对于所需输出的语音只有少量的训练数据,仍然可以生成高质量、细致入微的语音。DeepMind 表示这只是 WaveNet 的开始,他们有信心在未来,语音界面的强大功能将对全世界的语言开放。

原文链接:https://deepmind.com/blog/wavenet-launches-google-assistant/


标签:新2国际网址,新2国际网址官网,新2国际网址娱乐

本文链接:http://www.weiqi.cc/developer/116699.html 转载请注明出处