炼数成金 门户 商业智能 人工智能 查看内容

速度快1000倍!DeepMind更新WaveNet用于Google助手

2017-10-11 14:23| 发布者: 炼数成金_小数| 查看: 19500| 评论: 0|来自: 谷歌
摘要: 在2016年,Google旗下DeepMind实验室推出了WaveNet深度神经网络,在过去12个月中,DeepMind一直在努力大幅度提高模型的速度和质量,用于“生成能够产生比现有技术更好、更逼真的,语音原始音频波形”。Google利用Wav ...
网络 数据库 工具 模型 神经网络
在2016年,Google旗下DeepMind实验室推出了WaveNet深度神经网络,在过去12个月中,DeepMind一直在努力大幅度提高模型的速度和质量,用于“生成能够产生比现有技术更好、更逼真的,语音原始音频波形”。

Google利用WaveNet技术,以英文/日文更新了Google Assistant的语音功能,可选择男性或女性。对于那些对虚拟助理有语音偏好的人来说,这是一个期待的选择。


新版本可以产生更高的波形分辨率以及比原来快1000倍的保真度。

计算方法
为了理解WaveNet如何改进现有技术水平,了解文本到语音(TTS)或语音合成系统如何工作是非常有用的。

这些大多数都是基于所谓的concatenative TTS,它使用大量高质量录音数据库,从多个小时的单个人声收集数据。这些记录被分割成微小的chunks,然后将其组合或连接,以形成完整的话语。

然而,这些系统可能导致不自然的声音,并且也难以修改,因为每当需要一组改变(例如新的情绪或语调)时,需要纪录全新的数据库。

为了克服这些问题,有时使用称为parametric TTS的替代模型。这个模型不需要通过使用一系列关于语法和嘴型的规则和参数,来引导计算机生成的语音来连接声音。虽然省时省力,但这种方法创造的声音不那么自然。

WaveNet采取完全不同的方法。在论文中,我们描述了一个深刻的生成模型,可以从头开始创建单个波形,每次一个样本,每秒16,000个样本,以及各个声音之间的无缝转换。


由卷积神经网络的结构生成的原始WaveNet模型

它是使用卷积神经网络构建的,该网络在大量语音样本数据集上进行了训练。在这个训练阶段,网络确定了语音的底层结构,比如哪些音调是相互依存的,什么波形是现实的(哪些不是)。

然后训练好的网络一次合成了一个样本,每个生成的样本都考虑到前一个样本的属性。所产生的声音包含自然语调和其他功能,如嘴型。它的“口音”取决于它所接受的声音,打开了从混合数据集中创建任何数量的独特声音的可能性。与所有文本到语音系统一样,WaveNet使用文本输入,来告诉它应该产生哪些字以响应查询。

使用原始模型以如此高的保真度,建立声波在计算上是昂贵的,WaveNet带来了新的曙光,但并不是可以在现实世界中部署的。

但在过去12个月中,DeepMind的团队一直在努力开发一种,能够更快地生成波形的新版本。它现在也能够大规模运行,是第一个在Google的TPU云基础设施上推出的产品。


新的WaveNet改进模型仍然生成原始波形,但速度比原始模型快1000倍,意味着创建一秒钟的语音只需要50毫秒。事实上,该模型不仅仅是速度更快,而且更高的保真度,能够每秒产生24,000个采样波形。我们还将每个样本的分辨率从8位增加到16位,与光盘中使用的分辨率相同。

这使得新模型根据人类听众的测试更自然的发声。例如,美式英语发音的平均得分(MOS)为4.347(以1-5的scale),人类的语音评分也只有4.667。

新模型还保留了原始WaveNet的灵活性,使我们能够在训练阶段更好地利用大量数据。具体来说,我们可以使用来自多个语音的数据来训练网络。即使在所需输出语音中几乎没有训练数据可用,也可以用于生成高质量,细微的声音。

wavenet博客:http://suo.im/3i5AkL

WaveNet论文:https://arxiv.org/pdf/1609.03499.pdf

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

  GMT+8, 2017-12-15 08:52 , Processed in 0.156993 second(s), 25 queries .