手机版
你好,游客 登录 注册
背景:
阅读新闻

Google AI工程师介绍Translatotron,一种端到端的直接语音翻译模型

[日期:2019-05-18] 来源:Linux公社  作者:醉落红尘 [字体: ]

就在两天前,Google AI的研究团队推出了Translatotron,一种端到端的直接语音翻译模型。在他们的研究论文“Direct speech-to-speech translation with a sequence-to-sequence model”中他们Translatotron认识到该模型在两个西班牙语到英语数据集上实现了高翻译质量。

 Google AI工程师介绍Translatotron,一种端到端的直接语音翻译模型

语音转换系统通常分为三个独立的组件:

  • 自动语音识别:用于将源语音转录为文本。
  • 机器翻译:用于将转录的文本翻译成目标语言
  • 文本到语音合成(TTS):用于从翻译文本生成目标语言的语音。

将任务划分为此类系统已成功运作,并为许多商业语音转语音翻译产品提供动力,包括谷歌翻译。

2016年,大多数工程师和研究人员意识到,当研究人员使用单个序列到序列模型进行语音到文本翻译时,对语音翻译的端到端模型的需求。

2017年,Google AI团队证明此类端到端模型的性能优于级联模型。最近,已经提出了许多用于改进端到端语音到文本翻译模型的方法。

Translatotron证明单个序列到序列模型可以直接将语音从一种语言翻译成另一种语言。此外,它不依赖于任何一种语言的中间文本表示,如级联系统所要求的那样。它基于序列到序列网络,它将源光谱图作为输入,然后生成目标语言中翻译内容的光谱图。

Translatotron还使用了两个经过单独训练的组件:一个将输出频谱转换为时域波形的神经声码器和一个扬声器编码器,用于在合成的翻译语音中保持源扬声器的声音。

序列到序列模型使用多任务目标来预测源和目标转录本,并在训练期间生成目标谱图。但在推理期间,没有使用没有成绩单或其他中间文本表示。

Google AI的工程师通过测量BLEU(双语评估替补)评分来验证Translatotron的翻译质量,该评分是通过语音识别系统转录的文本计算的。

结果确实落后于传统的级联系统,但工程师已经设法证明了端到端直接语音到语音转换的可行性。

Translatotron通过结合扬声器编码器网络,可以在翻译的语音中保留原始扬声器的声音特征。这使得翻译的语音听起来自然而且不那么刺耳。根据Google AI团队的说法,Translatotron提供了比基线级联模型更准确的翻译,同时保留了原始扬声器的声音特征。

工程师得出结论,Translatotron是第一个端到端模型,可以直接将一种语言的语音翻译成另一种语言的语音,并可以在翻译的语音中保留源语音的声音。

要了解有关此新闻的更多信息,请查看Google AI的博文

论文PDF版可以到Linux公社资源站下载:

------------------------------------------分割线------------------------------------------

免费下载地址在 http://linux.linuxidc.com/

用户名与密码都是www.linuxidc.com

具体下载目录在 /2019年资料/5月/18日/Google AI工程师介绍Translatotron/

下载方法见 http://www.linuxidc.com/Linux/2013-07/87684.htm

------------------------------------------分割线------------------------------------------

Linux公社的RSS地址https://www.linuxidc.com/rssFeed.aspx

本文永久更新链接地址https://www.linuxidc.com/Linux/2019-05/158728.htm

linux
相关资讯       Translatotron 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款