谷歌公布音频转译技术 Translatotron

每一天,我们都距离道格拉斯·亚当斯(Douglas Adams)提到的能听懂所有语言的 “通天鱼”(Babel fish)更近一些。谷歌的新研究项目采用一种语言的口语句子,然后输出另一种语言的口语句子,但与大多数翻译技术不同的是,它不使用中间文本,只使用音频。这样一来,它的翻译速度会很快,但更重要的是,它能更容易地反映出说话人声音的语调和节奏。

这个研究项目被称为 Translatotron,也是多年来相关工作的成果,尽管它在很大程度上仍是一项实验。谷歌及其他公司的研究人员多年来一直在研究从语音到语音直接翻译的可能性,但直到最近这些努力才结出硕果。

语音翻译通常是将该问题分解成更小的顺序性问题来解决:将源语音转换为文本(语音到文本,或 STT),将一种语言文本转换为另一种语言的文本(机器翻译),然后将生成的文本转换回语音(文本到语音,或 TTS)。这种工作机制确实表现不俗,但并不完美;每个步骤都有其容易出现的错误类型,并且这些错误会让相互之间的关系变得更为复杂。

此外,它并不是那种会多种语言的人在自己头脑中进行翻译的过程,关于他们自身思维过程的证据已经证明了这一点。它到底是如何运作的,我们无法给出一个确切的答案,但很少有人会说,他们能分解文本,把它想象为一种新的语言,然后读取新的文本。在如何推进机器学习算法方面,人类认知常常能起到指引作用。

为此,研究人员开始研究将一种语言语音的光谱图(即详细的音频频率分解)直接转换成另一种语言的光谱图。这是一个与三步走语音翻译截然不同的过程,当然既有自己的缺点,也有自己的优点。

虽然整个过程略显复杂,但从本质上它是一个步骤的过程,而不是涉及多个步骤,这意味着,假设你有足够的处理能力,Translatotron 可以更快地进行工作。但对很多人来说,更重要的是,这个过程让他们更容易保留音源的特征,所以翻译出来的东西不会机械地模仿,而是用原句的语调和节奏进行输出。

这自然会对表达带来很大影响,那些经常依赖翻译或语音合成的人不仅会感谢他们的语音转化内容,而且也会欣赏他们的说话方式。对于经常使用合成语音的人来说,这一点的重要性怎么说都不为过。

研究人员承认,翻译的准确性不如传统的翻译系统,后者有更多的时间来提高准确性。但是,Translatotron 的很多翻译结果都非常好,能够包含声调就是一个非常大的优势,让人不容易错过。最后,谷歌团队谦虚地表示,这项工作只是展示该方法可行性的起点,尽管很容易看出这也是在一个重要领域迈出的重要一步。

描述这项新技术的论文发表在 Arxiv 上,你也可以在这个页面中浏览语音样本——从声源到传统翻译,再到 Translatotron 翻译。只是要特别注意,这些样本并不都是为了翻译的质量选择的,而是更多作为例子,说明该系统是如何在获得意思要点的同时保留表达形式。

题图来源:布莱斯·德尔宾(Bryce Durbin)/TechCrunch

翻译:皓岳

Google’s Translatotron converts one spoken language to another, no text involved

2019华为云开年采购季,全场云产品1折起

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: