24小时联系电话:185 8888 888

商业
您现在的位置:首页 > 商业 > Google的Translatotron将一种口语转换为另一种口语,不涉及任何文字

头条

  • 中国对美国国债的持有率跌至接近2年低位

      根据美国财政部的数据显示,由于北京和华盛顿之间的贸易协议存在不确定性,...

  • 白宫拒绝批准“克赖斯特彻奇电话会议”,以阻止网上极端主义内容

      据悉,美国不会与其他国家一起支持“克赖斯特彻奇呼吁” – 一项全球声...

  • 政府和科技公司联盟承诺打击恐怖主义内容,但美国拒绝加入

      据悉,在为期一天的科技公司和政府官员峰会之后,新西兰总理雅达达·阿尔登...

  • 华尔街日报:美联储可以避免平均通胀目标的陷阱

      随着美联储重新考虑如何执行货币政策,一些观察人士担心,变革可能会产生意...

  • 投资者难以忽视的现实:中美歧义

      目前,美国股市周五大部分时间试图弄清楚在特朗普政府周四晚间午夜后一分钟...

  • 美联储罗森格伦:如果中国贸易争端加剧,美国将降息

      昨天,美联储最高政策制定者告诉路透社,美联储拥有所需的工具,包括降低利...

  • 投资

    Google的Translatotron将一种口语转换为另一种口语,不涉及任何文字

    发布时间:2019/05/16 商业 浏览次数:15

     

    每天我们都会更加接近道格拉斯亚当斯着名且有先见之明的巴贝尔鱼。谷歌的一项新研究项目采用一种语言的口语句子,并在另一种语言中输出口语,但与大多数翻译技术不同,它不使用中间文本,只使用音频。这使得它很快,但更重要的是让它更容易反映扬声器声音的节奏和音调。

    Translatotron,正如该项目所称,是几年相关工作的高潮,尽管它仍然是一个很大的实验。谷歌的研究人员和其他人一直在研究直接语音到语音翻译的可能性多年,但直到最近才有这些努力值得收获。

    翻译语音通常是通过将问题分解为较小的连续语音来完成的:将源语音转换为文本(语音到文本或STT),将一种语言的文本转换为另一种语言的文本(机器翻译),然后转换结果文本回到语音(文本到语音,或TTS)。这非常好,真的,但它并不完美;每一步都有易于发生的错误类型,这些错误可以相互复合。

    此外,并不是真正的多语种人如何在自己的脑海中翻译,因为有关他们自己的思维过程的证据表明。它究竟是如何工作的是不可能肯定地说,但很少有人会说它们分解文本并将其可视化为一种新语言,然后阅读新文本。人类认知经常是如何推进机器学习算法的指南。

    源语和翻译语音的谱图。我们承认,翻译不是最好的。但听起来更好!

    为此,研究人员开始研究将频谱图,音频的详细频率分解,一种语言的语音直接转换为另一种语言的频谱图。这是一个与三步骤完全不同的过程,并且有其自身的弱点,但它也有优势。

    一个是,复杂的,它本质上是一个单步过程而不是多步骤,这意味着,假设你有足够的处理能力,Translatotron可以更快地工作。但更重要的是,对于许多人来说,这个过程可以很容易地保留源语音的特征,因此翻译不是通过机器人来实现的,而是通过原始句子的语气和节奏。

    当然,这会对表达产生巨大影响,而且经常依赖翻译或语音合成的人会不仅会欣赏他们所说的内容,而且会如何表达。很难夸大这对合成语音的常规用户有多重要。

    研究人员承认,翻译的准确性并不如传统系统那么好,传统系统有更多时间来磨练其准确性。但是许多最终的翻译(至少部分地)非常好,并且能够包含表达式是一个太大的优势。最后,团队谦虚地将他们的工作描述为展示该方法可行性的起点,尽管很容易看出它也是一个重要领域的重大进步。

    描述新技术的论文发表在Arxiv上,您可以在此页面浏览语音样本,从源到传统翻译到Translatotron。请注意,这些并非都是为了翻译质量而选择的,而是更多地作为系统在获得意义要点的同时保留表达的示例。

    姓 名:
    邮箱
    留 言: