机器之心

首页 > 资讯 > 机器翻译七十年:百度领跑神经网络翻译时代

资讯

机器翻译七十年:百度领跑神经网络翻译时代

2016-12-21 18:09:03         
0 0 0

机器翻译距今已有 70 年的发展历史。自上世纪 40 年代起,基于规则、实例以及统计的机器翻译方法渐次登场,各领风骚。近两年,神经网络机器翻译(Neural Machine Translation, NMT)技术异军突起,取得了翻译质量的大幅跃升。

12 月 21 日,在百度机器翻译技术开放日上,百度技术委员会联席主席、自然语言处理部技术负责人吴华博士表示,基于领先的人工智能、神经网络以及自然语言处理技术,百度早在 1 年多以前就率先发布了世界上首个互联网 NMT 系统,引领机器翻译进入神经网络翻译时代。

blob.png

吴华博士讲解百度机器翻译技术

先发制人:百度率先进入 NMT 时代

众所周知,一项新的技术从实验室诞生到真正的工业化应用,往往需要很长时间。以统计机器翻译(SMT)为例,它自上世纪 90 年代初提出,直到 15 年之后,才出现了第一个基于 SMT 技术的互联网翻译系统,得到了大规模的应用。

而神经网络翻译技术从 2014 年 9 月提出,到百度 2015 年 5 月上线首个互联网 NMT 系统,只用了短短 8 个月时间。这既体现了百度对于新技术敏锐的洞察力,也体现了百度翻译的雄厚的技术实力。事实证明,NMT 这一技术带来了翻译质量的大幅跃升,极大的提升了用户体验。

随后,NMT 以惊人的发展速度席卷学术界和工业界。在 2016 年学术界顶级会议上,几乎全是围绕 NMT 相关的创新工作,今年 9 月,谷歌、微软等公司也相继发布 NMT 系统。

NMT 技术缘何受到追捧?据吴华介绍,它克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。

攻坚克难:NMT 时代的百度式创新

「上线过程充满挑战,然而,对于每一个难题,我们都率先给出了高效的解决方案」回顾一年多前的上线历程,吴华不无自豪地说。

尽管敏锐地洞察到 NMT 的优势和潜力,在最初计划上线该技术时,工程师们仍然表示了担忧。毕竟,线上传统的 SMT 系统经过长时间打磨,运作良好。而 NMT 刚刚提出几个月的时间,尽管有优势,但技术本身仍存在诸多缺陷,学术界也对其性能存在争论甚至质疑,更不要提将其发布上线,面对广大的互联网用户了。

「既然我们相信并且验证了它是有用的,我们应该尽快让它上线,提升用户体验」。简单可依赖,百度工程师文化深入大家的骨髓。

彼时,对于 NMT 面临的多个难题,并无成熟的解决方法。『既要看准方向,又要摸着石头过河』。百度翻译技术人员系统化地提出了一整套解决方案。譬如,通过引入 SMT 中的特征解决 NMT 系统集外词(OOV)无法翻译、译文不完整(漏词)的问题,借助算法改进将解码速度提升数十倍;开创性地提出首个基于深度学习的多语言翻译框架,解决数据稀疏问题;同时将模型压缩 70 倍便于移动用户在本地运行等。

在这一系列努力之下,吴华表示,「百度翻译在中英的测试集上,翻译质量比之前传统的方法提升了 7 个百分点以上。」而通常,提升 1 个百分点,效果就非常显著了。2015 年 5 月 20 日,百度翻译正式上线 NMT 系统,成为世界范围内第一个真正实用的 NMT 系统。

随后,在 7 月份的自然语言处理顶级会议 ACL 年会上,百度 NMT 翻译系统又担任了终身成就奖颁奖典礼的实时翻译,在众多世界级专家面前亮相展示。

同年,百度翻译获得了国家科技进步二等奖,百度也成为首个获此殊荣的互联网企业。

服务大众:场景落地与大规模工业化应用

技术最终要服务大众,否则就是镜中月、水中花。在一系列技术创新的同时,百度翻译结合用户真实的使用场景,不断丰富产品功能,优化用户体验。目前,百度翻译支持全球 28 种语言互译、756 个翻译方向,每日响应过亿次的翻译请求。

民警用百度翻译救助外国友人、公交车售票员用百度翻译帮助巴基斯坦小伙子找回失物、游客利用『对话翻译』、『拍照翻译』功能在国外自由沟通等等,都表明了百度翻译越来越多的融入了我们的生活。

blob.png

此外,百度翻译还开放了 API 接口,助力广大企业国际化。目前已有超过 2 万个第三方应用接入。华为、OPPO、中兴、三星等手机厂商,金山词霸、灵格斯词霸、敦煌网等众多产均接入了百度翻译 API。世界知识产权组织(WIPO)也将百度翻译 API 集成到官网,供用户将专利信息翻译成不同语种查询。

砥砺前行:不断创新,扩大领先优势

「NMT 时代我们走在了世界前列,我们需要适应并一直保持领跑者的角色。以前我们是跟跑、并跑,现在我们要带着别人跑」吴华在活动上如是说道。

事实上,这不仅是对机器翻译而言,对于整体的科学技术领域,中国科技企业正逐步摆脱跟跑、并跑角色,开始在国际中担负起领跑重任,并持续保持扩大这种领先优势。

声明:本文由机器之心原创出品,版权归作者所有,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。

  1. 网站转载请在文章开头粗体注明:本文转载自机器之心,标明作者,并附上本文链接。
  2. 微信公众号转载请在开头粗体注明:本文转载自机器之心,标明作者,并设置阅读原文链接为本文链接,微博转载请附上本文链接并@机器之心synced。
  3. 网站和微信转载具体文章后需来信至邮箱operation@jiqizhixin.com说明,备注转载文章标题、转载的微信号名称和转载日期。
  4. 机器之心只接受如上几种转载方式,其余均视为侵权,如需商业合作请致信bd@jiqizhixin.com。

相关文章

 百度计划新增第二个硅谷人工智能研发机构,张亚勤全面负责领导

百度计划新增第二个硅谷人工智能研发机构,张亚勤全面负责领导

百度首席科学家吴恩达宣布即将离职

百度首席科学家吴恩达宣布即将离职

两年半200亿元!百度向死而生,全力进军人工智能

两年半200亿元!百度向死而生,全力进军人工智能

评论

共有0条评论,点击展开

同步到新浪微博