语言的分歧是使人类大家庭破裂、分化成敌对阵营的唯一原因,或至少是主要原因。
——语言学家柴门霍夫
文字,是人类为了表达信息而创建的一套符号系统。文字的使用,使人类知识更新的速度产生了翻天覆地的变化,人类通过文字来表达信息、交换信息,一代一代不断积累、升级自己对世界的认知,从而进一步改造世界。其他动物可能比人类身体更强壮、块头更高大、嗅觉更敏锐、听觉更灵敏,视觉更清晰,甚至部分动物也会制造和使用工具。但它们无一例外,都没有创造和使用文字的能力,因此,在进化的漫漫千万年中它们都无法积聚充分的认识世界的知识和改造世界的能力。
文字就像魔法一样,使得柔弱的人类拥有了不断迭代、增强的智慧。但是,使用不同的文字,宛如“鸡同鸭讲”,也造成了人类之间信息甚至文明的隔阂,极大得阻碍了人类社会的和谐发展。
世界上一共有多少种人类语言?
专家们的估计是4000-8000种。德国出版的《语言学及语言交际工具问题手册》提供了比较具体的数字:5561种,其中约2000种有书面文字。
在世界各国,文字的创建、演变、合并、消亡一直都在进行中。比如秦王朝统一六国后,进行的轰轰烈烈的“书同文、车同轨”运动。秦统一六国前,诸侯国各自为政,文字的形体极其紊乱。给政令的推行和文化交流造成了严重障碍。因此在统一六国后,以秦国文字为基础,参照六国文字,创造出一种形体匀圆齐整、笔画简略的新文字,称为“秦篆”,又称“小篆”,作为官方规范文字,同时废除其他异体字。下图的七“马”归一,就是齐楚燕韩赵魏秦的文字统一的缩影。
秦始皇用行政力量搞“书同文”成功了,但另外一个忧国忧民的理想主义学者却没这么好运。
这位是波兰籍犹太人,语言学家柴门霍夫。在童年时代,为了人类和平,创建国际语的伟大理想就在他头脑里产生了。他曾说:“在比亚利斯托克,居民由四种不同的成分构成:俄罗斯人、波兰人,日尔曼人和犹太人。每种人都讲着各自的语言,相互关系不友好。在这样的城里,具有敏感天性的人更易感受到语言的隔阂带来的极大不幸,语言的分歧是使人类大家庭破裂、分化成敌对阵营的唯一原因,或至少是主要原因。是大家把我培养成了一个理想主义者,是大家教我认识到所有的人都是亲兄弟。然而,在大街上,在庭院里,到处都让我感到,真正含义的人是不存在的,只有俄罗斯人、波兰人、日尔曼人,犹太人等等”。
最终,他耗尽毕生心血创造了世界语(Esperanto,希望之语),希望这门简单易学的人造语言成为普世语言,用以促进交流并帮助世界各地的人民了解他国的文化,但很可惜,目前全球仅有两百万人在使用世界语。
进入20世纪60年代后,伴随着通信、计算等新一代科学技术的飞速发展,全球化贸易、科学、技术和文化交流日益增强,人类开始一步一步迈向信息社会、智能社会,不同国家或地区、不同族群和不同文化之间的联系越来越紧密。人类开始意识到,在全球化的今天,语言不通成为了人们交流的主要障碍之一,也成为了一个亟待解决的问题。既然逆天而创的世界语难以成功,因此我们需要寻求其他桥梁来跨越这个障碍。
人们首先想到的,就是最直接的办法——人工翻译。实际上,人类历史上很早就出现了翻译,公元前2000多年,吉尔伽美什的苏美尔史诗就被部分翻译成当时的西南亚语言;公元前196年的罗赛塔石碑(Rosetta Stone),上面同时使用了古埃及文、古希腊文以及当地通俗文字,来记载古埃及国王托勒密五世登基的诏书。公元629年(贞观3年)开始,我国著名的大唐高僧玄奘和尚远赴印度取经75部,总计1335卷,并从梵文译为古汉语。
但是,依赖人的传统翻译很难快速翻译汹涌澎湃的资料。幸运的是,机器翻译的发展让我们看到了曙光。但机器翻译的发展绝非一帆风顺,甚至可以说是跌宕起伏、一波三折。
机器翻译的思想由来已久,约500年前,著名数学家笛卡尔提出了一种在统一的数字代码基础上编写字典的理念,不同语言中的相同思想共享一个符号,并与莱布尼兹等人试图来实现。在该思想的影响下,维尔金斯在1668中提出的中介语。中介语的设计试图将世界上所有的概念加以分类和编码,有规律地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。
随后的时间,又有不少先驱为这一目标探索奋斗,包括法国、前苏联科学家们,但都无疾而终。
01
基于规则的机器翻译
机器翻译第一个被认可的实际研究项目出现于冷战背景下。1949年,资讯理论研究者WarrenWeave正式提出了机器翻译的概念。1954年,IBM与美国乔治敦大学合作公布了世界上第一台翻译机IBM-701。它能够将俄语翻译为英文,虽然身躯巨大,事实上它里面只内建了6条文法转换规则,以及250个单字。但即使如此,这仍是技术的重大突破,那时人类开始觉得应该很快就能将语言的高墙打破。实验以每秒打印两行半的惊人速度,成功将约60句俄文自动翻译成英文,被视为机器翻译可行的开端。
随后,美苏两个超级大国出于对军事、政治和经济目的,均投入巨资来进行机器翻译研究——为此来获取更多敌方的情报。同时,欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视。中国早在1956年就把机器翻译研究列入了全国科学工作发展规划。1957年,中国科学院语言研究所与计算技术研究所合作开展了俄汉机器翻译试验,翻译了9种不同类型的句子。
当时,人们对机器翻译的高度期待和乐观主义情绪高涨,但是低估了问题的难度!尤其是自然语言翻译本身的复杂性及当时计算机软硬件系统的局限性。不久,人们失望的看到,各家机器翻译的效果都与期望相差甚远。泡沫很快要被刺破了。
1964年,美国科学院成立了语言自动处理咨询委员会。两年后,在委员会提出的报告中认为机器翻译代价昂贵,准确率低,速度慢于人工翻译,未来也不会达到人工翻译质量。结论就是给机器翻译的研究直接判了死刑,认为完全不值得继续投入。在接下来的十来年中,机器翻译研究从迅速跌入谷底,研究几乎完全停滞。
进入20世纪70年代,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,人们迫切地需要计算机来从事翻译工作。
这时候,现代语言之父乔姆斯基(Chomsky)的“转换生成语法”产生了深远影响力,学者们意识到,要想实现好的翻译效果,必须在理解语言的基础上进行翻译,从理解句法结构上下功夫。有了新思想信念的加持,再加上计算机软硬件系统飞速地发展,基于语法规则的机器翻译研究开始如火如荼地展开,相关技术、产品不断涌现。
但很快,基于规则的机器翻译就遇到了瓶颈。纯靠人工编纂、维护的规则很难全面、准确覆盖人类繁杂、凌乱、不断演化的语言现实,而且可拓展性很差。译文的准确率虽有进步,但依然达不到可用的预期。
自20世纪80年代开始,研究人员逐渐开始数据驱动的机器翻译方法。1980年,Martin Kay提出了翻译记忆方法,其基本思想在翻译新句子时从已经翻译好的老句子中找出相似部分来辅助新句翻译。1984年,长尾真(MakotoNagao)提出基于实例的机器翻译方法,它从实例库中提取翻译知识,通过增、删、改、替换等操作完成翻译。这些方法,在实践中都得以广泛应用。
02
统计机器翻译20世纪80年代末起,基于数据和算法的统计学习方法在理论和应用层面都取得了飞速进展。极端的一个例子是,首个将统计模型引入语音识别和语言处理的现代语音识别和自然语言处理研究的先驱Frederick Jelinek曾有过如此令人惊讶的言论:
每当我开除一个语言学家,语音识别系统就更准确了。
于是,在基于规则的机器翻译受挫后,学者们开始全面转型统计机器翻译。标志性事件是,1990年在芬兰赫尔辛基召开的第13届国际计算语言学大会,会上提出了处理大规模真实文本的战略任务,开启了语言计算的一个新的历史阶段——基于大规模语料库的统计自然语言处理。
基于词的统计机器翻译模型处理的单元较小,后来逐渐发展起来的基于短语的方法成为统计机器翻译的主流工作。研究人员开始基于大规模的语料对照数据,构建模型,训练优化目标,自动化测评效果。这首次使得机器翻译趋于流程化,从而上了可以快速迭代的快车道。
具体地,Och在2003提出的基于最大熵的对数—线性模型和参数最小错误训练方法促使统计机器翻译方法能够将多种不同的特征函数融合进机器翻译模型中,并且自动学习它们各自的特征权重,使得翻译性能显著超越了其他传统机器翻译方法。此外,自动评测指标 BLEU的提出不仅避免了人工评价成本昂贵的弊端,而且可以直接成为模型优化的目标,极大地提高了统计机器翻译系统模型训练、迭代、更新的效率。
统计机器翻译方法的特点是几乎完全依赖对大规模双语语料库的自动学习、自动构造机器翻译系统。这种方法具有广泛的一般性,与具体语种无关,与语法细节无关,与语言的内容无关,自此也不再需要人工规则集。一些研究机构不断先后开源机器翻译系统,以促进学术研究,其中比较著名的是约翰霍普金斯大学教授,Philipp Koehn团队开发的Moses系统(http://www.statmt.org/moses/),常被作为学术论文中的对比基线。
21世纪初期开始,借助于互联网的发展,统计机器翻译系统逐渐从2B、2G走向全世界个体的2C。以谷歌、微软为代表的科研机构和企业均相继成立机器翻译团队并相继发布了能够支持世界上几十种、几百种常用语言的互联网机器翻译系统,迅速普及了机器翻译的应用场景,极大地提高了人们使用机器翻译的便利性。
03
神经网络机器翻译随着深度学习的迅猛发展,以及在语音、图像识别领域取得巨大突破,越来越多的自然语言处理问题也开始采用深度学习技术。研究人员逐渐放弃了统计机器翻译框架中各子模型独立计算的模式,提出了端到端(end-to-end,句子到句子)的神经机器翻译模型架构。该架构由编码器和解码器两部分组成,其中编码器负责将源语言句子编码成一个实数值向量,然后解码器基于该向量解码出目标译文。
机器翻译本质上是序列到序列(sequenceto sequence)问题的一个特例,即源语言句子(源语言的词序列)到目标语言句子(目标语言的词序列)。Sutskever等在2014提出了基于循环神经网络(recurrent neuralnetwork, RNN)的编码器-解码器(encoder-decoder)架构,并用于序列到序列学习。他们使用一个循环神经网络将源语句中的词序列编码为一个高维向量,然后通过一个解码器循环神经网络将此向量解码为目标语句的词序列。他们将此模型应用于翻译任务,并在英法翻译任务上达到了媲美传统的统计机器翻译的效果,由此掀起了神经网络机器翻译的热潮。
2016年9月30日,Google发布了新版神经机器翻译(GNMT)系统,通过对维基百科和新闻网站选取的语句的测试,相比基于短语的统计翻译能减少55%到85%的翻译错误,在中英文翻译人工测评的准确率高达80%左右。面对机器的强悍,翻译从业人员们首次感受到了寒意,有翻译员甚至这样形容:
作为一名翻译员,看到这个新闻的时候,我理解了18世纪纺织工人看到蒸汽机时的忧虑与恐惧。
但机器翻译进化的脚步并没有停下来,随着注意力机制被引入,机器翻译的效果又有了飞速的提升。2017年以来,机器翻译人员抛弃了传统的RNN、CNN结构,采用完全基于注意力机制的Transformer模型,在效果、训练速度、性能等多个维度上都碾压之前所有模型。
但是,神经网络机器翻译依旧存在不少待解决的重要问题,包括:
海量数据依赖:效果优异的翻译模型的训练普遍需要于上千万条平行语料,而现实中除了少量世界级大语种之间,很难有如此海量的语料。如何让模型学习少量的数据或者单边语料就能达到较好的效果是当前最亟待解决的问题。
易受噪音影响:当前模型非常容易受噪音的影响,我们在实际训练中发现,引入20%左右的低质量语料(比如意译味较浓的字幕翻译),就能使翻译效果迅速下降。如果训练模型能更稳健,那么可用的语料数量将大大提高。
专业领域翻译:在细分的专业领域内(比如医疗),专业语料本身的量会非常稀少,同时存在大量的专业词汇没有出现在训练语料中。如果能利用大量的普通语料和少量的专业语料来建立准确的专业领域机器翻译系统,那么机器翻译的应用场景将不仅仅局限于日常新闻领域,真正突破不同语言国家之间的文化、科技藩篱。
本篇主要讲述了机器翻译的历史发展,在下篇中,我们将分享机器翻译系统的理论算法和技术实践,敬请期待。
参考文献:
李沐、刘树杰、张冬冬、周明,机器翻译,高等教育出版社·人工智能丛书,2018。 赵申剑,字符级神经网络机器翻译,上海交通大学硕士毕业论文,2018年。 Philipp Koehn, Franz J. Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of NAACL 2003. Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of ACL 2003. David Chiang. 2007. Hierarchical Phrase-Based Translation. Computational Linguistics. Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS 2014. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR 2015. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All You Need. In Proceedings of NIPS 2017.