Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

百分点认知智能实验室出品:机器翻译是如何炼成的(上)

机器翻译作为自然语言处理中最典型的应用,翻译“神器”不断面世,可以说在AI应用领域正当红。那么,机器翻译经历了怎样的开端、泡沫、被判死刑?又怎样冲破藩篱、摒弃语言学,借助神经网络而走红?

语言的分歧是使人类大家庭破裂、分化成敌对阵营的唯一原因,或至少是主要原因。

——语言学家柴门霍夫

文字,是人类为了表达信息而创建的一套符号系统。文字的使用,使人类知识更新的速度产生了翻天覆地的变化,人类通过文字来表达信息、交换信息,一代一代不断积累、升级自己对世界的认知,从而进一步改造世界。其他动物可能比人类身体更强壮、块头更高大、嗅觉更敏锐、听觉更灵敏,视觉更清晰,甚至部分动物也会制造和使用工具。但它们无一例外,都没有创造和使用文字的能力,因此,在进化的漫漫千万年中它们都无法积聚充分的认识世界的知识和改造世界的能力。

文字就像魔法一样,使得柔弱的人类拥有了不断迭代、增强的智慧。但是,使用不同的文字,宛如“鸡同鸭讲”,也造成了人类之间信息甚至文明的隔阂,极大得阻碍了人类社会的和谐发展。

世界上一共有多少种人类语言?

专家们的估计是4000-8000种。德国出版的《语言学及语言交际工具问题手册》提供了比较具体的数字:5561种,其中约2000种有书面文字。

在世界各国,文字的创建、演变、合并、消亡一直都在进行中。比如秦王朝统一六国后,进行的轰轰烈烈的“书同文、车同轨”运动。秦统一六国前,诸侯国各自为政,文字的形体极其紊乱。给政令的推行和文化交流造成了严重障碍。因此在统一六国后,以秦国文字为基础,参照六国文字,创造出一种形体匀圆齐整、笔画简略的新文字,称为“秦篆”,又称“小篆”,作为官方规范文字,同时废除其他异体字。下图的七“马”归一,就是齐楚燕韩赵魏秦的文字统一的缩影。

秦始皇用行政力量搞“书同文”成功了,但另外一个忧国忧民的理想主义学者却没这么好运。

这位是波兰籍犹太人,语言学家柴门霍夫。在童年时代,为了人类和平,创建国际语的伟大理想就在他头脑里产生了。他曾说:“在比亚利斯托克,居民由四种不同的成分构成:俄罗斯人、波兰人,日尔曼人和犹太人。每种人都讲着各自的语言,相互关系不友好。在这样的城里,具有敏感天性的人更易感受到语言的隔阂带来的极大不幸,语言的分歧是使人类大家庭破裂、分化成敌对阵营的唯一原因,或至少是主要原因。是大家把我培养成了一个理想主义者,是大家教我认识到所有的人都是亲兄弟。然而,在大街上,在庭院里,到处都让我感到,真正含义的人是不存在的,只有俄罗斯人、波兰人、日尔曼人,犹太人等等”。

最终,他耗尽毕生心血创造了世界语(Esperanto,希望之语),希望这门简单易学的人造语言成为普世语言,用以促进交流并帮助世界各地的人民了解他国的文化,但很可惜,目前全球仅有两百万人在使用世界语。

进入20世纪60年代后,伴随着通信、计算等新一代科学技术的飞速发展,全球化贸易、科学、技术和文化交流日益增强,人类开始一步一步迈向信息社会、智能社会,不同国家或地区、不同族群和不同文化之间的联系越来越紧密。人类开始意识到,在全球化的今天,语言不通成为了人们交流的主要障碍之一,也成为了一个亟待解决的问题。既然逆天而创的世界语难以成功,因此我们需要寻求其他桥梁来跨越这个障碍。

人们首先想到的,就是最直接的办法——人工翻译。实际上,人类历史上很早就出现了翻译,公元前2000多年,吉尔伽美什的苏美尔史诗就被部分翻译成当时的西南亚语言;公元前196年的罗赛塔石碑(Rosetta Stone),上面同时使用了古埃及文、古希腊文以及当地通俗文字,来记载古埃及国王托勒密五世登基的诏书。公元629年(贞观3年)开始,我国著名的大唐高僧玄奘和尚远赴印度取经75部,总计1335卷,并从梵文译为古汉语。

但是,依赖人的传统翻译很难快速翻译汹涌澎湃的资料。幸运的是,机器翻译的发展让我们看到了曙光。但机器翻译的发展绝非一帆风顺,甚至可以说是跌宕起伏、一波三折。

机器翻译的思想由来已久,约500年前,著名数学家笛卡尔提出了一种在统一的数字代码基础上编写字典的理念,不同语言中的相同思想共享一个符号,并与莱布尼兹等人试图来实现。在该思想的影响下,维尔金斯在1668中提出的中介语。中介语的设计试图将世界上所有的概念加以分类和编码,有规律地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。

随后的时间,又有不少先驱为这一目标探索奋斗,包括法国、前苏联科学家们,但都无疾而终。

01


基于规则的机器翻译

机器翻译第一个被认可的实际研究项目出现于冷战背景下。1949年,资讯理论研究者WarrenWeave正式提出了机器翻译的概念。1954年,IBM与美国乔治敦大学合作公布了世界上第一台翻译机IBM-701。它能够将俄语翻译为英文,虽然身躯巨大,事实上它里面只内建了6条文法转换规则,以及250个单字。但即使如此,这仍是技术的重大突破,那时人类开始觉得应该很快就能将语言的高墙打破。实验以每秒打印两行半的惊人速度,成功将约60句俄文自动翻译成英文,被视为机器翻译可行的开端

随后,美苏两个超级大国出于对军事、政治和经济目的,均投入巨资来进行机器翻译研究——为此来获取更多敌方的情报。同时,欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视。中国早在1956年就把机器翻译研究列入了全国科学工作发展规划。1957年,中国科学院语言研究所与计算技术研究所合作开展了俄汉机器翻译试验,翻译了9种不同类型的句子。

当时,人们对机器翻译的高度期待和乐观主义情绪高涨,但是低估了问题的难度!尤其是自然语言翻译本身的复杂性及当时计算机软硬件系统的局限性。不久,人们失望的看到,各家机器翻译的效果都与期望相差甚远。泡沫很快要被刺破了。

1964年,美国科学院成立了语言自动处理咨询委员会。两年后,在委员会提出的报告中认为机器翻译代价昂贵,准确率低,速度慢于人工翻译,未来也不会达到人工翻译质量。结论就是给机器翻译的研究直接判了死刑,认为完全不值得继续投入。在接下来的十来年中,机器翻译研究从迅速跌入谷底,研究几乎完全停滞。

进入20世纪70年代,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,人们迫切地需要计算机来从事翻译工作。

这时候,现代语言之父乔姆斯基(Chomsky)的“转换生成语法”产生了深远影响力,学者们意识到,要想实现好的翻译效果,必须在理解语言的基础上进行翻译,从理解句法结构上下功夫。有了新思想信念的加持,再加上计算机软硬件系统飞速地发展,基于语法规则的机器翻译研究开始如火如荼地展开,相关技术、产品不断涌现。

但很快,基于规则的机器翻译就遇到了瓶颈。纯靠人工编纂、维护的规则很难全面、准确覆盖人类繁杂、凌乱、不断演化的语言现实,而且可拓展性很差。译文的准确率虽有进步,但依然达不到可用的预期。

自20世纪80年代开始,研究人员逐渐开始数据驱动的机器翻译方法。1980年,Martin Kay提出了翻译记忆方法,其基本思想在翻译新句子时从已经翻译好的老句子中找出相似部分来辅助新句翻译。1984年,长尾真(MakotoNagao)提出基于实例的机器翻译方法,它从实例库中提取翻译知识,通过增、删、改、替换等操作完成翻译。这些方法,在实践中都得以广泛应用。

02

统计机器翻译

20世纪80年代末起,基于数据和算法的统计学习方法在理论和应用层面都取得了飞速进展。极端的一个例子是,首个将统计模型引入语音识别和语言处理的现代语音识别自然语言处理研究的先驱Frederick Jelinek曾有过如此令人惊讶的言论:

每当我开除一个语言学家,语音识别系统就更准确了。

于是,在基于规则的机器翻译受挫后,学者们开始全面转型统计机器翻译。标志性事件是,1990年在芬兰赫尔辛基召开的第13届国际计算语言学大会,会上提出了处理大规模真实文本的战略任务,开启了语言计算的一个新的历史阶段——基于大规模语料库的统计自然语言处理

基于词的统计机器翻译模型处理的单元较小,后来逐渐发展起来的基于短语的方法成为统计机器翻译的主流工作。研究人员开始基于大规模的语料对照数据,构建模型,训练优化目标,自动化测评效果。这首次使得机器翻译趋于流程化,从而上了可以快速迭代的快车道。

具体地,Och在2003提出的基于最大熵的对数—线性模型和参数最小错误训练方法促使统计机器翻译方法能够将多种不同的特征函数融合进机器翻译模型中,并且自动学习它们各自的特征权重,使得翻译性能显著超越了其他传统机器翻译方法。此外,自动评测指标 BLEU的提出不仅避免了人工评价成本昂贵的弊端,而且可以直接成为模型优化的目标,极大地提高了统计机器翻译系统模型训练、迭代、更新的效率。

统计机器翻译方法的特点是几乎完全依赖对大规模双语语料库的自动学习、自动构造机器翻译系统。这种方法具有广泛的一般性,与具体语种无关,与语法细节无关,与语言的内容无关,自此也不再需要人工规则集。一些研究机构不断先后开源机器翻译系统,以促进学术研究,其中比较著名的是约翰霍普金斯大学教授,Philipp Koehn团队开发的Moses系统(http://www.statmt.org/moses/),常被作为学术论文中的对比基线

21世纪初期开始,借助于互联网的发展,统计机器翻译系统逐渐从2B、2G走向全世界个体的2C。以谷歌、微软为代表的科研机构和企业均相继成立机器翻译团队并相继发布了能够支持世界上几十种、几百种常用语言的互联网机器翻译系统,迅速普及了机器翻译的应用场景,极大地提高了人们使用机器翻译的便利性。

03

神经网络机器翻译

随着深度学习的迅猛发展,以及在语音、图像识别领域取得巨大突破,越来越多的自然语言处理问题也开始采用深度学习技术。研究人员逐渐放弃了统计机器翻译框架中各子模型独立计算的模式,提出了端到端(end-to-end,句子到句子)的神经机器翻译模型架构。该架构由编码器和解码器两部分组成,其中编码器负责将源语言句子编码成一个实数值向量,然后解码器基于该向量解码出目标译文。

机器翻译本质上是序列到序列(sequenceto sequence)问题的一个特例,即源语言句子(源语言的词序列)到目标语言句子(目标语言的词序列)。Sutskever等在2014提出了基于循环神经网络(recurrent neuralnetwork, RNN)的编码器-解码器(encoder-decoder)架构,并用于序列到序列学习。他们使用一个循环神经网络将源语句中的词序列编码为一个高维向量,然后通过一个解码器循环神经网络将此向量解码为目标语句的词序列。他们将此模型应用于翻译任务,并在英法翻译任务上达到了媲美传统的统计机器翻译的效果,由此掀起了神经网络机器翻译的热潮。

2016年9月30日,Google发布了新版神经机器翻译(GNMT)系统,通过对维基百科和新闻网站选取的语句的测试,相比基于短语的统计翻译能减少55%到85%的翻译错误,在中英文翻译人工测评的准确率高达80%左右。面对机器的强悍,翻译从业人员们首次感受到了寒意,有翻译员甚至这样形容:

作为一名翻译员,看到这个新闻的时候,我理解了18世纪纺织工人看到蒸汽机时的忧虑与恐惧。

机器翻译进化的脚步并没有停下来,随着注意力机制被引入,机器翻译的效果又有了飞速的提升。2017年以来,机器翻译人员抛弃了传统的RNN、CNN结构,采用完全基于注意力机制的Transformer模型,在效果、训练速度、性能等多个维度上都碾压之前所有模型。

上图是采用了Transformer模型的百分点机器翻译系统的翻译演示案例,从上面的中文和翻译得到的英文来看,效果优秀,基本不用修改。

但是,神经网络机器翻译依旧存在不少待解决的重要问题,包括:

海量数据依赖:效果优异的翻译模型的训练普遍需要于上千万条平行语料,而现实中除了少量世界级大语种之间,很难有如此海量的语料。如何让模型学习少量的数据或者单边语料就能达到较好的效果是当前最亟待解决的问题。

易受噪音影响:当前模型非常容易受噪音的影响,我们在实际训练中发现,引入20%左右的低质量语料(比如意译味较浓的字幕翻译),就能使翻译效果迅速下降。如果训练模型能更稳健,那么可用的语料数量将大大提高。

专业领域翻译:在细分的专业领域内(比如医疗),专业语料本身的量会非常稀少,同时存在大量的专业词汇没有出现在训练语料中。如果能利用大量的普通语料和少量的专业语料来建立准确的专业领域机器翻译系统,那么机器翻译的应用场景将不仅仅局限于日常新闻领域,真正突破不同语言国家之间的文化、科技藩篱。

翻译风格问题:由于训练语料来源广而杂,同一类型的翻译在训练语料中的翻译方法可能由于翻译员的个人偏好而五花八门。因此,在用这些语料训练出来的模型,博采各家之所长,但也部分地博采各家之所短。因此,在用来翻译新的句子的时候,其结果会有很多不可预见性。如何对翻译模型中的知识进行提纯,得到风格统一的翻译模型是非常有挑战性的重要目标。

本篇主要讲述了机器翻译的历史发展,在下篇中,我们将分享机器翻译系统的理论算法和技术实践,敬请期待。

参考文献:

  • 李沐、刘树杰、张冬冬、周明机器翻译,高等教育出版社·人工智能丛书,2018。
  • 赵申剑,字符级神经网络机器翻译,上海交通大学硕士毕业论文,2018年。
  • Philipp Koehn, Franz J. Och, and     Daniel Marcu. 2003. Statistical     Phrase-Based Translation. In Proceedings of NAACL 2003.
  • Franz Josef Och. 2003. Minimum Error Rate Training in     Statistical Machine Translation. In Proceedings of ACL 2003.
  • David Chiang. 2007. Hierarchical Phrase-Based     Translation. Computational Linguistics.
  • Ilya Sutskever, Oriol Vinyals, and     Quoc V. Le. 2014. Sequence     to Sequence Learning with Neural Networks. In Proceedings     of NIPS 2014.
  • Dzmitry Bahdanau, Kyunghyun Cho,     and Yoshua Bengio. 2015. Neural     Machine Translation by Jointly Learning to Align and Translate. In Proceedings     of ICLR 2015.
  • Ashish Vaswani, Noam Shazeer, Niki     Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and     Illia Polosukhin. 2017. Attention     is All You Need. In Proceedings of NIPS 2017.
百分点科技
百分点科技

百分点科技是领先的数据科学基础平台及数据智能应用提供商,以“用数据科学构建更智能的世界”为使命,为企业和政府提供端到端的场景化解决方案。我们会定期与您分享百分点科技在数据科学及数据智能领域的实践经验、心得,以及我们对前沿趋势的洞见。

入门机器翻译
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

李沐人物

李沐,2008年毕业于上海交通大学计算机系,大学期间,曾在微软亚洲研究院担任实习生。2017年博士毕业后,李沐加入亚马逊任AI主任科学家。

Philipp Koehn人物

计算机科学家,在南加州大学获得计算机科学博士学位,现为约翰·霍普金斯大学计算机科学系教授,主要研究兴趣是统计机器翻译。他与Franz Josef Och和Daniel Marcu合著的论文《Statistical phrase-based translation》吸引了机器翻译界的广泛关注,引用量超过1000。

统计自然语言处理技术

基于概率统计领域的理论进行自然语言处理, see NLP

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

基于规则的机器翻译技术

在很长一段时间里(20 世纪 50 年代到 80 年代),机器翻译都是通过研究源语言与目标语言的语言学信息来做的,也就是基于词典和语法生成翻译,这被称为基于规则的机器翻译(RBMT)

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

统计机器翻译技术

随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语文本语料库的分析来生成翻译结果。这种方法被称为统计机器翻译(SMT)

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

序列到序列技术

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

暂无评论
暂无评论~