Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

流利说 AI 刘扬:从教授到「AI 虚拟老师」

Robin.ly 是一个全新的视频内容平台,旨在为广大工程师和研究人员提高对商业,创业,投资,领导力的理解。本期是Robin.ly创始人Alex Ren采访流利说硅谷AI实验室负责人刘扬博士。

以下为采访实录摘要:

Alex: 大家好,我是Alex,是BoomingStar Ventures的管理合伙人,也是Robin.ly的创始人。Robin.ly是一个视频内容平台主要目的是为了提高工程师和研究人员对于AI创业以及leadership方面的理解。我们邀请了很多AI方面的科学家,知名创业者,投资人,以及一些业内leader,来分享他们在这些领域的心得。今天的嘉宾是流利说硅谷AI Lab的负责人,刘扬教授,她将分享在自然语言处理以及conversational AI方面的体会。 刘教授在AI和自然语言处理领域有超过20年的经验,获清华大学本科和硕士学位,后又就读于普渡大学并取得博士学位,并在2011年获得了UT Dallas的终身教授职位。她曾获得NSF Career Award以及Air Force Young Investigator Award等荣誉,并任Google Visiting Scientist及Facebook Research Scientist等职位。2017年,刘教授加入了流利说,担任AI Lab负责人——流利说在2018年9月底成功在纽交所上市。刘教授在普渡读PhD时候的论文是关于语音识别, speech recognition,后在ICSI以及UT Dallas都选择了自然语言处理方向,考虑到当时深度学习和AI并非热门领域,能否介绍下您选择这个方向的初衷?

刘扬:其实我对这个领域的关注,不是从读博士时候开始而是在清华读本科的时候就开始了。1996年在做本科毕业论文时的主题就是中文的自动分词。中文是一个一个的字,并没有词的这个概念。但是无论做语音识别还是自然语言理解,都需要以词作单位,所以当时本科毕业论文做的就是中文自动分词。当时用的最简单的方法就是从左到右,找一个在字典中可以匹配出来的最长的词,或者再加一些统计模型,用一些HMM/隐藏马尔可夫模型,或其他的一些办法来完成。当时主要是为了语音识别,因为语音识别需要language model。从1996年开始,到现在我已经做了20年了。当时在中国从本科一直读到研究生,选择的余地有限。比如,考上清华,在电子系,我们班就是做信息这方面的科学研究,跟模式识别和AI的关系很紧密。当时我所在的组的实验室主要也是做语音识别。所以从本科毕业论文开始,做分词也好,做语音识别也好,以后就很自然的继续做下去。那时候不像现在的本科生,exposed的东西特别多,想想自己对什么东西有兴趣。我们那时候往往是被老师带上了这么一个项目,后来也确实觉得是挺有兴趣,就坚持下来了。

Alex: 坚持下来的原因是觉得课题本身有意思?

刘扬:是的。因为人的语言每天都在用,有很多有趣的现象。举两个例子,比如像我们现在常常用的叫code switching,就是中文和英文夹在一块儿,现在很多双语者都有这个问题,无论做语音识别还是做自然语言理解时都需要处理的一个问题。 平常因为在语言中有挺多类似的有趣现象,做这个研究课题就觉得有很多事情可以做。再举个例子,我的博士论文是做conversational speech,spontaneous speech,人们常常说了一个词,又回去再改一个词,或者再重复一个词,这是一种挺常见的现象,或者有不连贯的这种语句,在语音识别中也是一个挺大的问题,我的 博士论文就研究这个问题。后来也做过处理小孩子的语言现象,或者是有各种语言问题的语言现象,非常有趣。虽然当时这并不是一个热门方向,但无心插柳,这么多年坚持下来,这个领域在过去几年成为了很流行的话题,应该说我的选择不是特别错误:至少见到自己做的东西,或者落地,或者研究领域,都有一个很大的成就。

Alex: 您是什么时候开始接触深度学习并且把深度学习应用到NLP上面的?

刘扬:我对深度学习的接触历程跟整个领域发展阶段大致重合。从2010,2011年开始,Microsoft或者Geoffrey Hinton这些人开始涉猎这一领域。在语音识别中,MSR的语音识别是一个方向。另外还有computer vision那边也见到了很大的一个成就,那时候我还在学校,有点跟着潮流,看到在其他领域都有挺大的发展,就慢慢地把很多原来用传统machine learning做的事情换成用深度学习神经网络来做。当时学校里有一个有趣的现象,学生们因为顺着这个研究的潮流,把原来的东西拿过来用深度学习再做一遍。毕业论文答辩的时候,其他的答辩组成员最常问的问题就是:用这个方法做,在科学方面有什么样的贡献,有什么样的发现,仅仅是因为神经网络流行所以跟风,还是确实解决了一个实实在在的问题?所以当时很多学生都面临这样一个问题,既想从研究方面确实对这个问题有深入的理解,但又想跟上整个大的学术界或者工业界所有人的脚步,想赶上这班车。

Alex: 深度学习很多是drawbox的方法,很难去追究它的成本?

刘扬:对,或者说对这个问题的理解。大家现在都强调这个模型的interpretability,你到底有什么样的解释。即使是Google,比如说search这个问题,要不要用深度学习最后去做这个ranking?系统有时候需要解释,一个query处理得好或者处理得不好,要如何去修改。

Alex:2015您从学校去Google做了visiting scientist当时是出于什么样的考虑想去看一下工业界在发生什么吗后来您又去了Facebook以及现在的流利说您的心路历程是什么工业界和学术界有什么区别

刘扬:现在回头看,好像从学术界到工业界挺自然,很多教授可能也都是走这么一条路。但当时对我来说主要是一个个人的原因。好多认识我的人都知道,我先生早先在硅谷工作,当时思考这个问题怎么解决。 最后决定利用sabbatical leave的机会,到硅谷这边的工业界试试水,所以去Google是挺自然的一个选择。选择Google的原因是,他们对学校sabbatical leave有一个非常成熟的process的系统,所以可以正常申请,到Google找一个researcher一块儿合作一个project。像Apple,Facebook之类的公司,这方面和Google比起来的话,sabbatical leave流程还不是特别成熟 。

Alex: 您当时主要研究的课题是什么?

刘扬:当时做的还是NLP。最开始是想做跟information extraction比较像的方向,怎么检测文章中发生的事情,有哪些重要的人。去了之后有一些变化,也做了一些跟别的方面的理解相关的内容,但大部分依然用深度学习解决NLP的问题。工业界的research,一方面跟学术界有些像,确实要找一些research的问题,用先进一点的方法去尝试,即使他们在基础框架上比学校有很多好处,但另一个大的差别是在对研究问题的评估上要考虑产品的影响力。 因为毕竟是在产业界,不像在学校在实验室中就可以找一个研究的问题,有可能会解决世界上一些先进的研究上的问题,当然也有可能没有任何实际用处。在工业界进行的研究往往是由实际问题引起的研究,或者他们希望现在做的这些东西将来对公司,对产品,或者对其他现实问题起到很大的影响。

Alex:您在Facebook主要负责什么方面的工作

刘扬:当时去Facebook也考虑了一下究竟应该加入哪个组。 FacebooK研究方面比较红火的就是FAIR,FacebookAI Research。另一方面是Applied Machine Learning,还有就是Facebook其他的产品组,包括Facebook的ads,NewsFeed,search等。因为在Google做研究的经历,感觉去Facebook的FAIR听起来像是挺自然的一个选择。但当时我认为自己已经在学术界呆了很久,在Google也见过科研,去Facebook继续做这种纯的基础科研没有什么改变,但如果直接进入一个全产品的组变化也有点剧烈。后来找了折中的点就是Applied Machine Learning,把一些大家可以用的深度学习 或者是泛泛的机器学习用到Facebook的产品中。当时看到了很多把各种各样的machine learning应用到在Facebook的ads ranking,feed ranking等产品中,以这样的方式实现了AI落地的应用。

Alex: 您进一步加入流利说的时候,是因为本身的教育背景所以选择了流利说的英语教学这个方向么?出于哪些考虑?

刘扬:有好几点原因。一方面,我相当于是做教育出身,虽然教育跟我们现在做的教育不太一样,但是从情怀讲起来这个还是相关的。另外一方面,是因为跟现在这个公司的创始人原本认识,对这个公司和这个行业比较关注。最后就是因为跟自己这么多年做的语音识别自然语言理解相关,语言学习是这些研究的一个自然的落地方向。很多业内人士都是在考虑如何将AI和机器学习进行具体应用,第一个能想到的就是教语言,学语言,所以这是特别自然的一个应用。

Alex: 有一个产品叫“雅思流利说”,应该也是你们的一个主打的收费产品。像这种国际型的人语标准化水平测试,最大的问题就是如何保证打分的准确性,您觉得你们在这方面有什么技术优势?

刘扬:这其实是一个挺复杂的技术问题。 如果大家参加过托福或者雅思考试就知道,口语考试是给一道题,要求应试者讲半分钟或者一分钟来回答,比如说对动物园有什么看法,对现在的一些政治问题有什么样的看法,一般是有一些agree或者disagree这样明显的性质。或者托福的考官要对这个人说的话进行打分。这个过程是用语言/speech回答了问题,如果要对他/她打分,首先要求这个系统能够做语音识别,我先要知道都讲了什么,所以语言识别是第一步。然后有了语言识别的结果之后,要对学生说的内容进行打分,进行理解。这个里边要考虑的就是他/她的词汇怎么样,语法怎么样,句与句之间的连贯性怎么样,整个篇章/段落的观点表达得合理不合理。所以整个系统看,从语音识别一直到自然语言处理里面包括的点就非常多--从词汇到特别highlevel的段落--篇章都要考虑。就连第一个问题语言识别,也不简单。不仅有中国人的口音还因为这是一个即兴的演讲过程。 会涉及到讲话时候的改正,比如一个词说到一半又把这个句子从头开始说了一遍,这对于语言识别来说都是特别特别难的问题。另外中国人讲英语,有各种语法问题,用词不合适的问题。对于声学模型,语言模型来说都特别困难。所以第一步语言识别就已经不容易了,识别出来的这些话可能有很多错误已经包括在里面了。第二步再做自然语音处理的时候要看语法错误,用词错误,连贯性等,依然是很难的问题。当然,这些所有的问题现在都用机器学习做过,其中一些component是用的深度学习,有一些就是传统的machine learning。

最后回到系统打分,雅思考试得了5分,6分还是7分,能跟考官打的分之间的correlation应特别高。这需要通过机器学习的一些方法实现——如果机器已经见过若干人的雅思或者托福口语考试分数,我又见过一些考官打的分,就可以学习什么样的分能跟人打的分相似。所以也相当于是machine learning。我们现在这个系统欧洲或者雅思的官方很认可,打分确实跟考官基本一致,所以现在“雅思流利说”的产品,有很多人用它去练习,希望花一两个月的时间把自己的考试成绩从5分提到6分,从6分提到7分。

Alex: 目前市场上语言学习的产品较多,很多公司声称自己有AI技术,你们在技术上希望怎么保持优势?

刘扬: 希望把AI应用到公司产品的各个components上,我们要保持在语音识别技术上最领先的地位, 在NLP各个方面同时要保持领先技术,这只是从纯技术这看。要保证公司整个产品都处于领先,除了技术还包括其他,可能比技术占的比例更大的,比如公司产品内容,整个UI design,要使学生能够更喜欢这个产品的要素。刚才提到了一个技术优势,像我刚才说的,识别中国人的语音不是那么容易,中国人的发音,标准音 “I”,可能被不同的人讲出来,有南方口音有北方口音,但都不是英语中所谓的标准音。原来在做传统的语音识别的时候,有声学模型,有语言模型,还有一个叫词典/字典。这个东西要告诉我们这里有一个词,它的发音是什么,这个Robin是要念成r-o-bin这个音吗?但是对中国人来讲,这个音可能念得不是那么准,我如果想用一个字典来把中国人可能读的音都表示出来,不是那么容易的一件事。

深度学习中无论做语音识别还是做NLP,都有一个端到端的学习,End-to-end的体系。这个系统里 没有我们刚才说的声学模型,语言模型,和词典,基本就是一个系统把所有需要包括的东西都包括其中。我们现在也在做这方面的研究,中国人可能读这个音会有3种,5种,10种不同的读音。如果一个End-to-end system能够自动学习中国人发英语这个词的发音,它的这个声学模型依次去建模,就是比较理想的一个状态。我们前几天刚刚提交了iCAST的一个论文,同时放在了Arxiv上,表明这个方面的尝试很成功。现在初步的结果跟传统的结果差不多。但是因为系统简化很多,在public的一个English的dataset中,我们的结果基本上是全世界最好的。所以公司在整个AI,从语音到语言,各个方面都还是想保持技术上的领先性 。

Alex: 您认为教育希望实现全面的因材施教,那这里边最大的技术难题是什么?您刚才提到了语音识别,除此之外是不是还有一些数据采集,产品定位,UI/UX,或者说另外一些非技术困难?你们现在最关心的问题或者说最大的难题有哪些?

刘扬:做 “AI+教育” 这个领域,进行personalization是特别重要的一个课题。就像因材施教,这个是在传统的教室中无法实现的,因为一个老师要教30个人,100个人。现在因为每个人都有一个app,希望每个人都可以针对自己的情况去学习。这中间的难点不是AI的难点,是想怎么把用户各个方面的行为给model出来,才能够真正去因材施教。并非只是语音语法这些知识的掌握,更多是行为层面。比如有些人需要老师天天督促学习,另一些人需要老师去鼓励,还有些人是需要老师批评,所以我说的是这方面针对用户的model,或者建模,使得确实能做到personalization。比如,做题容易放弃,或者是需要什么激励才能继续学习下去。我要做强化学习,就要把这个人的所有data point都考虑,最后看怎么用最合适的reward去使teaching更有效,这些都是现在还在尝试中。

刘扬现场讲述流利说技术难题

Alex: 数据采集本来就是个难题了——

刘扬:对,要考虑究竟哪些data point最合适。

Alex: 用类似测评的方法吗?

刘扬:对,测评是一方面。但是很多东西不是通过一个简单的测评就知道做错题目背后的原因 。究竟只是有一个语法没掌握,一个单词发音不正确,还是有其他各方面的原因,那些东西可能是我所说的技术上面的难度——但不是AI这方面的技术。另一个非技术方面的难题是教育本身,如果这是一个做游戏的公司,客户黏性会很高,今天用了这个产品,明天还继续用; 但是教育不是。不是人人都能留在app上,天天都去学习。像刚才提到的雅思考试,也许下个月要考雅思或者再过两个月或一年出国,在这个特别明确的目标下,可能就会去用产品。但只是为了提高自身水平,想学点英语,没有明确目标,就很难让每个人都特别有engagement留在app上,使得他/她每天去学习。公司现在做的一些事情,就是企图做一些social方面的东西使得产品与用户的粘合性更好,或者做一些其他方面的尝试——我们有督学,促学性质的老师天天提醒你,或者建一个群,使得大家能够更motivated的去学习。但究竟怎么是最有效的方式,还需要摸索。

Alex: 记得微软亚院的副院长周明讲过,在认知和语言处理方面,一个很大的因素是不像感知——它还需要一些UI/UX的配合。一个产品UI/UX做得好,用户更愿意engage,才能搜集到更多数据,做更好的模型。您从技术到产品过渡的过程中遇到过类似的问题,怎么能够让您的好技术跟产品很好的嫁接在一起?

刘扬:这属于很多不是做纯技术的人可以解决得比较好的一个问题。比如说AI core的技术在里面,但是需要把它给包装成用户都喜欢用的产品,里面就需要很多像UI/UX或者内容的东西。即使能够识别语言,能够知道语法错误,但怎么把它变成一个每个人都特别适合用的产品——就需要结合合适的内容,还有产品各方面的这几。我们这边有两个人是做内容,每天在考虑怎么去教用户,即使是同样的语法点或者说一个词,要用什么样方式教给用户。这里面有一些动画的设计,有一些内容/topic方面的设计,整体属于大的产品设计。

Alex: 有人把自然语言处理的问题分成了五类比如classificationmatchingtranslationstructure prediction以及sequential decision process深度学习现在用在这些领域都取得了很大的进展对,但是还不完美的地方。您认为深度学习在这五个领域都进行到了什么地步了?还有什么问题是比较难的问题?

刘扬:五个问题中最难的是最后一个问题 。classification是人们比较容易理解的问题。比如一段文字,像做classification的这个class可以根据不同的场景去做。有的人是关心,这个人对这篇review(的评价)是正面还是负面,就是评价归类;也可能是做主题归类,一个新闻,识别出是政治,鱼类还是金融或者其他,就是主题归类。这是standard machine learning的问题,传统上有各种各样的machine learning的分类器,从以前特别流行的SVM到最大熵模型,在NLP上面都比较有效。现在用深度学习跟原来的方法没有实质性的变化,但是因为现在的方法简化了很多,原来传统的分类器往往是需要有人去设计feature——

Alex:Feature Engineering

刘扬对,这方面的工作特别多。如果要做positive/negative sentiment analysis,就要设计个词是正面或负面,要找一些feature。如果做topic,要去做跟这个相关的feature engineering。现在的深度学习就是embedding进去,模型自然就学到了,神经网络里面每一层都展示了不同的东西,最重要的就是系统简化了。NLP不像speech recognization或者computer vision的改进特别大。深度学习在NLP上面没有翻天覆地的变化。

Alex:最早的深度学习是用在语言/speech上面的

刘扬对,用在speech上面,我指的NLP是传统的textbased的NLP。当然也可能问题是,text本来就是一个个符号化这个token,但演讲或者视觉本身有连续性的特征,深度学习 也许更适合。除了classification,还有一个是sequential。一句话,要把这里面我想要找出的东西找出来,一个问题就information extraction,或者named-entity recognition。一句话我要找出来,这里面有一个实体是表示姓名,可能是人名,还有一个表示餐厅,地点的名字,可以把它算成是sequence labeling 。一串的sequence其中有几个是想找的有趣或者关注的 。传统上的模型叫HMM,或者CNF,现在都用深度学习取代了,就是RNN,LSTM这些性质的模型,表现很好。对刚才说的classification的问题,也是省了很多feature engineering的问题。翻译是第三类问题,现在基本上已经代替了传统翻译用的phrase-based translation的系统,基本上现在Facebook, Google,Microsoft等所有的公司都在用不同的深度学习,大家在框架上是稍微有一点点差别,但都是基于深度学习的翻译体系。这是业界公认有效的一个体系。最后的一个问题就是sequential decision process,不管是深度学习还是传统的machine learning都还没有解决这个问题。每天跟Siri或者Alexa讲话都是multi-term conversation,我们往往说几句话就意识到,这个系统完全不行。一句话,有时候它还能回答。一句话如果让它做classification,它知道问的是哪一个问题——要找一个人还是问一个地点,这是简单的可以回到份内的问题,或者回到matching的问题——在一个很大的数据库中可以找到类似的答案,但是如果需要建模个人的对话,从第一句话到第二句话,到第三句话,还有你我分别说了什么,这个整体的谈话历史的构建,暂时还没有特别好的解决方法。

Alex: 您未来三五年的工作方向是什么?

刘扬:像我刚才说的,公司还是想做AI在教育方面的应用。短期来看还是语言学习,将来这个教育能够扩展到哪些领域,现在还不是特别确定。但即使从语言学习这个方面已经很多事情需要做,把AI做好,从语言识别自然语言理解自然语言理解包括方方面面,从词到语法,到语义,再加上对整个世界各种common sense的knowledge都要model,使老师能够有效的去教学生。加上刚才提及的,要对学生各种各样的行为建模,使他们能更好的personalized learning。在未来一到三年,要做中国人的语言,也可能包括其他语言,对不同年龄层——成人,儿童的英语——进行建模,不是件特别容易的事情。

Alex: 今天听了刘教授对自然语言处理技术的一些分析,以及她对于流利说如何把技术利用在教育领域的感想,受益匪浅 。同时也了解到刘教授从一个顶尖科研人员到涉足产品技术,帮助AI应用,以及成为工程师的职业转变。希望对大家有所启发。谢谢刘教授!

刘扬:谢谢!

Robinly
Robinly

Robinly团队坐标硅谷,从创业、领导力和人工智能三个角度去剖析成功创业者、高科技领导者、人工智能科学家和知名投资人的职业养成过程和他们对于这些领域的观点,我们力求追本溯源,为广大工程师、研究者提供一手的职业学习内容。

http://www.robin.ly
专栏二维码
产业英语流利说NLP语音识别模式识别深度学习机器学习语言模型强化学习
1
相关数据
来也科技机构

来也科技是中国乃至全球的智能自动化领军品牌,为客户提供变革性的智能自动化解决方案,提升组织生产力和办公效率,释放员工潜力,助力政企实现智能时代的人机协同。 来也科技的产品是一套智能自动化平台,包含机器人流程自动化(RPA)、智能文档处理(IDP)、对话式AI(Conversational AI)等。基于这一平台,能够根据客户需要,构造各种不同类型的数字化劳动力,实现业务流程的自动化,全面提升业务效率。

www.laiye.com/
周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

最大熵模型技术

最大熵原理是概率模型学习的一个准则:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。 应用最大熵原理得到的模型就是最大熵模型。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

马尔可夫模型技术

「马尔可夫模型」是指基于马尔可夫性质的模型,其假设一个给定过程的未来状态仅取决于当前状态。根据系统状态是否完全可被观测以及系统是自动的还是受控的,可以将常见的马尔可夫模型分成四种:马尔可夫链、隐马尔可夫模型(HMM)、马尔可夫决策过程(MDP)和部分可观测马尔可夫决策过程(POMDP)。另外还有马尔可夫随机场(MRF)和马尔可夫链蒙特卡洛(MCMC)这两个模型也常常被用于近似和预测。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

语言识别技术

在自然语言处理中,语言识别或语言猜测是确定给定内容所使用的自然语言的问题。针对该问题的计算方法被视为文本分类的特例,并用各种统计方法解决。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

暂无评论
暂无评论~