以下为采访实录摘要:
Alex: 大家好,我是Alex,是BoomingStar Ventures的管理合伙人,也是Robin.ly的创始人。Robin.ly是一个视频内容平台,主要目的是为了提高工程师和研究人员对于AI,创业以及leadership方面的理解。我们邀请了很多AI方面的科学家,知名创业者,投资人,以及一些业内leader,来分享他们在这些领域的心得。今天的嘉宾是流利说硅谷AI Lab的负责人,刘扬教授,她将分享在自然语言处理以及conversational AI方面的体会。 刘教授在AI和自然语言处理领域有超过20年的经验,获清华大学本科和硕士学位,后又就读于普渡大学并取得博士学位,并在2011年获得了UT Dallas的终身教授职位。她曾获得NSF Career Award以及Air Force Young Investigator Award等荣誉,并任Google Visiting Scientist及Facebook Research Scientist等职位。2017年,刘教授加入了流利说,担任AI Lab负责人——流利说在2018年9月底成功在纽交所上市。刘教授在普渡读PhD时候的论文是关于语音识别, speech recognition,后在ICSI以及UT Dallas都选择了自然语言处理方向,考虑到当时深度学习和AI并非热门领域,能否介绍下您选择这个方向的初衷?
刘扬:其实我对这个领域的关注,不是从读博士时候开始而是在清华读本科的时候就开始了。1996年在做本科毕业论文时的主题就是中文的自动分词。中文是一个一个的字,并没有词的这个概念。但是无论做语音识别还是自然语言理解,都需要以词作单位,所以当时本科毕业论文做的就是中文自动分词。当时用的最简单的方法就是从左到右,找一个在字典中可以匹配出来的最长的词,或者再加一些统计模型,用一些HMM/隐藏马尔可夫模型,或其他的一些办法来完成。当时主要是为了语音识别,因为语音识别需要language model。从1996年开始,到现在我已经做了20年了。当时在中国从本科一直读到研究生,选择的余地有限。比如,考上清华,在电子系,我们班就是做信息这方面的科学研究,跟模式识别和AI的关系很紧密。当时我所在的组的实验室主要也是做语音识别。所以从本科毕业论文开始,做分词也好,做语音识别也好,以后就很自然的继续做下去。那时候不像现在的本科生,exposed的东西特别多,想想自己对什么东西有兴趣。我们那时候往往是被老师带上了这么一个项目,后来也确实觉得是挺有兴趣,就坚持下来了。
Alex: 坚持下来的原因是觉得课题本身有意思?
刘扬:是的。因为人的语言每天都在用,有很多有趣的现象。举两个例子,比如像我们现在常常用的叫code switching,就是中文和英文夹在一块儿,现在很多双语者都有这个问题,无论做语音识别还是做自然语言理解时都需要处理的一个问题。 平常因为在语言中有挺多类似的有趣现象,做这个研究课题就觉得有很多事情可以做。再举个例子,我的博士论文是做conversational speech,spontaneous speech,人们常常说了一个词,又回去再改一个词,或者再重复一个词,这是一种挺常见的现象,或者有不连贯的这种语句,在语音识别中也是一个挺大的问题,我的 博士论文就研究这个问题。后来也做过处理小孩子的语言现象,或者是有各种语言问题的语言现象,非常有趣。虽然当时这并不是一个热门方向,但无心插柳,这么多年坚持下来,这个领域在过去几年成为了很流行的话题,应该说我的选择不是特别错误:至少见到自己做的东西,或者落地,或者研究领域,都有一个很大的成就。
Alex: 您是什么时候开始接触深度学习并且把深度学习应用到NLP上面的?
刘扬:我对深度学习的接触历程跟整个领域发展阶段大致重合。从2010,2011年开始,Microsoft或者Geoffrey Hinton这些人开始涉猎这一领域。在语音识别中,MSR的语音识别是一个方向。另外还有computer vision那边也见到了很大的一个成就,那时候我还在学校,有点跟着潮流,看到在其他领域都有挺大的发展,就慢慢地把很多原来用传统machine learning做的事情换成用深度学习,神经网络来做。当时学校里有一个有趣的现象,学生们因为顺着这个研究的潮流,把原来的东西拿过来用深度学习再做一遍。毕业论文答辩的时候,其他的答辩组成员最常问的问题就是:用这个方法做,在科学方面有什么样的贡献,有什么样的发现,仅仅是因为神经网络流行所以跟风,还是确实解决了一个实实在在的问题?所以当时很多学生都面临这样一个问题,既想从研究方面确实对这个问题有深入的理解,但又想跟上整个大的学术界或者工业界所有人的脚步,想赶上这班车。
Alex: 深度学习很多是drawbox的方法,很难去追究它的成本?
刘扬:对,或者说对这个问题的理解。大家现在都强调这个模型的interpretability,你到底有什么样的解释。即使是Google,比如说search这个问题,要不要用深度学习最后去做这个ranking?系统有时候需要解释,一个query处理得好或者处理得不好,要如何去修改。
Alex:2015年,您从学校去Google做了visiting scientist,当时是出于什么样的考虑?想去看一下工业界在发生什么吗?后来您又去了Facebook,以及现在的流利说,您的心路历程是什么?工业界和学术界有什么区别?
刘扬:现在回头看,好像从学术界到工业界挺自然,很多教授可能也都是走这么一条路。但当时对我来说主要是一个个人的原因。好多认识我的人都知道,我先生早先在硅谷工作,当时思考这个问题怎么解决。 最后决定利用sabbatical leave的机会,到硅谷这边的工业界试试水,所以去Google是挺自然的一个选择。选择Google的原因是,他们对学校sabbatical leave有一个非常成熟的process的系统,所以可以正常申请,到Google找一个researcher一块儿合作一个project。像Apple,Facebook之类的公司,这方面和Google比起来的话,sabbatical leave流程还不是特别成熟 。
Alex: 您当时主要研究的课题是什么?
刘扬:当时做的还是NLP。最开始是想做跟information extraction比较像的方向,怎么检测文章中发生的事情,有哪些重要的人。去了之后有一些变化,也做了一些跟别的方面的理解相关的内容,但大部分依然用深度学习解决NLP的问题。工业界的research,一方面跟学术界有些像,确实要找一些research的问题,用先进一点的方法去尝试,即使他们在基础框架上比学校有很多好处,但另一个大的差别是在对研究问题的评估上要考虑产品的影响力。 因为毕竟是在产业界,不像在学校在实验室中就可以找一个研究的问题,有可能会解决世界上一些先进的研究上的问题,当然也有可能没有任何实际用处。在工业界进行的研究往往是由实际问题引起的研究,或者他们希望现在做的这些东西将来对公司,对产品,或者对其他现实问题起到很大的影响。
Alex:您在Facebook主要负责什么方面的工作?
刘扬:当时去Facebook也考虑了一下究竟应该加入哪个组。 FacebooK研究方面比较红火的就是FAIR,FacebookAI Research。另一方面是Applied Machine Learning,还有就是Facebook其他的产品组,包括Facebook的ads,NewsFeed,search等。因为在Google做研究的经历,感觉去Facebook的FAIR听起来像是挺自然的一个选择。但当时我认为自己已经在学术界呆了很久,在Google也见过科研,去Facebook继续做这种纯的基础科研没有什么改变,但如果直接进入一个全产品的组变化也有点剧烈。后来找了折中的点就是Applied Machine Learning,把一些大家可以用的深度学习 或者是泛泛的机器学习用到Facebook的产品中。当时看到了很多把各种各样的machine learning应用到在Facebook的ads ranking,feed ranking等产品中,以这样的方式实现了AI落地的应用。
Alex: 您进一步加入流利说的时候,是因为本身的教育背景所以选择了流利说的英语教学这个方向么?出于哪些考虑?
刘扬:有好几点原因。一方面,我相当于是做教育出身,虽然教育跟我们现在做的教育不太一样,但是从情怀讲起来这个还是相关的。另外一方面,是因为跟现在这个公司的创始人原本认识,对这个公司和这个行业比较关注。最后就是因为跟自己这么多年做的语音识别和自然语言理解相关,语言学习是这些研究的一个自然的落地方向。很多业内人士都是在考虑如何将AI和机器学习进行具体应用,第一个能想到的就是教语言,学语言,所以这是特别自然的一个应用。
Alex: 有一个产品叫“雅思流利说”,应该也是你们的一个主打的收费产品。像这种国际型的人语标准化水平测试,最大的问题就是如何保证打分的准确性,您觉得你们在这方面有什么技术优势?
刘扬:这其实是一个挺复杂的技术问题。 如果大家参加过托福或者雅思考试就知道,口语考试是给一道题,要求应试者讲半分钟或者一分钟来回答,比如说对动物园有什么看法,对现在的一些政治问题有什么样的看法,一般是有一些agree或者disagree这样明显的性质。或者托福的考官要对这个人说的话进行打分。这个过程是用语言/speech回答了问题,如果要对他/她打分,首先要求这个系统能够做语音识别,我先要知道都讲了什么,所以语言识别是第一步。然后有了语言识别的结果之后,要对学生说的内容进行打分,进行理解。这个里边要考虑的就是他/她的词汇怎么样,语法怎么样,句与句之间的连贯性怎么样,整个篇章/段落的观点表达得合理不合理。所以整个系统看,从语音识别一直到自然语言处理里面包括的点就非常多--从词汇到特别highlevel的段落--篇章都要考虑。就连第一个问题语言识别,也不简单。不仅有中国人的口音还因为这是一个即兴的演讲过程。 会涉及到讲话时候的改正,比如一个词说到一半又把这个句子从头开始说了一遍,这对于语言识别来说都是特别特别难的问题。另外中国人讲英语,有各种语法问题,用词不合适的问题。对于声学模型,语言模型来说都特别困难。所以第一步语言识别就已经不容易了,识别出来的这些话可能有很多错误已经包括在里面了。第二步再做自然语音处理的时候要看语法错误,用词错误,连贯性等,依然是很难的问题。当然,这些所有的问题现在都用机器学习做过,其中一些component是用的深度学习,有一些就是传统的machine learning。
最后回到系统打分,雅思考试得了5分,6分还是7分,能跟考官打的分之间的correlation应特别高。这需要通过机器学习的一些方法实现——如果机器已经见过若干人的雅思或者托福口语考试分数,我又见过一些考官打的分,就可以学习什么样的分能跟人打的分相似。所以也相当于是machine learning。我们现在这个系统欧洲或者雅思的官方很认可,打分确实跟考官基本一致,所以现在“雅思流利说”的产品,有很多人用它去练习,希望花一两个月的时间把自己的考试成绩从5分提到6分,从6分提到7分。
Alex: 目前市场上语言学习的产品较多,很多公司声称自己有AI技术,你们在技术上希望怎么保持优势?
刘扬: 希望把AI应用到公司产品的各个components上,我们要保持在语音识别技术上最领先的地位, 在NLP各个方面同时要保持领先技术,这只是从纯技术这看。要保证公司整个产品都处于领先,除了技术还包括其他,可能比技术占的比例更大的,比如公司产品内容,整个UI design,要使学生能够更喜欢这个产品的要素。刚才提到了一个技术优势,像我刚才说的,识别中国人的语音不是那么容易,中国人的发音,标准音 “I”,可能被不同的人讲出来,有南方口音有北方口音,但都不是英语中所谓的标准音。原来在做传统的语音识别的时候,有声学模型,有语言模型,还有一个叫词典/字典。这个东西要告诉我们这里有一个词,它的发音是什么,这个Robin是要念成r-o-bin这个音吗?但是对中国人来讲,这个音可能念得不是那么准,我如果想用一个字典来把中国人可能读的音都表示出来,不是那么容易的一件事。
在深度学习中无论做语音识别还是做NLP,都有一个端到端的学习,End-to-end的体系。这个系统里 没有我们刚才说的声学模型,语言模型,和词典,基本就是一个系统把所有需要包括的东西都包括其中。我们现在也在做这方面的研究,中国人可能读这个音会有3种,5种,10种不同的读音。如果一个End-to-end system能够自动学习中国人发英语这个词的发音,它的这个声学模型依次去建模,就是比较理想的一个状态。我们前几天刚刚提交了iCAST的一个论文,同时放在了Arxiv上,表明这个方面的尝试很成功。现在初步的结果跟传统的结果差不多。但是因为系统简化很多,在public的一个English的dataset中,我们的结果基本上是全世界最好的。所以公司在整个AI,从语音到语言,各个方面都还是想保持技术上的领先性 。
Alex: 您认为教育希望实现全面的因材施教,那这里边最大的技术难题是什么?您刚才提到了语音识别,除此之外是不是还有一些数据采集,产品定位,UI/UX,或者说另外一些非技术困难?你们现在最关心的问题或者说最大的难题有哪些?
刘扬:做 “AI+教育” 这个领域,进行personalization是特别重要的一个课题。就像因材施教,这个是在传统的教室中无法实现的,因为一个老师要教30个人,100个人。现在因为每个人都有一个app,希望每个人都可以针对自己的情况去学习。这中间的难点不是AI的难点,是想怎么把用户各个方面的行为给model出来,才能够真正去因材施教。并非只是语音语法这些知识的掌握,更多是行为层面。比如有些人需要老师天天督促学习,另一些人需要老师去鼓励,还有些人是需要老师批评,所以我说的是这方面针对用户的model,或者建模,使得确实能做到personalization。比如,做题容易放弃,或者是需要什么激励才能继续学习下去。我要做强化学习,就要把这个人的所有data point都考虑,最后看怎么用最合适的reward去使teaching更有效,这些都是现在还在尝试中。
刘扬现场讲述流利说技术难题
Alex: 数据采集本来就是个难题了——
刘扬:对,要考虑究竟哪些data point最合适。
Alex: 用类似测评的方法吗?
刘扬:对,测评是一方面。但是很多东西不是通过一个简单的测评就知道做错题目背后的原因 。究竟只是有一个语法没掌握,一个单词发音不正确,还是有其他各方面的原因,那些东西可能是我所说的技术上面的难度——但不是AI这方面的技术。另一个非技术方面的难题是教育本身,如果这是一个做游戏的公司,客户黏性会很高,今天用了这个产品,明天还继续用; 但是教育不是。不是人人都能留在app上,天天都去学习。像刚才提到的雅思考试,也许下个月要考雅思或者再过两个月或一年出国,在这个特别明确的目标下,可能就会去用产品。但只是为了提高自身水平,想学点英语,没有明确目标,就很难让每个人都特别有engagement留在app上,使得他/她每天去学习。公司现在做的一些事情,就是企图做一些social方面的东西使得产品与用户的粘合性更好,或者做一些其他方面的尝试——我们有督学,促学性质的老师天天提醒你,或者建一个群,使得大家能够更motivated的去学习。但究竟怎么是最有效的方式,还需要摸索。
Alex: 记得微软亚院的副院长周明讲过,在认知和语言处理方面,一个很大的因素是不像感知——它还需要一些UI/UX的配合。一个产品UI/UX做得好,用户更愿意engage,才能搜集到更多数据,做更好的模型。您从技术到产品过渡的过程中遇到过类似的问题,怎么能够让您的好技术跟产品很好的嫁接在一起?
刘扬:这属于很多不是做纯技术的人可以解决得比较好的一个问题。比如说AI core的技术在里面,但是需要把它给包装成用户都喜欢用的产品,里面就需要很多像UI/UX或者内容的东西。即使能够识别语言,能够知道语法错误,但怎么把它变成一个每个人都特别适合用的产品——就需要结合合适的内容,还有产品各方面的这几。我们这边有两个人是做内容,每天在考虑怎么去教用户,即使是同样的语法点或者说一个词,要用什么样方式教给用户。这里面有一些动画的设计,有一些内容/topic方面的设计,整体属于大的产品设计。
Alex: 有人把自然语言处理的问题分成了五类,比如classification,matching,translation,structure prediction,以及sequential decision process。深度学习现在用在这些领域都取得了很大的进展对,但是还不完美的地方。您认为深度学习在这五个领域都进行到了什么地步了?还有什么问题是比较难的问题?
刘扬:五个问题中最难的是最后一个问题 。classification是人们比较容易理解的问题。比如一段文字,像做classification的这个class可以根据不同的场景去做。有的人是关心,这个人对这篇review(的评价)是正面还是负面,就是评价归类;也可能是做主题归类,一个新闻,识别出是政治,鱼类还是金融或者其他,就是主题归类。这是standard machine learning的问题,传统上有各种各样的machine learning的分类器,从以前特别流行的SVM到最大熵模型,在NLP上面都比较有效。现在用深度学习跟原来的方法没有实质性的变化,但是因为现在的方法简化了很多,原来传统的分类器往往是需要有人去设计feature——
Alex:Feature Engineering
刘扬:对,这方面的工作特别多。如果要做positive/negative sentiment analysis,就要设计个词是正面或负面,要找一些feature。如果做topic,要去做跟这个相关的feature engineering。现在的深度学习就是embedding进去,模型自然就学到了,神经网络里面每一层都展示了不同的东西,最重要的就是系统简化了。NLP不像speech recognization或者computer vision的改进特别大。深度学习在NLP上面没有翻天覆地的变化。
Alex:最早的深度学习是用在语言/speech上面的?
刘扬:对,用在speech上面,我指的NLP是传统的textbased的NLP。当然也可能问题是,text本来就是一个个符号化这个token,但演讲或者视觉本身有连续性的特征,深度学习 也许更适合。除了classification,还有一个是sequential。一句话,要把这里面我想要找出的东西找出来,一个问题就information extraction,或者named-entity recognition。一句话我要找出来,这里面有一个实体是表示姓名,可能是人名,还有一个表示餐厅,地点的名字,可以把它算成是sequence labeling 。一串的sequence其中有几个是想找的有趣或者关注的 。传统上的模型叫HMM,或者CNF,现在都用深度学习取代了,就是RNN,LSTM这些性质的模型,表现很好。对刚才说的classification的问题,也是省了很多feature engineering的问题。翻译是第三类问题,现在基本上已经代替了传统翻译用的phrase-based translation的系统,基本上现在Facebook, Google,Microsoft等所有的公司都在用不同的深度学习,大家在框架上是稍微有一点点差别,但都是基于深度学习的翻译体系。这是业界公认有效的一个体系。最后的一个问题就是sequential decision process,不管是深度学习还是传统的machine learning都还没有解决这个问题。每天跟Siri或者Alexa讲话都是multi-term conversation,我们往往说几句话就意识到,这个系统完全不行。一句话,有时候它还能回答。一句话如果让它做classification,它知道问的是哪一个问题——要找一个人还是问一个地点,这是简单的可以回到份内的问题,或者回到matching的问题——在一个很大的数据库中可以找到类似的答案,但是如果需要建模个人的对话,从第一句话到第二句话,到第三句话,还有你我分别说了什么,这个整体的谈话历史的构建,暂时还没有特别好的解决方法。
Alex: 您未来三五年的工作方向是什么?
刘扬:像我刚才说的,公司还是想做AI在教育方面的应用。短期来看还是语言学习,将来这个教育能够扩展到哪些领域,现在还不是特别确定。但即使从语言学习这个方面已经很多事情需要做,把AI做好,从语言识别到自然语言理解。自然语言理解包括方方面面,从词到语法,到语义,再加上对整个世界各种common sense的knowledge都要model,使老师能够有效的去教学生。加上刚才提及的,要对学生各种各样的行为建模,使他们能更好的personalized learning。在未来一到三年,要做中国人的语言,也可能包括其他语言,对不同年龄层——成人,儿童的英语——进行建模,不是件特别容易的事情。
Alex: 今天听了刘教授对自然语言处理技术的一些分析,以及她对于流利说如何把技术利用在教育领域的感想,受益匪浅 。同时也了解到刘教授从一个顶尖科研人员到涉足产品技术,帮助AI应用,以及成为工程师的职业转变。希望对大家有所启发。谢谢刘教授!
刘扬:谢谢!