特邀精选转载

2018/11/06 17:30

沧笙踏歌作者 AI部落联盟来源

百家争鸣|国内外NLP领域学术界和工业界的牛人和团队

本文由机器之心经授权转载自 AI 部落联盟（ID：AI_Tribe），未经授权禁止二次转载。

根据这几年的积累，整理了一份国内外学术界和工业界的牛人和大牛团队，供大家申请硕士、博士、博士后和找工作参考。

学校（排名不分先后）：

哈工大社会计算与信息检索实验室：刘挺老师坐镇，教师包括：秦兵、张宇、车万翔、赵妍妍、刘铭、张伟男、丁效等老师，实验室共7个组，另外王海峰老师也是实验室兼职博导。

哈工大智能技术与自然语言处理实验室：王晓龙老师坐镇，教师包括刘秉权、刘远超、孙承杰等老师

哈工大机器智能与翻译研究室：赵铁军老师坐镇，教师包括杨沐昀、郑德权、徐冰老师等，另外周明老师是实验室兼职博导。

哈工大深圳智能计算研究中心：王晓龙老师坐镇，包括陈清才、汤步洲、徐睿峰、刘滨等老师，实力很强。

哈工大深圳人类语言技术组：徐睿峰老师坐镇，情感原因发现做的比较好。

哈工大另外做NLP的老师包括：关毅、王轩等。

清华大学自然语言处理与社会人文计算实验室：孙茂松老师坐镇，包括刘洋、刘知远等老师。论文发的非常多。

清华大学交互式人工智能（CoAI）课题组：朱小燕老师坐镇，包括黄民烈等老师。Dialogue System做的非常好，论文非常多。

清华大学智能技术与系统国家重点实验室信息检索课题组：马少平老师坐镇，包括张敏、刘奕群等老师。信息检索做的非常好，论文非常多，前段时间刚拿了CIKM唯一的最佳论文（因为一作是学生，跟最佳学生论文合二为一了）。

清华大学另外做NLP的老师还有李涓子、唐杰、朱军等老师，李老师知识图谱做得好，唐老师数据挖掘（尤其是学者画像）做得好，朱老师偏向机器学习和贝叶斯等做的很好。

北京大学计算语言学教育部重点实验室：教师包括：王厚峰、万小军、常宝宝、李素建、孙栩、严睿、穗志方、吴云芳等（包含其他实验室的老师）。万老师、李老师、常老师等发论文很多。

北京大学语言计算与互联网挖掘研究组：万小军老师、孙薇薇老师。万老师主要做自动摘要、文本生成、情感分析与计算等，论文非常多。

中科院NLP组主要集中在自动化所模式识别国家重点实验室下属的中文信息处理研究组，另外计算所有刘群老师组和软件所也有孙乐老师做。具体老师包括刘群、宗成庆、赵军、孙乐、王斌、徐君、张家俊、刘康、韩先培、何世柱等老师。论文非常多。

复旦大学自然语言处理组：黄萱菁、邱锡鹏等老师，发论文很多。

复旦大学知识工场：肖仰华老师知识图谱做的非常好，论文发的很多。

苏州大学自然语言处理组：做机器翻译、情感分析、信息抽取等，论文发的很多。教师包括张民、周国栋、姚建民、李正华、熊得意、李军辉、洪宇、陈文亮等老师。其中张老师、姚老师、李老师都是哈工大毕业的，张老师也是哈工大的兼职博导，论文很多。

东北大学自然语言处理实验室：机器翻译做的非常好，还成立了自己的公司，对外合作很多。姚天顺老师是创始人，朱靖波老师坐镇，教师包括肖桐、任飞亮、张春良等老师。

浙江大学：陈华钧、赵洲等老师，陈老师知识图谱做的很厉害。

中国人民大学：文继荣、赵鑫、徐君、窦志成等老师。文老师现在是院长，之前在MSRA，信息检索非常厉害。

上海交大：赵海老师，主要做机器翻译、句法分析等。

东南大学：漆桂林老师，知识图谱做的很厉害。

大连理工信息检索实验室：林鸿飞老师坐镇，包括杨志豪、王健、张绍武、孙媛媛、张冬瑜、杨亮等老师。主要做信息检索，隐喻、幽默等语料库做的非常好。

西湖大学：张岳老师，之前在新加坡，论文发的非常非常非常多，剑桥2016年统计的全世界发论文的数量好像排第二。

南京大学自然语言处理研究组：包括陈家俊、戴新宇、黄书剑等老师。

天津大学：张鹏老老师，信息检索做的很好。

北京理工大学：黄河燕老师、张华平老师。黄老师是北京理工大学计算机学院院长，主要研究机器翻译，担任好几个副理事长，享受国务院特殊津贴。中科院的自然语言处理工具包就是张老师做的，另外跟刘群老师合作发了不少论文，我之前工作时实习生开发的NER就是借鉴的他的层叠马尔可夫模型而二次开发和优化的。

武汉大学语言与信息研究中心：姬东鸿等老师。

厦门大学智能科学与技术系自然语言处理实验室：包括史晓东等老师，主要做机器翻译、知识图谱、信息抽取等。

山东大学：聂礼强老师，信息检索做的非常好，论文很多。之前在新加坡，新加坡发SIGIR太多了。。。

南开大学：杨征路老师，主要做信息检索。

北京邮电大学：王小捷老师。

北京语言大学：于东老师，主要做机器翻译、人机对话等。

华东师范大学：吴苑斌老师，记得应该是复旦大学黄萱菁老师的学生。

山西大学：李茹老师，山西大学计算机学院副院长。

郑州大学自然语言处理实验室：实验室网页最近打不开了。

黑龙江大学：付国宏、张梅山等老师。

以下是港澳台地区的高校（排名不分先后）：

台湾大学自然语言处理实验室：主要研究方向包括知识图谱、机器翻译、问答、自动摘要、信息检索等，论文非常多。

香港科技大学人类语言技术中心：论文非常多，牛人也不少。

香港中文大学文本挖掘组：主要研究方向包括文本挖掘和信息检索。

澳门大学自然语言处理与中葡翻译实验室：主要做机器翻译，做的非常好，论文也非常多。

香港理工大学社会媒体挖掘组：主要研究方向包括社会影响力建模、社会媒体分析、观点摘要、观点追踪、跨语言情感分析等，这个实验室对外合作很多，比如北大李素建老师、MSRA的韦福如老师等。

国内工业界（排名不分先后）：

百度王海峰老师以及带领的自然语言处理部+百度研究院做NLP的一些组，内部NLPC平台集成了几十个NLP算子，一些算子每天调用量都能上亿次（不要问我为啥知道这么详细，因为15-16年我参与开发过2个算子，被加到开发者组了，经常有群邮件告知各算子的调用情况），几乎涵盖所有的NLP任务，部分技术在百度AI开放平台-全球领先的人工智能服务平台-百度AI开放平台开放API，少量技术在github开源代码；

MSRA周明老师带领的NLC组，组内论文发的非常多，尤其是几个高级研究员、主管研究员；

哈工大和科大讯飞联合实验室：实验室主任是刘挺老师，阅读理解做的非常好；

华为诺亚方舟的刘群老师以及带领的团队；

小米：王斌老师坐镇，王老师翻译的书相信大部分人都看过吧。

今日头条的李航老师；

阿里巴巴、腾讯NLP做的也不少，只是个人感觉都是很多团队在做，比较分散，没有集中到一起。如果有人总结比较好的话，欢迎告知。

其他很多创业公司也有大牛坐镇，只是太多、太分散了，不再赘述，感兴趣的可以私聊。

国外学术界：

麻省理工学院：Regina Barzilay, Tommi S. Jaakkola。

卡内基梅隆大学：Jaime Carbonell, Justine Cassell, William Cohen（主要做信息抽取）, Chris Dyer（主要做机器翻译）, Scott Fahlman,（主要做只是表示和知识推理），Robert Frederking, Eduard Hovy, Alon Lavie, Lori Levin, Brian MacWhinney,（做的比较杂），Teruko Mitamura,（主要做QA），Tom Mitchell, Eric Nyberg，Kemal Oflazer, Carolyn Penstein Rosé,（主要做聊天），Roni Rosenfeld, Noah Smith, Eric Xing。

约翰·霍普金斯大学：Andreas Andreou，Raman Arora，Jason Eisner, Sanjeev Khudanpur, David Yarowsky, Hynek Hermansky，Mark Dredze, Tom Lippincott，Philipp Koehn，Najim Dehak，Ben van Durme。绝对的NLP领域顶级牛校，研究几乎涵盖所有NLP任务，而且做的都非常好，如果非要说主要研究内容的话：句法分析、机器翻译。

普林斯顿大学：Sanjeev Arora，Karthik Narasimhan。

斯坦福大学： Christopher Manning, Daniel Jurafsky, Percy Liang，这几个人不用赘述了吧，实验室做的很广泛，句法分析和词性标注的工具很有名。

哈弗大学：Stuart Shieber，Alexander Rush，主要做MT、自动摘要和文本生成。

剑桥大学：Edward J. Briscoe，Ann Copestake，Simone Teufel，Paula Buttery，Andreas Vlachos，摘要、文本生成、NLU、句法分析、IR做的都不错。

牛津大学：Stephen Pulman，Phil Blunsom（MT非常非常厉害）。

加州大学伯克利分校：Dan Klein（主要做IE和MT）。

伊利诺伊大学香槟分校：Margaret M. Fleck (CS)，Roxana Girju (Linguistics)，Mark Hasegawa-Johnson (ECE)，Julia Hockenmaier (CS)， Dan Roth (CS)，ChengXiang Zhai (CS)。

宾夕法尼亚大学：Mitch Marcus，Dan Roth，Lyle Ungar，Ani Nenkova，Chris Callison-Burch，句法分析做的非常屌，LTAG、Penn Treebank不用过多解释了吧。

芝加哥大学：John Lafferty（CRF发明人，机器翻译做的也不错）, John Goldsmith

哥伦比亚大学：Kathy McKeown, Julia Hirschberg，Owen Rambow。

康奈尔大学：Lillian Lee（主要做SA（情感分析））, Thorsten Joachims（深入学习SVM的话应该知道他）, Claire Cardie, Yoav Artzi。

俄亥俄州立大学（OSU）：Eric Fosler-Lussier(我是因为做对话知道的他), Michael White（主要做NLG）, William Schuler（主要做句法分析和MT）, Micha Elsner, Alan Ritter, Wei Xu（社交媒体）。

匹兹堡大学：Ashley Kevin， Brusilovsky Peter, Lewis Michael。

多伦多大学：Graeme Hirst, Gerald Penn，Frank Rudzic，Suzanne Stevenson，主要做句法分析、语义分析。

麦吉尔大学：Doina Precup，Jackie Chi Kit Cheung，Joelle Pineau， Prakash Panangaden

蒙特利尔大学：Yoshua Bengio，不过多解释。

佐治亚理工：Eric Gilbert（社会计算领域很有名）。

南加州大学：Jerry Hobbs，Ron Artstein，David DeVault，Kallirroi Georgila，Panayiotis (Panos) Georgiou， Andrew Gordon，Jerry Hobbs，Khalil Iskarous，Kevin Knight，Sungbok Lee， Anton Leuski，Jonathan May，Prem Natarajan，MT、IE、关系挖掘、对话做的都不错。

华盛顿大学：Tim Althoff，Jeffrey Bilmes，Yejin Choi，Pedro Domingos，Oren Etzioni， Hannaneh Hajishirzi，Noah Smith，Daniel S. Weld，Luke Zettlemoyer，主要做句法分析、MT、对话、IR等。

爱丁堡大学：Shay Cohen（句法分析），Sharon Goldwater，Kenneth Heafield（MT），Frank Keller（句法分析），Mirella Lapata（NLU、NLG），Adam Lopez，Walid Magdy（IR、DM、社会计算），Rico Sennrich（句法分析、MT），Mark Steedman（对话），Ivan Titov（句法分析、NLU），Bonnie Webber（QA）。

新加坡国立大学：NG Hwee Tou（主要做MT和句法纠错）。

马里兰大学：Philip Resnik, Naomi Feldman，Marine Carpuat,Hal Daumé, 主要做MT和IR。

东北大学：David A. Smith, Byron Wallace, Lu Wang。

加州大学伯克利分校：Dan Klein，主要做NLP和ML交叉研究。

加州大学圣巴巴拉分校：William Wang, 主要做IE（信息抽取）和ML。

加州大学圣克鲁兹分校：Marilyn Walker，主要做dialogue。

纽约市立学院（CUNY）：Martin Chodorow，Liang huang，Andrew Rosenberg，William Sakas，Virginia Teller。

University of Massachusetts Amherst：Andrew McCallum（CRF、主题模型）、Bruce Croft、James Allan（IR做的非常屌）。

纽约大学：Sam Bowman, Kyunghyun Cho，NLU做的非常好。

北卡罗来纳大学教堂山分校（UNC）：Mohit Bansal, Tamara Berg,主要做句法分析、多模态对话。

罗切斯特大学：Len Schubert, James Allen（篇章分析、对话做的很好），Dan Gildea（句法分析、MT）。

谢菲尔德大学：Rob Gaizauskas (Head of Group），Mark Hepple，Lucia Specia（MT很厉害），Mark Stevenson（主要做IR和IE），Yorick Wilks（ACL终身成就奖）。

还有很多学校、很多学术界大佬没整理了，后续再补充吧。另外美国工业界的NLP大牛也很多，比如google、facebook、microsoft、amazon、IBM等公司。

以上就是我这些年的总结，毕竟精力有限，难免挂一漏万。国内学术界、工业界了解较多，国外了解相对较少，很多只是扫过一些学者的论文或者看过他们的主页，如果大家有了解的欢迎交流。谢谢！

本文由机器之心经授权转载自 AI 部落联盟（ID：AI_Tribe），原文链接：https://mp.weixin.qq.com/s/MD2-xMWWXx7rpfWzd5XDxA

产业NLP高校

相关技术

网格搜索模态正则化生成对抗网络超参数优化表征学习 LeNet

所属机构

Mila（Montreal Institute for Learning Algorithms）

来源：个人页面维基百科

韦福如人物

韦福如是微软亚洲研究院机器阅读理解研究的主要负责人、微软亚洲研究院自然语言计算研究组主管研究员。《麻省理工科技评论》中国区35岁以下科技创新35人榜单入选者。

来源：韦福如

唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名，该系统于2006年3月推出，目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

来源：个人页面 Wikipedia

Lillian Lee人物

Lillian Lee是康奈尔大学计算机科学系和信息科学系教授，研究兴趣：自然语言处理、情感分析。

来源：个人主页 Lillian Lee

丹·克莱恩人物

美国计算机科学家，加州大学伯克利分校计算机科学系教授，伯克利自然语言处理组成员。研究重点是自动组织自然语言信息，感兴趣的主题有：无监督语言习得、机器翻译、NLP的高效算法、信息提取、NLP符号方法和统计方法的结合、历史语言学。

来源：个人主页 Dan Klein

邢波人物

卡内基梅隆大学计算机科学学院教授，机器学习系副主任，专攻机器学习、计算生物学和统计方法等方向。他与合作者开发了Petuum平台，利用工作站、分布式计算机、移动设备或嵌入式设备来解决大型机器学习的问题。2016年11月，邢波创立Petuum公司，担任CEO和首席科学家。

来源：个人主页维基百科

초큥현（曹景贤）人物

纽约大学CILVR组，计算机科学和数据科学组助理教授。Facebook AI研究机构（FAIR）研究科学家。

所属机构

Mila（Montreal Institute for Learning Algorithms）

来源：K. Cho

安德鲁·麦卡勒姆人物

Andrew McCallum是马萨诸塞州阿默斯特大学计算机科学系的教授兼研究员。他的主要专业是机器学习，自然语言处理，信息提取，信息整合和社交网络分析。

来源：维基百科

托尔斯滕·乔阿吉姆人物

美国康奈尔大学计算机科学系、信息科学系教授，ACM Fellow、AAAI Fellow、Humboldt Fellow。他与学生和合作者合著的论文曾获得8次最佳论文奖项和4次Test-of-Time奖。Thorsten Joachims的研究主题为机器学习方法和理论、从人类行为数据和隐性反馈中学习、将机器学习技术应用于搜索、推荐、教育和其他人类主导任务。

来源：个人主页

刘挺人物

哈工大人工智能研究院副院长，国内NLP方向领军人物。

来源：百度百科

汤米·雅科拉人物

麻省理工学院电气工程与计算机科学系和数据、系统与社会研究所的Thomas Siebel教授，MIT计算机科学与人工智能实验室成员。研究重点：统计推断和估计、各种现代估计问题的算法分析与设计。应用方面，其工作主要涉及自然语言处理、计算生物学、推荐系统、信息检索。

来源：个人主页

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

Julia技术

Julia 是MIT设计的一个面向科学计算的高性能动态高级程序设计语言，项目大约于2009年中开始，2018年8月JuliaCon2018 发布会上发布Julia 1.0。据介绍，Julia 目前下载量已经达到了 200 万次，且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计算的库。除此之外，Julia 语言还可以轻松使用 Python、R、C/C++ 和 Java 中的库，这极大地扩展了 Julia 语言的使用范围。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。

来源：Wikipedia

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

马尔可夫模型技术

「马尔可夫模型」是指基于马尔可夫性质的模型，其假设一个给定过程的未来状态仅取决于当前状态。根据系统状态是否完全可被观测以及系统是自动的还是受控的，可以将常见的马尔可夫模型分成四种：马尔可夫链、隐马尔可夫模型（HMM）、马尔可夫决策过程（MDP）和部分可观测马尔可夫决策过程（POMDP）。另外还有马尔可夫随机场（MRF）和马尔可夫链蒙特卡洛（MCMC）这两个模型也常常被用于近似和预测。

来源：机器之心

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程，产生结构化数据，并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性，新颖性和趣味性。

来源：维基百科

主题模型技术

主题模型（Topic Model）在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲，如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。比方说，如果一篇文章是在讲狗的，那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的，那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。因此，如果一篇文章10%和猫有关，90%和狗有关，那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。

来源：维基百科

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心