机器学习(machine learning)是一门多领域交叉学科,设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
从历史来看,机器学习是人工智能研究较为年轻的分支,似乎也是人工智能中发展最快的分支之一。一般认为,它的发展过程大体上可分为4个时期:
第二阶段 20世纪60年代中叶至70年代中叶,被称为机器学习的冷静时期。
第四阶段 机器学习开始于1986年,目前我们仍处在这个时期。
本文基于AMiner全新功能技术趋势分析Trend analysis和笛卡尔乘积热点挖掘,将为大家解读机器学习领域进行的趋势分析以及机器学习与自然语言处理域的交叉趋势分析。
机器学习趋势分析
下面我们将用Trend analysis分析机器学习领域内的研究热点。下图是当前该领域的热点技术趋势分析,通过Trend analysis分析挖掘可以发现当前该领域的热点研究话题Top10如下:
machine learning
brain computer interface
artificial intelligence
support vector machine
gaussian process
missing data
image classification
social network
data mining
computer science
根据Trend analysis的分析我们可以发现,该领域当前最热门的话题是machine learning,从全局热度来看,machine learning的话题热度虽然有所起伏但从20世纪90年代至今其话题热度始终保持在Top 1,论文的发表数量也较多;brain computer interface的研究热度从2003年开始迅速上升,近几年话题热度更是超越support vector machine成为top 2 话题;另外,近期multi task learning 的话题热度开始逐渐上升。
通用机器学习技术奠基人之一的Thomas G. Dietterich在2000年发表的“Ensemble Methods in Machine Learning”回顾了集合方法并解释了为什么聚类通常比任何一个分类器都表现更好。
Thomas G. Dietterich的研究贡献主要包括将纠错输出编码应用于多类分类问题,他发明了多示例学习、层次强化学习MAXQ框架及将非参数回归树整合到概率图模型中的方法。此外,Dietterich教授也参与撰写了美国白宫发布的两份重磅AI报告《为人工智能的未来做准备》和《美国国家人工智能研究与发展策略规划》。
机器学习&自然语言处理交叉趋势分析
我们选取自然语言处理域近期热度与全局热度最高,相关性最强的9个相关领域作为研究对象,具体包括:
Natural Language Processing
Machine Translation
Text Corpus
Language Modeling
Treebank
Nist
SemanticLabeling
Word Segmentation
Shallow Parsing
通过对两个领域的知识图谱的计算,再对两领域的细分子领域进行笛卡尔乘积热点挖掘,本文挖掘了历史数据分析和未来趋势预测两部分。
本文主要探讨2007年至今的研究状况;趋势预测仅以未来3年为周期来探讨。
每个交叉热点中的研究学者,发表论文,中外学者和论文对比等数据均可以获得。用作展示时,研究学者和论文分别按照交叉领域研究影响度和论文相关度作为默认排序。
学者研究影响度由交叉领域内论文量,h-index等计算得出;
论文相关度由交叉领域内论文的关联程度和引用数量等计算得出。
对比分析中“中外研究人员对比”和“中外研究论文对比”是专家数量和论文数量的直接对比;
而“中外论文影响对比”是论文citation值的对比。
历史热点图
2007年至今 机器学习领域与自然语言处理领域交叉分析热点图
2007年至今,全球共有10019位专家投入了机器学习和自然语言处理领域的交叉研究中,其中华人专家1754人,约占17.51%,共产生交叉研究论4310篇。学者H-index分布和Citation分布如下:
h-index | 专家人数 | 分布占比 |
小于10 | 7141 | 71.27% |
10~20 | 1356 | 13.53% |
20~40 | 1028 | 10.26% |
大于40 | 315 | 3.14% |
总计 | 10019 | 100% |
2007年至今 机器学习领域与自然语言处理领域交叉研究学者h-index分布
citation | 专家人数 | 分布占比 |
小于10 | 1836 | 42.60% |
1~10 | 1328 | 30.81% |
10~100 | 999 | 23.18% |
100~200 | 81 | 1.88% |
大于200 | 66 | 1.53% |
总计 | 4310 | 100% |
2007年至今 机器学习领域与自然语言处理领域交叉研究论文citation分布
历史交叉领域TOP5
machine learning & natural language processing
Supervised Learning & natural language processing
Regularization& natural language processing
machinelearning & Machine Translation
Unsupervised Learning & natural language processing
我们选取历史交叉领域TOP5中的第一个:machine learning与natural language processing→机器学习领域与自然语言处理领域,进行详细的交叉研究分析。
机器学习领域与自然语言处理领域相关性最高的5位作者如下所示:
Michael I. Jordan
Geoffrey Hinton
Eric P. Xing
Hongjie Dai
Xin Li
机器学习领域与自然语言处理领域相关性最高的5篇论文如下所示:
题目:The Case for VM-Based Cloudlets in Mobile Computing
会议/期刊:IEEE Pervasive Computing
年份:2009
引用量:2583
作者:Mahadev Satyanarayanan,Paramvir Bahl,Ramon Caceres,Nigel Davies
题目:Cheap and fast---but is it good evaluating non-expert annotations for natural language tasks
会议/期刊:EMNLP
年份:2008
引用量:1770
作者:Rion Snow,Brendan O'Connor,Daniel Jurafsky,Andrew Y. Ng
题目:Deep Learning: Methods and Applications
会议/期刊:Foundations and Trends in Signal Processing
年份:2014
引用量:1368
作者:Li Deng,Dong Yu
题目:The Unreasonable Effectiveness of Data
会议/期刊:IEEE Intelligent Systems
年份:2009
引用量:873
作者:Alon Y. Halevy,Peter Norvig,Fernando Pereira
题目:A survey of modern authorship attribution methods
会议/期刊:JASIST
年份:2009
引用量:1149
作者:Efstathios Stamatatos
机器学习&自然语言处理历史研究数据对比
机器学习领域与自然语言处理领域历史论文数据
机器学习领域与自然语言处理领域历史专家数据
机器学习&自然语言处理中美对比
机器学习领域与自然语言处理领域中美研究人员对比
机器学习领域与自然语言处理领域中美论文对比
机器学习领域与自然语言处理领域研究中,领先的国家分别是:
美国🇺🇸
中国🇨🇳
日本🇯🇵
印度🇮🇳
加拿大🇨🇦
英国🇬🇧
德国🇩🇪
意大利🇮🇹
法国🇫🇷
机器学习领域与自然语言处理领域研究中,全球主要研究机构是:
哥伦比亚大学
微软研究院
锡拉丘兹大学
美国国家医学图书馆
中国科学院
北京理工大学
东京大学
科罗拉多大学
东京大学
卡内基梅隆大学
未来趋势预测
预测未来三年内运用交叉较高领域:
1.machine learning & natural language processing
2.Recurrent Neural Network & Language Modeling
3.Deep Learning & natural language processing
4.machine learning & Language Modeling
5.Topic Modeling & Machine Translation
AMiner预测机器学习领域与自然语言处理领域未来三年热点图如下图所示:
机器学习领域与自然语言处理领域交叉热点预测
机器学习是人工智能的核心,应用遍及人工智能的各个领域,目前机器学习已经在数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、DNA序列测序、战略游戏和机器人等多个方面都得到了运用,在未来,它的应用将会得到更多的拓展。