2018/10/07 13:53

AI=机器学习²，我们在去往²的路上

在9月18日“2018世界人工智能大会”智能金融主题论坛上，中国互联网金融协会会长李东荣，加州大学伯克利分校迈克尔·欧文·乔丹（Michael I. Jordan）教授，复旦大学大数据学院院长、普林斯顿大学教授范剑青、汇付天下董事长兼CEO周晔带来了主题演讲。

其中，范剑青教授分享了《数据智能与金融创新》。他主要介绍了人工智能的兴起，以及数据智能如何增强市场效率，加速产业发展的，以及引领高科技的发展的。“人工智能的目的与价值，就是把大数据加工成智慧数据，为经济发展提供新能源，为科技创新提供新依据，为管理决策提供新信息。”

“大数据与人工智能为健康医疗、科学发现、技术创新、商业管理、政府决策等带来由信息海啸驱动的又一次工业革命，同时方方面面影响着人类的工作、生活和通讯方式。各行各业创新所产生的大量数据又增加了对海量数据处理和分析的强烈需求，促进了大数据与人工智能的发展。”

以下是演讲原文：

AI是机器学习的平方，我们在去平方的路上

每天数十万金融分析师涌向华尔街，重复繁琐的数据分析。上百万银行业者匆匆赶到工作岗位，开始他们每天常规工作。像一百多年前的农业、手工业一样，我们自然要问能否让智能机器来辅助这些工作，使得更多聪明才智可以投入高科技生产、艺术创作，提高人的生活体验。人工智能席卷全球，大数据、人工智能是伴随着数据与信息革命应运而生，发展迅速。上百万的摄像头，数亿部智能手机和几十亿网络搜索，和社交网络上的对话产生巨大海量数据，其中包括公共安全、公共卫生、消费倾向、商业活动、经济走势等等。同样数十亿的处方、海量的生物、遗传信息带来健康大数据。海量数据的收集促成了大数据时代的到来。海量数据的挖掘催生了人工智能的发展。换句话说人工智能就是从大数据到智慧数据之间的桥梁。

人工智能的起源是来自1955年，John Mccarthy创造了这个术语。理想的状况有点像科幻小说，“类人”机器，让它有认知、表达、思考感知能力，但目前还做不到。现实是希望能够用技术训练机器，将人从重复性、简单性、危险性的繁琐事物中解放出来，提高人的创造力和生活体验。换句话说人工智能的目的是要提高人的体验，不是让一些人失业的。第一代比较简单是机器表达与逻辑推理，机器证明、专家系统、逻辑系统。第二代是概率建模与统计学习的基础上知识图谱、机器学习、神经网络。

何为人工智能，翻译有点不好，机器智能其实更合适。Michael I. Jordan刚才说它应该是统计学。有些人可能不一定完全同意。在我看来，人工智能是机器学习的平方，让机器自动学习机器算法是机器学习的理想状况。它具体表现是在图像识别、语音识别、机器学习、专家系统、计算机视觉还有自然语言处理等等。如果我们按图灵测试来检验现在的很多系统，恐怕我们多半系统是机器学习，不是人工智能。换句话说我们还没达到平方，只是在往平方的路上。

那么大家可能会问什么是人工智能？Arthur Samuel的想法是让机器从数据终学习并做决策，我认为它是一个可扩张的统计算法，充分融合统计建模思想，以及计算优化方法，使得这些数据分析的思想能够在大数据的环境下得到实现。它最后的产品当然是一个可执行的程序。未来有可执行的程序我们需要有一个优化目标，有优化目标跟刚才Michael I. Jordan说的一样，需要统计建模。

大家比较熟悉的深度学习，其实是一个神经网络系统，更直白一点是数学的函数逼近，它用的是两种方法，信号源的线性组合，再做非线性的选择，重复的过程构成很复杂的函数逼近方法。

为什么它是如此成功，这又是一个权衡偏差和方差的有效方法。深度网络使得近似高维函数更加灵活，九十年代已经就有了。大数据的到来使得我们大大减少了方差，现代计算技术的革命使得大规模的优化成为可能跟现实，这样我们就能够更好更深度的学习函数逼近的方法。在图像识别、机器翻译、自然语言处理等方面都取得了很大的成功。这些问题其实从决策角度来说是比较简单的，因为个体的差异比较小，我说话有口音，我跟你的差异没有那么大。第二，信号即已知，我说的话所有的信号都在那里，这样问题比较简单。

机器学习的挑战

机器学习有很多挑战，在经济金融、生物医学、管理决策、人文科学里面有很多挑战。个体差异太大，更重要的是信息集未知，特征很难提取，需要多学科交叉。比如说闪电奔跑，它的信号集是什么我们大都不知道。我们自己也做了一些预测，比如说预测高频数据，接下来的走势是往上还是往下。我们做了自己的分析和特征提取。得到的结果是传统的逻辑回归跟深度学习，其实最后效果是差不多。换句话说，其实最后在其他应用里面，有时候如果特征提取是好的话，它的非线性并不是那么重要，更重要是特征自己的提取问题。我们在这个问题基本上可以看得出来，因为市场比较有效，能够可测性的精确度并不是特别高，这时候深度学习跟逻辑回归也差不多。

我最近看到一个消息，微软推出人工智能心脏风险测试指标，微软印度总经理表示他们新的API评分是基于四十万印度人的共享数据的基础之上，可以轻松的识别每一位患者的风险水平。具体他们怎么分析，什么结果都没有，同样的文章中只是一直在介绍深度学习的伟大。

我就把他们的结果差不多的东西放在这。这里面也有40万左右的人口，用80%的数据来训练机器算法。最后得出的结果也是这样，不过精确度并不算高，比随机猜测好一点。这个时候深度学习跟逻辑回归是差不多。这也是另外一个例子说明深度学习不能解决所有的问题，深度学习的成功应用是在语音、图像识别等方面，而且需要明白数据集是什么，特征是什么，这个问题可能更为重要。

接下来我举个比较成功的例子——预测债券风险溢价，是我们自己做的。当前我有131个宏观经济数据，此外的数据需要自行挖掘。我们用了8个汇总宏观经济系列，用已有的信息预测。有专业指导的信息学习可以改进预测的效果。我们这里用的模型叫做因子增量模型，看上去跟神经网络有相关的，其实在统计计量里面已经有过这样的模型。

如果只是用简单的算法来预测的话，大概可以预测18%，如果用因子选择，可以预测到24%左右。如果说因子选择的更好的话，可以预测到32%。如果说把统计的稳健思想都加进去的话，可以预测到38%。在这个基础之上，如果再加入神经网络，最后的结果可以达到45%左右，这个例子就说神经网络是有用的，但是一定要根专业知识相结合，怎么样能够找到更好的影响市场的因子，这样我们可以达到更好的风险预测跟控制的目的。

智能数据增强市场效率

第二块关于智能数据增强市场效率。在大数据的环境之下，金融行业面临着巨大的挑战，第一，现在的信息密度、深度和广度都有明显增加，自然而然我们就需要数据智能来提升市场效率跟决策力。现在除了金融衍生品、股票、外汇、宏观指数，还有很多非结构的新闻、文本和气候变化。如果用人工智能机器学习的办法，我们显然可以降低信息获取的成本，拓宽信息获取的渠道，提高信息传递的速度，并且提高信息的真实性。数据智能在金融里面有许多应用，从商业银行的消费金融、财务风险、客户管理、风险判别到证券市场的量化交易、智能投顾、风险防范和信用评估，还有保险业的信用管理、诈骗分析、获客分析、保险精算。政府职能里面有风险评判、智能监管、预警分析、政策评估。机器智能可以降低劳动力成本，减少信息不对称性，提高预测能力。

金融创新的一大挑战也是数据。首先，金融市场的风险触发机制更为复杂，有个体风险和系统性风险两个相叠加，数据来源方面多元化，行为更为紧密，除了市场内的交易数据之外，还有市场外的社交网络，影响范围更广，传播速度更快。第二，在信贷活动方面，信贷活动的评估给风险管理也带来加强，最大程度上获取信息，判别欺诈。信贷管理及时预判风险，交叉验证。第三，在投资决策方面，我们面临的不确定性，包括预测分析，对预测分析的需求明显提高。

金融最基本的作用把投资者的钱投放到生产的地方去，生产的地方钱又安全送回到投资者。实现这样的载体是我们的金融市场，它的效率分为信息效率、配置效率，后者是从市场形态、交易成本实现金融市场的职能。智慧数据可以提高信息效率，金融的特点数据来源多样，行为隐蔽，包括保密、脱敏、干扰、缺失、幸存者偏差等等。我们作为分析师或者作为整个市场和社会，我们无法拥有所有的数据，每个人只是拥有一小部分，数据共享变成是金融市场，提高金融效率的很重要的方面，数据拥有者对数据贡献和交流的意愿比较低，数据孤岛现象经常出现，监管也难以开展。有些金融机构和监管部门，有数据不能用，有数据不会用，有数据不敢用，这样的情况也经常发生。

智慧数据提高信息效率

怎么样构造一个机制实现数据共享呢？大数据金融创新中心提出这样一个构思，利用数据沙箱设计实现数据安全，同时在不影响隐私的情况下，充分发表充分的统计量，这样充分的统计量可以帮助我们分析数据，增强数据的信号。我们尽量设计鼓励数据共享的机制，以区块链等技术来实现共识的稳定，提高合作与激励的效率。推动监管科技提高灵活性，减少消极监管或者错杀，这是我们提高数据效率的关键部分。

我们要实现的目标就是数据共享来增加数据的流通性跟可靠性。数据挖掘方面可以提高它的使用效率，实现数据的价值。在存储方面，安全方面，我们可以保障存储隔离，保障数据的原始状态和可溯源，还有自动化配置等等。在金融里面很简单的一个问题，我们刚才说的数据源到底数据要用多大，如何筛选高效低险的企业，如何辨别不良企业，如何克服信用风险，如何防范风险道德。这些非常简单的问题需要从多元交付、海量增长的数据里面挖掘，在挖掘这些数据的同时，也能够让我们关注市场的微观行为，从而达到更有效的监管。

人工智能的目的就是提高数据挖掘的能力，而挖掘数据的相关性是多种多样的。举个例子，为了尽早预测沃尔玛的业绩，分析师会想方设法找比它更早预报业绩的相关公司，比如纸袋公司，从而用他们的数据帮助预测一个公司的业绩。但这种做法既费事又不精确。AI可以大大提高这些分析的效率和节省费用。一个星期的分析师和工程师的工作可以在一分钟内用机器学习的方法完成。AI能够增加市场效率，解决信息不对称的问题。

我们有很多网络数据和各种各样的“学习”。比如说高杠杆基金的持股网络中心能够帮助政府评估系统风险，如果市场需要，可以更精确地干预。而同样的，我们的同事研究过怎样从一个基金经理的持股情况推算出他的社交网络，辨别社交网络是否有违规的行为。在市场数据里面，网络数据里面，是非常之丰富的。

数据智能能够加速产业发展

第三部分，数据智能能够加速产业发展。第一表现在，金融科技的未来可以颠覆传统风控。主要有三方面体现。

科技红利，互联网使金融服务触达更多用户，收集海量多元的数据，而且除了这之外还有市场内外的信息。
大数据红利，传统的风控在新的经济环境下积累了60多年的数据，互联网也积累了十多年数据，这些数据可以彻底改变传统风控手段。
金融科技红利，智能创新的多尺度风险测度和风险手段不断涌现，这些手段可以得到及时的测试和反馈。我们做风控控制的目的不是预测风险的到来，而是反馈，使得消除风险，随着大数据的到来，人工智能的到来，我们能够有更多更好的方法来学习自适应、自回归的过程。

具体到业务产品，比如智能投顾，基本思想是利用机器完成客户需求分析、投资分析、资产配置选择等工作。意在替代人类完成财富管理或者投资建议方面的工作，实现投资的自动化。其中关键的技术有三点：

数据：数据有市场行为，比如说情绪指数和政策变量等；用户的行为，比如说社交、电商数据等。
方法：决策树、深度学习、回归分析等。
理论是基于投资理论寻求风险和资金组合最合适的最优级。

另一重要产品是大数据征信，利用数据采集、存储、分析，获取信用主体的多维行为信息，评估个人征信水平，降低信贷失信率。

关键技术是数据采集、数据存储、数据分析到评分模型，评分非常关键。
数据来源也是非常丰富，除了平时的生活数据之外，还有网络购物、客户评价、信息交易、社交信息等等。
应用的范围包括信贷管理、实物租赁、消费金融、保险风控。
服务的群体是小微金融和银行贷款无法覆盖的个体。小微金融是指从小资投资者的钱到小创业者。小微金融的产品基本上是低收入个体他们的金融需要是什么，从存储到投资到个人贷款等等之类的。它在经济发展中起着非常重要的作用。在发达国家大概能够帮助实现经济增长率为4%到5%，发达国家是2%左右。

值得注意的是，小微金融的发展瓶颈是合理定价，合理定价是任何金融产品可持续的基础。而基于大数据、人工智能的信用评估，能够提供更快更有效的决策。小微金融的作用显然是现在的科技创新开拓了金融服务的对象，使得我们以前对低收入或者中产收入，低收入没有多少信用的人，现在也变成能够有一些信用的基本分析。

中国大数据征信的挑战是体量比较大，贷款比较难，因为分布比较零散，业务不规模，盈利不明朗，信用比较难构建。网络社交消费大数据为征信提供了很有效的基本原料。小微金融在过去几年还是发展挺迅速的，市场引导和政府指导是一个长远发展的基础，政府布局对高科技产业发展尤其重要，这里有几个例子，张江高科技园支持了早期的展讯通信，现在变成世界第三大手机芯片供应商，也是国内最先进的领先半导体产业。上海硅产业投资公司几年前投资了数家欧洲半导体公司，现在估值翻了10多倍。中关村也有相关的例子。政府布局对人工智能、大数据、金融科技这些新兴产业，现在应该是非常重要的时候，所以需要市场引领和政府指导相结合，才能够把市场弄的更有效。

数据智能引领高科技

最后讲一下数据智能引领高科技。数据智能的发展促进了相关学科的发展，计算机、数学、信息学、统计学等等，也推动了高科技的创新从硬件软件到系统，也激励新产品的开发，拓展了新的服务对象。举个例子，对机器学习、统计学的挑战。大家现在常说的精准营销、精准医疗，处理这些问题的难点是数据多样性，我们怎么样能够让数据来源更多元，进行分析，对稀疏性、内生性、测量误差等等，因为大数据的原因产生了很多新的统计问题，处理这些问题的时候，需要更复杂更有效的算法。

对应用数学同样也有类似的挑战，从计算瓶颈上，我们经常会出现大规模的非凸的优化问题，我们经常需要在计算、统计上面提出新思想。对大数据系统也是同样有非常大的挑战。

产业机器学习AI

相关数据

区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。中本聪在2008年，于《比特币白皮书》中提出“区块链”概念，并在2009年创立了比特币社会网络，开发出第一个区块，即“创世区块”。

来源：维基百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

逻辑回归技术

逻辑回归（英语：Logistic regression 或logit regression），即逻辑模型（英语：Logit model，也译作“评定模型”、“分类评定模型”）是离散选择法模型之一，属于多重变量分析范畴，是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

来源：Trevor Hastie, Robert Tibshirani and Jerome Friedman (2nd ed., 2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction.维基百科

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为：使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题，并得出与专家相同的结论。简言之，如图1所示，专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

来源：Zhang Yudong, Wu Lenan, & Wang Shuihua. (2010). Survey on development of expert system. Computer Engineering and Applications, 46(19), 43-47.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

逻辑推理技术

逻辑推理中有三种方式：演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

图灵测试技术

图灵测试（英语：Turing test，又译图灵试验）是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验，测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道，例如计算机键盘和屏幕，这样的结果是不依赖于计算机把单词转换为音频的能力。

来源：维基百科

交叉验证技术

交叉验证，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段，以便减少像过拟合的问题，得到该模型将如何衍生到一个独立的数据集的提示。

来源：维基百科

回归分析技术

回归分析是一种用于估计变量之间的关系（当一个自变量变化而其它变量固定时，因变量会如何变化）的统计过程，在预测任务中有广泛的应用。回归分析模型有不同的种类，其中最流行的是线性回归和逻辑回归（Logistic Regression）。另外还有多变量回归、泊松回归、逐步回归、脊回归（Ridge Regression）、套索回归（Lasso Regression）和多项式回归等等。随机梯度下降（SGD）就是一种起源于回归分析的常用方法，可用于控制复杂度。

来源：机器之心