编译 | 邱陆陆
来源 | FSB
如今,金融服务行业对于人工智能 (AI) 和机器学习的应用进展迅速。主要原因在于,后者在金融部门数据和基础设施可得性等方面的技术优势,很好地满足了金融服务业在提高利润、市场竞争及金融监管要求等方面的需求。可以看到,目前,大量应用方向主要集中在:
-金融机构和销售商正在使用人工智能和机器学习方法来评估信用质量、为保险合约定价并进行营销、自动化客户交流过程。-机构正在利用人工智能和机器学习技术优化稀缺资本的分配、调整回溯测试模型,并分析大额交易的市场影响。-对冲基金、券商和其他公司正在使用人工智能和机器学习来寻找高收益(且没有相关性),并优化交易执行。-公共部门和私营机构都可以使用这些技术进行合规监管、监察、数据质量评估和欺诈检测。
尽管新技术的使用处于早期阶段,对于整个行业的影响还无明确数据可考,但随着两者融合的不断加深,会给金融稳定性带来的潜在益处和监管风险,仍然值得关注。
我们从 FSB (Financial Stability Board,金融稳定理事会) 一份长达两万五千字的报告中,选取了部分内容,详述人工智能和机器学习在金融业的应用方向及值得关注的潜在问题。
报告结构如下。第 1 部分中,定义了报告的核心概念,并给出了人工智能和机器学习在金融应用方面取得发展的一些背景。第 2 部分描述了推动这些技术在金融服务中的应用的供求因素。第 3 部分描述了四类用例:(1)以客户为中心的应用;(2)以运营为中心的应用;(3)交易和资管;和(4)合规和监督。第 4 部分是这类应用对金融市场、金融机构和消费者产生影响的微观分析。第 5 部分是这类应用对金融体系产生影响的宏观分析。最后,第 6 部分评估了应用对金融稳定性的整体影响。
本文为第一部分,主要涉及到核心概念、背景与驱动力:
1. 核心概念与背景
计算机科学和统计学的研究人员已经开发出先进的技术来从大量不同的数据集中获得见解。数据可能有不同类型、来自不同来源、拥有不同质量(结构化和非结构化数据)。这些技术利用计算机从经验中学习,并具有执行图像识别或自然语言处理任务的能力。应用计算工具解决传统上需要人类智能的任务被广泛地称为「人工智能」(AI)。作为一个领域,人工智能已经存在了很多年。然而,近年计算能力的提高,加上数据的可用性和数量的上升,让人们重拾对人工智能的兴趣。已有人工智能应用被用于诊断疾病、翻译语言和驾驶汽车;也有越来越多的应用被用于金融领域。
描述这个领域需要很多术语,所以在继续之前我们需要进行一些定义。「大数据」是一个没有单一、一致定义的术语,但是被广泛地用来描述使用各种技术对大型复杂数据集进行存储和分析的行为。这种对大型复杂数据集的分析通常被称为「大数据分析」。体现大数据分析复杂性的一个关键特征是,数据集中包含大量非结构化或半结构化数据。
本报告将「人工智能」定义为能够执行传统上需要人类智能的任务的计算机系统理论与发展。人工智能是一个广泛的领域,其中「机器学习」是它的一个子类别。机器学习可以被定义为通过设计一系列行动(算法)来解决问题的方法。算法根据经验自动优化,此过程无需人工干预或只需要有限的干预。这些技术可以用来从来源日益多样化的大规模数据中找出模式。图 1 给出了一个概述。
许多机器学习工具基于大多数研究人员熟悉的统计方法。这类方法包括通过扩展线性回归模型来处理数百万规模的输入,或使用统计技术来概括大数据集以便于可视化。然而,机器学习框架本质上更加灵活。能够被机器学习算法检测的模式不拘于线性关系(这通常是经济和财务分析的主旋律)。一般来说,机器学习旨在(自动)优化、预测和分类,而不是进行因果推断。换言之,预测公司债券到底是投资级还是高收益级,可以用机器学习来完成,而确定哪些因素导致债券收益率水平变化可能就不会使用机器学习来完成了。
机器学习算法有多个类别,分类标准是数据标注过程中人工干预的程度:
•在「监督学习」中,算法得到一组「训练」数据,数据中包含某些标签。例如,一组交易数据可能包含欺诈性/非欺诈性标签。该算法将「学习」一种通用的分类法则,用于将余下的不在训练集中的数据分类为欺诈性/非欺诈性。
•「无监督学习」是指提供给算法的数据不包含标签的情况。该算法通过识别簇(clusters)的方式寻找规律。簇指的是将数据按照其内在的特征进行的分堆。例如,可以建立一个无监督机器学习算法来寻找某一流动性很差的、难以定价的证券的类似证券,然后簇中其他证券的定价就可以用来帮助对这个流动性很差的证券进行定价。
•「强化学习」处于有监督学习和无监督学习之间。在这种情况下,算法会得到一组无标记数据,为每个数据点选择一个动作,并接收到帮助算法学习的反馈(可能来自人类)。例如,强化学习可以用于机器人控制、博弈论和自动驾驶。
•「深度学习」是机器学习的一种形式,它使用由大脑的结构和功能所启发的,通过「层」的方式工作算法进行学习。深度学习算法,其结构被称为人工神经网络,可用于有监督、无监督或强化学习。
近年来,深度学习在图像识别,自然语言处理(NLP)等多个领域取得了显著成果。深度学习算法能够发现可泛化的概念,如,从一系列图像中编码出「汽车」的概念。投资者可能会部署一种能够识别汽车的算法,从卫星图像中计算出卖场停车场中的汽车数量,以便推算某个特定时间范畴内大概的销售数字。自然语言处理允许计算机「阅读」并生成书面文本,或者,在与语音识别相结合时,能够阅读并生成口语。这使得公司能够自动化以前需要人工干预的金融服务功能。
机器学习可以用于解决不同类型的问题,如分类或回归分析。分类算法,即将观察得到的样本分为有限个类别的算法,在实践中有极为频繁的应用。分类算法是基于概率的,意味着算法会将一个数据点归类到「数据点属于此类别的概率」最高的那一类中。举个例子,算法可以自动阅读卖方报告,并标记其态度有多大概率是「看涨」或「看跌」。或者,算法也可以估计某未获评级的公司的初始信用评级。相比之下,回归算法对一个问题的估计可能有无限种答案(连续的可能解集)。这个答案可能会和置信区间一起出现。(译者注:比如说,有 95% 的概率,该债券下个月此时的价格在 100 元到 105 元之间。)回归算法可用于期权的定价。回归算法也可以用作分类算法的一个中间步骤。
比了解机器学习能做什么更重要的是要明白机器学习不能做什么,比如确定因果关系。一般而言,机器学习算法被用于识别与其他事件或模式相关的模式。机器学习识别的仅仅是相关性,只不过其中相关性一些是人无法捕捉到的而已。然而,经济学家和其他人正越来越多地使用人工智能和机器学习应用,结合其他工具与领域专业知识,协助理解复杂的关系。
许多机器学习技术并不新。事实上,神经网络这个深度学习的基本概念最初是在 20 世纪 60 年代发展起来的。然而,在最初的一阵热潮之后,机器学习和人工智能没有实现他们曾经的愿景,在十几年后耗尽了领域内聚集的资金。造成这种结果的部分原因是计算能力以及数据的匮乏。在 20 世纪 80 年代,人们重燃对这个领域的兴趣,并提供了大量资金支持,在这个阶段,许多对于之后的突破至关重要的概念被开发出来。
到了 2011 年和 2012 年,随着现代计算机计算能力的巨大增长,机器学习算法,尤其是深度学习算法,开始持续在图像、文本和语音识别竞赛中获胜。注意到这一趋势后,主流科技公司开始收购深度学习初创企业,并迅速加速深度学习研究。同样创新高的是对于大规模数据的收集行为,例如,现在你能够获得精确到单笔交易的银行全部信用卡交易数据,或者获得互联网上出现的每一个字,乃至用户访问网站时鼠标悬停的轨迹。其他领域的进步也对机器学习有所帮助,例如在云计算架构下,信息技术资源的互联性显著增强,使得大数据可以得到有效组织和分析。而随着对这种大规模、高复杂度数据集的出现以及计算能力的提升,机器学习算法的结果也得到了显著提高,其中一些在算法在接下来的章节里会被展开介绍。这也进一步刺激了对 AI 初创企业的大量投资。世界经济论坛报道,全球对于人工智能创业的投资从 2011 年的 2.82 亿美元上升到 2015 年的 24 亿美元。在这一时期,人工智能领域的并购与收购交易(M&A)数量也在显著上升(图 2)。
如今的大多数应用更接近于一种「增强智能」,或者旨在增强人的能力,而不是试图取代人。即使人工智能和机器学习领域继续按照今天的发展速度进步下去,大多数行业也不会试图让机器完全复制人类的智能。正如一位业内观察家所指出的那样:「...... 在整个闭环中引入人是至关重要的:与机器不同的是,我们能够考虑情境并利用常识将 AI 得出的结论投入实际应用」。
2. 驱动力
促成金融科技(FinTech)日益普及的各种因素也促进了人工智能和机器学习在金融服务领域的应用。在供给方面,金融市场参与者已经从其他领域开发人工智能和机器学习工具的过程中获益良多。更快的处理器速度带来的计算能力的提升、更低的硬件成本以及更容易地通过云服务访问计算力的条件也造福着金融界。同样,因为针对性数据库、软件和算法的出现,对金融领域的数据进行储存、拆解和分析变得更便宜。由于数字化程度和云服务应用程度的提高,可用于学习和预测的数据集数量也出现了快速增长。数据存储成本的下降和全球数据量的估计如图 3 所示。
那些推动了搜索引擎和自动驾驶领域的算法进步的工具也可以在金融领域使用。例如,物体识别工具使搜索引擎能够了解,用户搜索「Ford」的时候通常指的是「福特汽车」而不是「河滩」。这种工具现在也被用于快速识别特定上市公司的新闻或社交媒体消息。随着越来越多的公司使用这些工具,公司获取新数据或额外数据以开发更快、更准确的人工智能和机器学习工具的激励可能会增加。反过来,公司对工具的使用和开发也可能影响到其他公司的激励水平。
金融部门的各种技术发展促进了基础设施和相关数据集的创建。电子交易平台的快速发展伴随着高质量结构化数据可得性的提升。在一些国家(如美国),市场监管机构允许上市公司使用社交媒体发布公告。除了为机器学习提供数字化的财务数据之外,市场的电子化也使人工智能能够直接与市场交互,完成由复杂的决策程序给出的让人眼花缭乱的实时买入和卖出指令,且几乎不需要人为干预。同时,自 20 世纪 80 年代起,个人信用评分系统变得越来越普遍,自 20 世纪 90 年代起,新闻已经变得机器可读。随着金融市场数据和相关数据集的增长——例如在线搜索趋势、收视模式和包含市场及消费者财务信息的社交媒体数据集的增长——金融部门可以探索和挖掘的数据如今来自极为丰富的数据源。
在需求方面,金融机构有激励去使用人工智能和机器学习来满足业务需求。降低成本、获得风险管理收益和提高生产力的机会促进了对技术的应用,因为这些机会都可以提高盈利能力。在最近的一项研究中,业内人士称(在各功能部门中)使用人工智能和机器学习的优先级如下:以客户为中心优化流程;增加系统与员工之间的互动并加强决策能力;开发提供给客户的新产品与新服务。在许多情况下,这些因素也可能推动公司间的「军备竞赛」,市场参与者会因为急需跟上竞争对手的脚步而应用人工智能和机器学习,包括因为声誉(炒作)原因。
新的合规要求也产生了一些需求。新合规要求增加了对效率的要求,这促使银行推动自动化进程并应用新的分析工具,包括含有人工智能和机器学习的工具。金融机构正在寻求遵循审慎性监管、数据报告、交易执行优化以及反洗钱和打击资助恐怖主义(AML/CFT)等监管要求的高效手段。相应地,监管机构也面临着评估更大、更复杂、增长更迅速的数据集的责任,需要用更强大的分析工具来更好地监控金融部门。图 4 显示了这些供给和需求因素如何结合在一起。
一些发展趋势可能会影响未来人工智能和机器学习的推广。这些发展趋势包括数据来源数量和数据获取的实时性的不断提高;数据仓体量、数据粒度、数据类型的增加以及数据质量的提高。硬件的持续改进,以及包括开源库在内的人工智能和机器学习软件即服务(SaaS)也将影响创新的过程。包括处理芯片和量子计算在内的硬件开发旨在实现实现更快、更强大的人工智能。这些发展可以使愈发强大的人工智能和机器学习工具适用范围愈发广阔、成本也更加低廉。他们可以在更大的数据集上实现更复杂的实时数据分析,如对在线用户行为或者位于世界各地的物联网(IoT)传感器数据的实时分析。
与此同时,复杂软件服务的可得范围也不断变大。其中一类软件服务是在过去几年中涌现的开源库,它们为研究人员提供了使用机器学习的现成工具。也有越来越多的供应商为金融市场参与者提供机器学习服务。一些公司抓取新闻和/或元数据,并使用户能够根据他们感兴趣的特定特征(例如浏览过的网页等)进行预测。随着进行数据提供、清理、组织和分析并获得金融角度洞察的服务越来越多,用户进行复杂分析的成本会显著下降。然而与此同时,同信息/同技术的多用户风险可能也会随之增加(见第 4 部分)。
相关数据的法律框架也可能会影响人工智能和机器学习工具的应用。违反协议使用个人数据或使用不符合消费者利益的数据可能会导致数据保护立法的激增。此外,新的数据标准、新的数据报告要求或金融服务领域的其他制度性变化也可能会影响人工智能和机器学习在特定市场的应用。
关注账号「机器之能:almosthuman2017」并回复「FSB」获取精编版中文报告。