Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

鲍捷作者

智能金融的破局(上):智能金融的本质是标准件化

导读】2017年7月20日,国务院发布《新一代人工智能发展规划》。文中指出:2020年人工智能核心产业规模预期超过1500亿元,到2030年有望超过1万亿元。其中,智能金融被列为重点发展产业。智能金融有三个风口的交集之称,即互联网、金融、人工智能,一直是业内关注的焦点。文因互联 CEO 鲍捷博士于2017年5月18日在巨杉资本的演讲,将深度探索智能金融破局。文章全文一万五千字,为方便阅读,将分为上中下三篇进行推送,敬请关注。

以下为正文  

鲍捷:1998年,我就开始从事人工智能,在不同的机构,IowaState, RPI, MIT, Samsung 等,做了不同方向的研究,主要包括神经网络机器学习语义网以及自然语言处理,经历过两次 “小 AI 冬天”。今天从我个人的经历讨论智能金融要如何破局。

人工智能主要有三个大的分支,一个是神经网络,现在叫深度学习;一个叫机器学习;还有一个分支叫做逻辑或者知识系统。这三个分支,我分别花了五六年的时间,最近几年就在做自然语言处理方面的工作。从好的一方面来说,我们要去实施任何一个系统都需要综合应用人工智能不同领域的算法才能够完成任务;但是从不幸的角度来讲,由于人工智能是一个非常魔术的领域,大家对它有非常高的期望,非常高的期望之后就是非常高的失望,这就是所谓的 AI 冬天。大的 AI 冬天有两次,70年代一次和90年代一次,但是在人工智能的每个细分领域里面都有小的 AI 的冬天。

未来还会不会有 AI 冬天?我觉得这得取决于我们对这件事情的态度,如果我们是实事求是的态度,是可以做出一些成绩来的。 在将近20年的研究生涯中,在 AI 项目中我经历了太多的失败,从很大的国家的项目到企业的项目,到开源社区的项目,到标准化组织的项目、跨国公司的项目、学校内的项目,陆陆续续有二三十个项目,大部分项目都失败了。为什么?因为创新一定是伴随着很高的失败。

我总结下来,在这么多项目的失败当中,是有共性的,什么项目会失败,什么项目不会失败。所以到我2013年开始文因互联(实际上2013年在硅谷成立 Memect,2015年在国内成立文因互联)这个项目以后,便尽我所能,让我在市场上看到的和研究生涯中经历过的错误不要再犯。 今天我讲的很多东西,也是基于这么多项目的尸骸总结出来的经验。

我们为什么选择金融?最开始是因为我在学校里面,做了几个跟金融相关的项目,2010年的时候,XBRL 语义模型,当时我在 MIT 做的一个项目,上市公司在提交年报和季报的时候,都会有一个 PDF 文件,伴随 PDF 文件会有一个机器可读的文件,这个格式的名字就叫 XBRL,所以我提出了它的语义模型。

随后,在2011年的时候,我和我的一个学生做了基于语义分析和社交媒体数据的基本面的分析。那篇文章拿到 IEEE 金融工程师计算智能会议的最佳论文。题外话,那个时候有一个特别火的名词——大数据的基金。实际上这个词是2010年 Indiana 大学的一个老师最先提出来的,后来那个老师就辞职出来创业——但过两年就破产了。

到了2015年的时候,我们开始有文因互联这个团队,目前在北京。我们这个团队现在将近20个人,主要是以技术为主,核心团队都是从美国回来的,包括创始人和首席科学家。在这一年半的时间内,我们尝试了很多东西,从最早的新三板数据开始,因为那时候万得和东方财富还没有开始提供新三板数据,所以我们算是最早一批开始接触数据源,我们自己去扒这个数据。后来做了搜索引擎,自动化报告,微信机器人以及公告摘要系统。

人工智能是一种自动化

有人开玩笑说智能金融就像 Teenage Sex “everyone’s talking about it, only a few know how to do it, they all think everyone else is at it and so pretend they are too ” 实际上没有互联网的时候,就已经有这个笑话了。每一个新技术出现的时候这个笑话就会被再拿出来一次,每个人都在谈论它,只有很少人知道该怎么做,每个人都假设别人在做,所以假装自己也在做。

现在轮到智能金融被套到这个上面来了。这种新闻,我相信大家最近经常会看到,以前大概是每周一次,现在我估计应该是每天一次能够看到这种新闻。比如说高盛或者是什么交易所,反正万变不离其宗的标题,因为某个什么什么技术,所以某个职业失业了。我在这里跟大家打一个赌,在今后5年之内,在座的任何一个人都不会因为人工智能的影响而失业。如果这件事情真的发生了,对我来说当然是一件好事,当然我相信这是不会发生的。

首先,我们要看这个事情,如果真的是交易员被替代了,是不是因为人工智能?其实大多数时候,我们在媒体上看到这些所谓的XX被取代了,并不是由于狭义上的人工智能,而是由于自动化 automation,如由于数据库技术或者网络技术,或者某种脚本技术造成的。但是在每一个领域,在它的巅峰状态的时候,大家都恨不得把自己称为人工智能。现在已经到了什么程度?任何一个东西,你只要能够套用一个函数公式,大家都把它称为人工智能。

所以,我们在媒体上看到的大多数关于人工智能的威胁可能只是一种自动化,但这并不是说人工智能就在这里面没有作用,人工智能是有自动化,而且自动化在过去至少一百年内一直不断地改变着我们的生活,从电气化时代说起,电气化是自动化的,开关一拉灯就亮了,多神奇;从电气化到计算机化、到网络化到数据库化,这都是自动化不断地升级。

ETL 有多少人知道什么意思?如果从事过数据仓库的朋友,应该见过 Extract-Transform-Load,这不是个新词,有20年的历史了,代表着数据从原始的格式提取出来,然后把它变成另外一种格式,然后把它放到数据库里面去,然后再把它调出来用。实际上我们现在在金融领域里面看到绝大多数的数据处理其实就是 ETL。

ETL跟人工智能有什么关系?实际上 ETL 的每一步都是需要人工智能在后面支撑的,但是人工智能大家并没有想象的那么神。很多很神秘的东西,一点就透,看着爬虫是什么样子,知识提取是什么样的,其实是一种很简单的东西。但是重要区别在哪?在20年前,我们在做ETL的时候,通常是单机的方式,比较封闭的环境当中,比如说一个企业内,甚至一个小组,我们在做 ETL。我们现在面临的是互联的社会,我们要把全世界的数据都汇集在一起,像 Kensho 汇集了9万个数据集,在这么大的数据集上,我们做 ETL,传统的数据仓库的方法已经不能用了,因为数据的规模、数据的质量要求不一样。

在工厂里面任何一个东西再简单,你把它放大1万倍,任何一个简单的东西都变得很复杂。汽车是什么?不就是两个沙发加四个轮子(李书福语),但是你把它们放在路上跑,就是完全不一样的东西。所以说人工智能是什么?就是一个函数,或者是正则表达式。你怎么去形成一个规则?你怎么去模拟函数?这就是最近这些年,人工智能从技术上、从工程上改变了我们。

人工智能是一种自动化,但是它是新时代的自动化,它可以让我们的效率更大地提升。

金融 IT 进步的历程

从中国金融来看,过去二十几年里面,我们经历了四个阶段。

第一阶段,花了差不多十年时间做了信息化,整个银行信息化过程中,我们差不多花了十几年时间建立了这个系统,有了最重要的第一步才有后面所有的系统。第二阶段,有了信息化,最近几年开始有了大数据化,每个银行都在做大数据。银行、保险、券商,慢慢都在走云、走大数据、走数据中心,这件事情还没有完全做完。第三阶段,有了大数据化之后,才会有自动化的需求。比如说如果没有巨潮网,我们就不会有后面所有的这些要去做什么公告摘要,要去做自动化监管,这些需求都不会产生出来。

现在我们是在自动化的阶段,本质上来说就是大规模ETL,在这个基础上才会有第四阶段智能化的需求。

在海外我们看到了Alphasense 和 Kensho 这样的公司,来帮助我们进行大规模的替代人类的一种实践。在中国这件事情刚刚开始,中国和美国有什么区别?

第一,美国是一个很成熟的市场,中国不成熟,中国各方面都不成熟。比如说上交所、深交所的数据格式是不一样的,国内的整个金融数据库建设落后美国大概有10年以上的时间。

第二,人力成本也不一样,在中国一个实习生多少钱,在美国一个实习生多少钱,由于人力成本极低,所以对于自动化和人力成本的节约,这种紧迫感是不一样的。

第三个,市场规模是不一样的。美国市场的规模折合是200万亿人民币,中国现在是40万亿。从业人数也不一样,美国光是在对冲基金和私募基金上面都有超过上百万人在做这件事情,中国是没有这么大规模的人群。中国银行规模很大,所以,由于比例不一样,金融机构内部的各个不同的分支的比例不一样,他们对于技术采纳的速度也不一样。人的结构不一样,市场结构不一样,都会造成中国现在在智能化起步上比美国有先天的劣势。现在做智能应用这件事情,如果不小心,不一定变成先驱,可能会变成先烈。

智能金融的本质标准件化

我这里提出来的是一个假设。我认为智能应用的本质是一种标准件化的。 你看每一种工业,它在形成的过程中都会有这个结果。比如说汽车1900年左右发明的,大概20年左右的时间,到了福特的时候变成了大工业,才有了流水线。为什么?因为在这之前,汽车工业各个不同的工艺之间是没有办法相互互联的,没有办法变成一种标准的,可以替换的,从而可以规模化的,从而可以降低成本的一个工艺。所以每一种产业,在它往前走的时候都是需要把它的一部分处理流程标准化以后,然后变成一种大工业。

现在的金融还近乎一种手工业,但我们就是想让金融业不再是一种手工业。显然在金融里面不是每一件事情都可以变成机器可以替代的,我相信在座的大多数人做的大多数事情是机器不可替代的,但一定还有一部分工作可以替代。

比如说我上次去访问的一个机构里面,每天3点钟开始,在那里把每天的报告拿下来,把它的标题提出来,把里面重点的字句提取出来,每天都要做,什么时候能下班,正常情况下是晚上12点下班,不正常情况下要做到天亮也做不完。尽管这样,大概只能处理一个极小的比例。这种工作就是应该用机器来做的,为什么要用人来做这件事情?中国有多少人在做这样的事情?有多少个实习生每天在做极其繁琐的工作?我认识的几个研究员,他们每天晚上11点钟,要在他的微信群里面发今日的日报,他每天要给2000个人发,30多个群,每天都从11点发到1点。

整个金融分析分很多模块、很多环节,比如说作一个 DCF 估值模型,在座有多少人手工做过?我自己试着做过一次,我不知道大家做一个企业的 DCF 模型要花多长时间?的确,实际上这样一个模型,基本上可以套在每个公司上面,这是一个标准件。像这种 DCF 建模以后,就应该是一个标准件。

在金融分析里面,包括行业分析,上下游分析,海外对标分析,这里面有大量的模型是不需要用我们的大脑的经验来建模的,它是万变不离其宗的东西。现在很多人是在用 Excel 来进行建模,其实这些东西完全可以变成标准件。在我看来,不管是银行还是券商,有大量的工作可以标准化,这就是现在智能金融目前这个阶段,合理的最终目标,就是标准化。

由自动化而标准化,由标准化而工业化。每一次工业化能带来什么?生产力的巨大进步,带来效率的极大地提升。所以当英国的工业化的纺织品进入中国来之后,中国的手工业的纺织就土崩瓦解,但这个过程并不是一下子就能够做到的。英国人怀着满腔热血,掰着手指头算,看市场有多大,中国有4亿人,每个人都要穿衣服,要多少平方英尺的布,所以我的市场有多大。它是打了两次鸦片战争,才把中国市场打开了。

比如说现在一个分析师,一个人只能盯20个企业,我们也可以再算一算,如果一个金融分析师,一天可以盯100个企业,那么我们的市场是多少,我们可以多赚多少钱,你能做到吗?我们的目标是提高效率,我们真的不是要去取代交易员,我们真的不是要去替代投资经理。计算器替代了会计没有?并没有。所以现在有了更高效率的工具,并不是要让金融从业人员失业,这件事情不会发生。提高效率之后,让他们去弯道超车。

中国现在股市规模非常小,相对于美国而言,中国的股市规模和中国的经济体量是不相称的。中国现在私募的规模、对冲基金的规模,跟中国的经济也是不相称的,这些行业最起码再有10倍的增长,是不是把人数提高10倍才做到?我并不这样认为。是我们要跟美国比有更高的生产力、更高的效率,我们才能做到这一点。

中国现在非常多的行业效率都比美国高,比如我们的高铁效率不知道高到哪里去了。我们的金融能不能做到?能做到,但并不是取代这些人,而是这些人在更先进的武器的武装之下来完成一场革命。但另一方面,我们不能对技术抱有一个太高的期望,因为历史一次又一次证明,每一次所谓的我们要想通过图灵测试的实验都失败了,金融这个领域里面,你说我们去创造一个投资机器,比世界上所有的人都牛逼,比世界上最聪明的人都牛逼,跑赢市场,那是不可能的,这是一种幻想。但是很多人真的有这种幻想,我不希望大家有这种虚假的期望。只有在真实的可以达到的目标上,我们才能跟大家一起创造价值。在这个领域内并不是每个人都这样想的,可能文因互联会往这个方向走,我相信有很多其他的路可以走得通。

智能金融的核心作用是认知辅助

在我看来智能金融的核心作用,不是去替代人,而是去辅助人。 是因为我们人的认知能力是有限的,我们的大脑能记住多少东西?所以为什么我们电话号码要分成4位一组,因为5个数字,我们就记不住了,我们的记忆力是有限的。在草原上的时候,如果有8只狮子来了以后,你就跟不住了,两只狮子,你可能记得住,8只狮子,你肯定记不住,这就是我们人作为一种生物,我们的记忆能力,我们的辨认能力,我们的逻辑推断能力都是有限的。机器可以帮助我们,机器不断延伸我们的手和脚,机器可以帮助我们记忆,这就是现在人工智能技术能够帮助我们的。这可能太抽象了,我举两个例子。

这是什么?这是中国古代的书,这是《孝经》,但古代的书是没有标点符号的。《师说》里面说,句读之不知,惑之不解,或疑焉,或否焉,小学而大遗,吾未见其明也。韩愈他就看不起标点符号,这是在唐朝的时候,我们中国很早就有标点符号了,到民国的时候才普及标点符号的。标点符号起到什么作用?认知辅助。

在之前2000多年的时间,可能3000年,从甲骨文算起的话,我们中国人都是在忍受没有标点符号,能想象这件事情吗?我们忍受了3000年没有标点符号。那时候的读书人会认为,标点符号有什么用?不就是让你知道哪里的断句吗?这有什么价值?提高一点效率有什么价值?这就是那个时代的文盲率这么高的原因。我们在100年前的时候,我们做了语文的革命,我们有白话文,我们有了标点符号。

《人类简史》里面就讲到,人类的进化历史上面有过好几次认知革命,正是由于认知革命把我们带到了今天。在《人类简史》里面讲到了,认知革命发生在大概5万年前,我们发明了语言,准确地说是定语、状语、补语,就这么简单。我们不断发明新的认知辅助工具。在30年前的时候,又出现了这样一种认知辅助的了不起的工具。

这就是电子表格。它可能没有定语、补语、状语这么伟大,但是这件事情也创造了一个千亿美元的产业。我们现在回到70年代的时候,我们去想,如果你是70年代金融机构的负责人,现在你有个研究员说,老板,我要买电子表格。你可能会说用电子表干格吗?不是已经有数据库了吗?有什么问题数据库不能解决的,不就是表吗?电子表格这个东西,我们现在看,好像每个人的生活中都离不开。所有电子表格能干的事情,数据库都能干,只不过是更低的效率。数据库是面向机器设计的,数据库的核心,就是如何让查询速度更快一些。

电子表格是为了人观察数据和编辑数据。为什么每一个 Excel ,大家最后都会去生成图表,图表跟数字有什么区别?不都是本质上一样的东西,为什么要弄一张图表?认知的需求。一个数据库,什么样的人能用数据库,至少也得大学本科以上,你要会写 SQL,还会编程语言,你才能用数据库。电子表格这个东西初中毕业生就能用,只要我会打字就能用,这就是电子表格作为一个辅助人的工具,它能够起到的作用。

在智能金融这个领域,我认为能够起到的就像70年代的时候,电子表格起到的作用。现在我们面临的数据,不仅仅是表格型的数据,上下游产业链也好、公司的股权结构也好、人和人之间的关系也好,都是错综复杂图的数据,远远超过了表格。关键是怎么把复杂的关系进行简单化,动态的进行展示、过滤、查找、建模。

比如说我们做财务的建模,这些东西都不是传统的 Excel 能够承载的,大家在用 Excel 来承载,没有错,但这就好像在没有数据库的时候,大家用文件也在进行模拟数据库一样。其实我们用文本文件,就可以去做所有数据库的操作了,但是那样是非常麻烦的。所以我们现在在用 Excel 来做这些金融分析的时候,其实也是非常麻烦的,只是大家不知道有更好的方式而已。

我第一次到北京来的时候,是1999年,为了查论文,我得跑到国家图书馆里头去复印,4毛钱一张纸去复印,研究生院还要专门给我钱做这件事情。那是一个非常麻烦的事情。20年后,大家会觉得今天做的所有事情都跟那一样的麻烦。

智能金融就是超越 Excel 的分析手段。首先可能会击破很多人对智能金融的幻想。实事求是地来讲,我们能够做到的事情以及能够创造的价值,就是让非表格型的数据,能够非常方便地去展示出来、关联起来,让大家在 Excel 里面所表达的那些世界观,用一种更方便的方法表达出来。我觉得这已经足够好了,这就能够创造万亿美元的产值。

读完上篇,你是否对智能金融的本质有了更多了解?它并不神秘,也不是用来取代人类,相反,它能够极大地帮助金融从业者提高效率。明后两天本号将继续推送智能金融的破局(中)、(下)。也欢迎各位读者在评论区中留言阐述您对智能金融的看法。

文因互联
文因互联

当人工智能遇见金融

产业智能金融
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

暂无评论
暂无评论~