以机器学习为代表的人工智能技术是当下最为热门的技术研究方向之一,其被认为对经济、社会、科学等都会有颠覆性的重大影响。近日,英国皇家学会(Royal Society)发布了一份题为《机器学习:能通过样本进行学习的计算机的力量与希望(Machine learning: the power and promise of computers that learn by example)》的专题报告,对机器学习进行了较为全面的概述,其中涉及到机器学习的基本概念、发展历程、应用、创造价值的方式和研究前沿等。值得一提的是,该报告的参与团队阵容非常强大,其中包括 Uber 的首席科学家 Zoubin Ghahramani 教授、Google DeepMind 的联合创始人兼 CEO Demis Hassabis 博士和亚马逊机器学习主管 Neil Lawrence 教授等,以下为参与名单:
据信,英国皇家学会是全世界历史最悠久、而又唯一从未中断过的科学学会,在国际上享有盛誉。在事实上发挥着英国国家科学院的作用(英国没有国家科学院)。其一贯宗旨是支持和推动英国及国际间自然科学和应用科学的发展,倡导以科学成果造福全人类。其网址首页上载明了学会的三大职能,1、英国国家科学院;2、科学学术团体;3、科学研究与交流的资助机构。艾萨克·牛顿、伯特兰·罗素、亚当·斯密等许多著名科学家都曾是该学会的成员,目前在世的著名成员还包括斯蒂芬·霍金和杨振宁等。
机器之心在本文中对 TechCrunch 关于该报告的报道进行了编译介绍,并在文后编译补充了原报告的执行摘要及其它部分内容。感兴趣的读者也可点击文末「阅读原文」查阅原报告。
报告地址:https://royalsociety.org/topics-policy/projects/machine-learning/
什么能够推动科技巨头 Google,Amazon 以及 Uber 在机器学习技术上的前进,并且最终为它们自己领域平台的引擎注入更多的动力呢?毫无疑问,是数据,这些公司追求对数据访问的权利,很多很多的数据!
这些公司正在推动社会对公共资助数据的免费且自由的访问,敦促这种类型的数据可被持续「默认开放」,并且以一种支持「更广泛研究」的形式实现结构化。毕竟,在存在大量的公共资助的信息的情况下,为什么还要去花钱购买数据呢?
这个机器学习技术进步的期望清单上的其他项目还包括:数据的新型开放标准 (包括元数据);在道德上可能具有最广泛的认可的研究设计;以及一个重新思考「许可」概念的明确期望来充当良好数据管理的核心,以使得支持数据访问的通道更加流畅,使得数据拥有者在人工智能时代更加「适应目标」。
以上这些建议来自皇家学会(也就是英国国家科学院)4 月 24 日发表的长达 125 页的报告《机器学习:计算机的力量与希望》, 其作者呼吁营造一个可以让机器学习技术走向繁荣的环境,以解放备受争议的生产力,进一步发展经济。尽管这里还有一个亟待解答的问题:谁会随着越来越多数据放弃珍贵的洞见而最终受益。(虽然技术最强大的机器学习部署平台的三个巨头支持同一个一个答案。)
争夺公开的数据
题为《机器学习:计算机的力量与希望》的报告是皇家学会机器学习工作组的工作,其 15 名成员包括目前正在大规模部署机器学习的三家公司的员工: Google DeepMind 的创始人兼首席执行官 Demis Hassabis,DeepMind 的研究科学家 Yee Whye Teh; 亚马逊机器学习总监 Neil Lawrence; 以及现任 Uber 首席科学家 Zoubin Ghahramani。
报告的主要议题集中在对于一些问题的担忧上,但讨论结束于对于长远方向前瞻性研究的鼓励,这符合一份严谨科学报告的特质——尽管其中对有关问题的担忧程度是不容忽视的。
报告赞扬了英国在提高公共部门数据可获取性方面取得的「良好进展」,敦促人们朝着「政府开放的机器学习数据新浪潮」做「持续努力」,以增强公共部门数据的可用性,并呼吁政府探索能够促进新型开放标准数据安全、快速交付的方式,这些标准反映了机器驱动的分析方法的需求。
但是,早期的「战略数据集的价值」的参考资料在报告中进一步被详细地展开了,因为研究者们认识到早日获得这些有价值的公共资金数据可能会锁定商业优势。(虽然你不会在整篇报告中发现任何一处「垄断」字样)。
「意识到一些公共部门的数据的价值是很有必要的。尽管让此类数据公开化会带来益处,但是考虑如何分配利益是很重要的,」作者写道,「那些具备访问权限的人能够获得「先行者优先反馈」的优势,这是很重要的。当有这样的价值时,战略性地管理重要数据集或数据源将会变得越来越有必要」。
报告中没有这样的「先行者优先反馈优势」的例子,但在现实世界中,这样的情况已经数不胜数,DeepMind 与 NHS 就有医疗数据访问的合作伙伴关系。尤其是当看到 Google 的一些子公司与伦敦皇家自由 NHS 信托基金会达成的原始数据共享协议 存在争议——因为它们在没有病人知情或同意的情况下得到了接触信息的许可,并且在启动时将其作为启动应用程序。DeepMind 正在 NHS 的数据基础上开展一个雄心勃勃的计划,试图构建一个病人数据 API 来代理第三方应用程序制造商去访问 NHS 数据。同样也是相关,但未被提及的是:原始的 DeepMind-Royal 免费数据共享协议仍在英国数据保护监督机构的调查之下。
与目前的情况相反,《机器学习》报告十分重视 NHS 的数据的价值——将其描述为「英国重要的数据资产之一」——然后才将第三方访问英国公民医疗记录的概念作为「个人隐私 vs 公共利益」的情况。报告提出发展「适当受控的获取机制」以解决它 引起的这种「不平衡情况」(再一次,其并未提到 DeepMind 已经设定了自主任务以开发受控访问机制)
他们写到:「如果这种平衡问题得到解决,并且出现适当的开发受控访问机制,则 NHS 数据的潜力巨大,其可以提升 NHS 的功能并改善医疗保健服务。」
然而,我们不并知晓将价值巨大的医疗保健数据从政府资助的 NHS 中分离,谁会在经济上受益。即使常识告诉你,Google 或者 DeepMind 相信,这是一桩有利可图的生意,他们可以免费获得数百万 NHS 患者的健康数据,且这将赋予他们先发优势,包括通过控制访问基础结构将自己纳入医疗保健服务体系的机会。
在该报告的一份总结中,工作组的另一个成员,Amadeus Capital Partners 的联合创始人 Hermann Hauser 激动地讨论了利用机器学习技术的企业潜在的变革机会。他表示:「机器学习在商业中的应用还有很大的发展空间,它将会是帮助组织利用他们自己以及其它数据的重要工具。为了实现这些潜在的巨大经济效益,企业需要获得不同层面下的正确技能。」
「经济效益(economic benefits)」一词至少在这里被提到了。但投资者存在的理由就是要实现最后的退出。机器学习公司轻易的退出则向参与 AI 人才战争的科技巨头们输送了大量的效益。
2014 年,Google 以超过 5 亿美元收购 DeepMind 仅仅是一个例子。所以投资者有其搜寻不太严格的公共部门数据治理制度的方法——如果一个 AI 创业公司赌卖给一个科技巨头,而非自发壮大,那么它们仍然可以获得收益。
康奈尔科技技术法律和政策研究员 Julia Powles 对于大量企业以公共部门数据泄露为前提从中获利的想法表示遗憾。「小公司可以利用他们的数据的想法只是一个谣言,」她曾对 Tech Crunch 表示:「只有真正的巨头才能从中获利。」
影响转移
显然,该报告的另一部分花了相当的时间关注技能——讨论了政府如何鼓励「机器学习从业人员的发展通道」,包括敦促政府将机器学习作为博士学位的优先领域,并为 1,000 个额外的博士(或更多)提供短期资助。对于那些掌握大部分资金,想要吸引这些拥有巨大价值的人员的科技巨头来说,机器学习博士当然是其雇佣的首要选择对象。因此,如果公共部门资助这些额外的博士学位,那么 Google 等科技巨头将首先从顶级学术层面的增长获得收益。
考虑到人工智能对工作的潜在影响,技能讨论(其中包括调整学校课程以涵盖未来五年的机器学习知识)稍后将在报告的另一部分重新得到评估。本次报告不可避免地会得出机器学习至少会发生「变革」的结论——而且可能导致大量劳动力的就业前景发生影响转移,作者也认为这种变化可能会增加社会不平等。
所有这一切根本上打破了一些人乐观的设想,即「每个人」都能够适应以机器学习为驱动的未来,因为你不会为不存在的工作学习某种技能……在报告作者的眼中,人工智能的发展将产生巨大的财富和就业不对等,而且还引入了一个集体责任的全新理念(零所有权制度,zero ownership)。
「机器学习及其对就业产生的可能重要的后果所积累的潜在利益需要得到积极的管理,」作者写到。「如果缺少这种管理工作,机器学习的好处或许就只能覆盖到少数人,而使另一些人落后,或使他们由于社会地位变化而处于不利地位。
「虽然目前尚不清楚就业市场可能会变成什么样,但如今需要思考的是,社会如何才能确保机器学习使用量的进一步增加,不会助长不平等以及某些群体的不满。如何才能让所有人都享受到机器学习的好处,是所有人都在面临的重大挑战。」
最后,该报告呼吁「急迫地思考」其描述为「未来十年所需的政策尺度,以确保机器学习红利……以使英国社会的所有成员受益。」如前所述,政策制定者和监管机构需要逐步开始构建框架并确定规则,从而确保机器学习技术在公共部门的资产被评估以前都没有机会将其剥离(更不用说该技术使得未来公民无法支付那些花式服务的费用,这些服务是通过用公立数据免费进行训练的机器学习模型所驱动的,它们之后还会被卖回给用户)。
但是说得婉转些,该报告所建议的 10 年时长的框架似乎并无诚意。例如,由于大量的 NHS 敏感数据已经从公共部门流入到了世界上最市场资本化的公司(Alphabet /谷歌/ DeepMind)的手中,从而似乎会有更多的短期问题等待决策者来解决——而不是将其搁置 10 年左右的时间。事实上,议员们一直在敦促有关人工智能问题的行动,比如算法责任。
认知与道德
考虑到一个可能会损害人们的隐私并影响其工作风险的技术是十分不得人心的——不难想象,公众舆论对于该报告的作者们来说是一个需要考虑的方面。英国皇家学院对该报告进行了一次有关机器学习的民意调查,并宣称发现英国人对其褒贬不一。问题显然包括「人格解体,或是机器学习系统取代宝贵的人类经验;机器学习对就业的潜在影响;机器学习系统造成伤害的可能性,例如自动驾驶汽车事故;以及机器学习系统对选择的限制,比如将消费者引导至特定的产品和服务上。」
「公众的持续信任将是实现机器学习所期许的承诺的关键,而随着该领域的发展,机器学习研究人员、从业者和公众之间的继续参与将会变得非常重要,」他们补充说。
该报告指出,大规模的机器学习研究项目应该包括「公共参与活动」方面的资金。所以至少在短期内,可以做一些公关/市场营销类型的工作来承接「自动化的社会效益。」他们还呼吁将伦理道德归入研究生课程的一部分,从而机器学习研究人员就可以感受到「其工作在更广泛的社会意义上所拥有的强大基础。」这是一个及时的提醒,因为大部分已被部署的(以及商业应用的)机器学习技术可能已经被那些缺少如此强大的伦理基础的开发者所改造并实施了。
该报告总结称:「社会需要认真思考机器学习的好处如何才能使全社会成员受益」。换个说法也即机器学习可能会——以全社会为代价——使财富和权力被集中在少数强大的公司和个人手中。无论以何种方式,这其中都有许多引人深思的事情。
以下是机器之心对原报告的目录与执行摘要介绍,报告原文可点击文末「阅读原文」下载。
报告目录
执行摘要
推荐
章节一:机器学习
1.1 从数据中学习的系统
1.2 皇家学会的机器学习项目
1.3 什么是机器学习
1.4 日常生活中的机器学习
1.5 机器学习、统计、数据科学、机器人和人工智能
1.6 机器学习的发源与演变
1.7 机器学习中的典型问题
章节二:机器学习的新兴应用
2.1 在公共与私人部门中潜在的近期应用
2.2 研究中的机器学习
2.3 增加英国对机器学习的吸收能力
章节三:从数据中提取价值
3.1 机器学习帮助从大数据中提取价值
3.2 创造支持机器学习的数据环境
3.3 扩展开放数据的生命周期需要开放的标准
3.4 开放数据技术性替代:模拟与合成类数据
章节四:从机器学习创造价值
4.1 人力资本,在各个层次上构建技能
4.2 机器学习和产业战略
章节五:社会中的机器学习
5.1 机器学习和公众
5.2 与机器学习应用有关的社会问题
5.3 管理数据使用对机器学习的含义
5.4 机器学习与未来的工作
章节六:机器学习研究的新浪潮
6.1 社会中的机器学习:主要的科学与技术挑战
6.2 可解释且透明
6.3 核实且稳健
6.4 隐私与敏感数据
6.5 处理真实数据:公平且完善的分析渠道
6.6 因果关系
6.7 人机交互
6.8 安全与控制
6.9 支持机器学习研究的新浪潮
附加/术语/附录
机器学习中的典型问题
术语
附录
执行摘要
机器学习是人工智能的一个分支,能让计算机直接从样本、数据和经验中进行学习。通过让计算机智能地完成特定任务,机器学习系统能通过学习数据执行复杂的流程,而不是提前编程规则。
近年来,我们看到了机器学习的惊人发展,有能力完成各种应用。数据可用性的增加使得机器学习系统能在大型的样本池上进行训练,计算处理能力的增加支撑了这些系统的分析能力。在此领域内,算法的进步也赋予了机器学习更强大的能力。这些进步带来的结果就是,几年前还低于人类能力的系统,如今在特定任务上已经超过了人类水平。
如今,许多人每天都会和基于机器学习的系统进行交互,例如社交媒体中使用的图像识别系统;虚拟助手使用的语音识别系统;在线零售商使用的推荐系统。随着该领域的进一步发展,机器学习展现出了能够支持大多领域转型、发展的潜力,带来的社会与经济机遇是巨大的。在医疗领域,机器学习正在创造能够帮助医生进行高效、准确诊断的系统;在交通领域,它支持了自动驾驶的开发,助力让现有交通网络更高效。对公共服务而言,它有潜力进行更高效的目标定位,以及零售服务的目标定位。在科学领域,机器学习正在帮助研究人员理解大量的数据,提供对生物学、物理学、医疗和社会科学等学科的新洞见。
英国在历史上曾是机器学习的领头军。从早期的思想者,到近期在商业上的成功,英国做出了人工智能研究中的卓越贡献,从而帮助了机器学习进来的发展。这些在研究与发展中的优势,意味着英国可在未来机器学习的发展中占据领导地位。确保机器学习安全与快速发展的最佳环境,将成为增强英国经济增长、福利、安全以及解锁「大数据」价值的重中之重。在关键领域中的行动,比如建立数据场景图、构建技能、支持商业、发展研究,都能帮助创造这样的环境。
机器学习近期的成功很大一部分归因于一些领域的数据爆炸,例如图像或语音识别。这些数据提供了大量的样本,机器学习可使用它们改进自己的表现。作为回报,通过先进的数据分析提取有价值的信息,机器学习能帮助获得从所谓的「大数据」中期望的社会与经济收益。开发机器学习的这一功能,需要经得起检验的数据环境,基于开放的标准和框架或行为,来保证各个部门的数据可用性。
随着机器学习系统在某些领域变得越来越普及与重要,我们需要有三种技能。首先,随着与机器学习的日常互动成为大多数人的常态,对数据和机器学习系统的了解与使用成为所有人群年龄段和背景所需要的重要工具。在学校介绍机器学习的关键概念有助于保障这一点。其次,为了确保各个领域和职业有能力以一种对它们有用的方式使用吸收和使用机器学习,我们需要新的机制来使用户或实践者获得足够的信息。第三,我们需要进一步的支持来让人们获得机器学习的高级技能。
现如今市场对于高级技能人才的需求已经十分高了,而该领域的专家也受到大力追捧,因此企业需要额外的资源来增加人才库。随着机器学习、人工智能和机器人的发展,大力构建数字化读写能力和高级用户的坚定步伐将有助于英国在就业方面的可能变化。
因为产业进一步吸收机器学习的潜在利润越来越大,这种技术的经济效用可以在帮助英国解决生产力差距上发挥核心作用。各行各业的企业需要获得适当的支持以了解数据和机器学习对其运营的价值。为了满足工业界对机器学习的需求,英国需要利用其在这一领域的实力和相对国际竞争优势支持一个活跃的机器学习产研界。英国的创业环境已经在机器学习方面培养了一些备受瞩目的成功案例,英国应该进一步考虑如何最大限度地发挥这一领域创业活动的价值。
皇家学会对这一点进行了研究以了解市民对机器学习的看法。虽然大多数人没有意识到这一术语,但他们确实知道该技术的一些应用程序。公众并没有一个共同的观点,无论是态度还是积极态度,其都是根据机器学习的使用情况而不同。随着该领域的进一步发展,机器学习与公众的互动将是非常重要的。
机器学习应用可以在特定任务上实现良好的表现。在许多案例中,人类都可以使用机器学习来增强自己的能力。尽管机器学习的发展很显然将会改变就业,但预测其实际的发生方式却并不简单,现有的研究也都给出了各自不同的预测。尽管机器学习有望给英国的经济带来新的业务或领域,但其颠覆性的影响也将给社会带来挑战以及关于其社会后果的质疑。其中一些挑战涉及到数据的新兴使用方式将重塑隐私和许可的传统概念,而其它一些挑战还涉及到人们与机器的交互方式。我们需要谨慎的管理工作来确保社会中的所有人都能受益于机器学习所带来的生产力红利。
机器学习是一个充满活力的研究领域,具有一系列令人兴奋的研究方向,在未来会通过不同的方法和应用进一步发展下去。除了纯技术问题的研究以外,在机器学习领域里还有一些公众非常关心的议题,或是对其广泛使用的约束。因此,支持对于机器学习的研究可以确保公众对于部署机器学习系统的信心。可以开展的研究包括算法的可解释性、鲁棒性、隐私、公平性、因果关系推理、人机交互和安全等方面。
图 1:机器学习和人工智能的发展
18 世纪:统计方法的发展:机器学习的许多关键概念都源自概率论和统计学。这些根基可以回溯到 18 世纪。比如说,1763 年,Thomas Bayes 提出了一个用于概率的数学理论(后来被称为「贝叶斯定理」),其仍然是现代机器学习领域内一些方法的核心概念。
1950 年:图灵测试:Alan Turing 在 40 年代的一些论文探索了机器智能的思想。1950 年,他提出了「机器能够思考?」的问题,并提出了一种测试机器智能的方法。该方法后来被称为图灵测试,即如果一台机器的回应能使人相信它是一个人类,那么就可以说这台机器是智能的。
1952 年:能够玩西洋跳棋的机器:Arthur Samuel 创造了一个早期的学习机器,其可以使用人类专家标注的指示和自我对玩来学习区别好的走子和糟糕的走子,从而学会玩西洋跳棋。
1956 年:达特茅斯会议:「artificial intelligence」这个术语的诞生一般归功于计算机科学家 John McCarthy,他与 Marvin Minsky、Nathaniel Rochester 和 Claude Shannon 等关键人物在 1956 年的一次研讨会上使人工智能成为了一个专门的科学领域。
1957 年:感知器:Frank Rosenblatt 的感知器是创造神经网络的一个早期尝试,其使用了一种由电机驱动的旋转电阻器(电位计)。该机器可以接受图像像素这样的输入,然后得到图像标签这样的输出。
1973 年:《莱特希尔报告》与人工智能的冬天:70 年代,该领域的发展很明显不如人们预期的那么快。一份由英国科学研究委员会发布的报告《莱特希尔报告》指出「该领域的所有部分目前都没有得到有重大影响潜力的发现」。这一评估加上该领域缓慢的进展,最终导致人们对该领域失去信心,人工智能研究资源也一落千丈。
1986 年:并行分布式处理兴起与神经网络模型:David Rumelhart、James McClelland 和 PDP Research Group 发表了《Parallel Distributed Processing》,这是一个两卷本的研究成果,推动了机器学习中神经网络模型的使用。
1992 年:玩西洋双陆棋:研究者 Gerald Tesauro 创造了一个基于人工神经网络的玩西洋双陆棋的程序,其表现可比肩顶级玩家。
1997 年:深蓝在国际象棋上击败当时的世界冠军:深蓝成为了第一个击败当时的世界国际象棋冠军的计算机系统。深蓝利用了 90 年代已经得到了发展的计算机能力来执行潜在走子方式的大规模搜索——据报道其可以每秒处理 2 亿步——然后从中选择出最好的。
2011 年:Watson 击败两位人类 Jeopardy! 冠军:在美国一个电视解密节目 Jeopardy! 上,IBM 的 Watson 系统击败了两位人类冠军。
2012 年:ImageNet 分类赛与计算机视觉的进步:Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 发表了一篇高影响力的论文。该论文所描述的模型赢得了 ImageNet 年度图像识别比赛,并极大地降低了图像识别的错误率。
2016 年:AlphaGo 击败世界围棋冠军棋手:Google DeepMind 创造的 AlphaGo 围棋系统以 4:1 的成绩击败了世界顶级棋手李世石。
2017 年:学习玩扑克:卡内基梅隆大学的研究者开发了一个名叫 Libratus 的系统,其在历时 20 天的无限制德州扑克比赛上击败了 4 位人类顶级玩家。阿尔伯塔大学研究者开发的系统 Deepstack 也报告了类似的成功。
表 1:机器学习领域的典型问题,其中包括:分类、回归、聚类、降维、半监督学习、强化学习