Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

非洲最大机器学习实验室主任Ben Rosman : 如何让非洲不在AI时代落后

导语:Eye on A.I.是由纽约时报资深记者 Craig S. Smith 主持的一档双周博客节目。每一期节目,Craig 都将与这一领域有影响力的人物进行交流,推进广义环境中的机器智能新发展,思考技术发展新蕴意。

机器之心为此系列对话的中文合作方。以下为此系列内容的第五篇,Craig Smith 与非洲最大机器学习实验室主任 Ben Rosman 展开的对话。

CRAIG : 大家好,我是 Craig Smith,这是一个有关人工智能的新播客。我之前是《纽约时报》的记者,现在专注于 AI,我将与致力于该领域的人对话并呈现最有趣的内容。这周与我对话的是 Ben Rosman,他是南非约翰内斯堡威特沃特斯兰德大学的一位助理教授。Ben管理的机器学习实验室可能是非洲大陆上最大的机器学习实验室,他也是 Deep Learning Indaba 的创始人之一,这是一项试图将非洲的机器学习统一到单个框架下的努力。Indaba 的意思是聚会,这是非洲第二大的此类组织,仅次于 2015年设立的 Data Science Africa(DSA)。我将与 Ben探讨非洲在人工智能革命中所面临的挑战以及 Indaba和 DSA在联合非洲,保证非洲不落后方面所做的努力。希望你会和我一样认为这一对话很有趣。

BEN : DSA 的启动时间稍早一些。在非洲东部的肯尼亚、乌干达和坦桑尼亚等国家有一些很强的研究者,我想他们与英国联系密切。英国一些知名人士也参与了将其打造为一个年度会议的过程,而他们谈到更多的是数据科学——对于产业界来说,数据科学机器学习有更多的应用。从某种意义上讲,这更像是从数据中提取见解。这已经持续几年了,然后两年前启动了 Indaba,这主要是一个夏季的学校——为期一周的密集培训,还会有非常深度的技术讨论和实用方向的课程等等。所以这是第一次将人们引入非洲的机器学习社区,同时也构建这一社区。现在这已经有所成熟了,我们也希望在这两个团体之间构建联系。比如说,我们已经设立了一个机器学习数据科学非洲邮件列表,意在将所有人都聚拢到一处,让他们能够彼此联系。这样也能避免他们产生项目竞争。他们基本还是会遵照他们一直都在执行的任务,只是完成的方式会有所不同。

CRAIG : DSA 是不是更倾向于非洲东部,Indaba则更倾向于非洲南部?

BEN : 我想,从它们的启动方式看,这是对的。我和 DSA的一些人谈过。他们说原本的计划是到处移动,但一开始所针对的社区都位于非洲东部。我们在南非启动 Indaba的原因是我们八个参与启动的人都是南非人。

BEN : 所以我们就在这里启动了,第二年,也就是今年,我们又在南非举办了一次,但我们仍然还需要做一些有关结构调整的事情,我们仍然在尝试。我们还没法轻松地将其转移到南非之外。尤其是对于赞助这类事情。我们想要很多本地赞助。如果去国外,你很可能会有这样的印象:显然你们能在 AI领域做很多出色的事情,但你们却非要到外国去做。所以我们想,不能那么做,那是个错误信号,我们需要本地的赞助者。所以我们在南非举办了两次,但未来计划转移地方,因为我们的整体目标是增强非洲的机器学习实力。所以明年会在肯尼亚的内罗毕举办,部分也是因为 DSA一直都在那片区域培育社区。

CRAIG : 那资金来自何处?是政府赞助还是私营企业?

BEN : 到处都有。首先对于非学生的参会者有门票费,但这不是主要的收入源。主要还是靠赞助。我们已经得到了很多国际赞助。国际社区是很棒的。很多大型科技公司都投入了不少钱,而且我们也花了很多时间走访南非的公司,包括很多银行和保险公司,还有一些创业公司也提供了赞助;因为这契合我们更大的使命,也就是在整个非洲构建一个围绕机器学习的生态系统。所以我们想要各行各业,来自社会各个部分的参与者。这也是我们相当重要的一个动力。而这也与招聘等事项有很好的联系;因为如果你希望社区增长,所以人们需要看到参加这个活动能提供可行的职业选择等各种便利。

CRAIG : 所以目标就是让非洲有能力提供让人们在这片大陆上学习的机会,而不是让每个人都跑到美国、中国或欧洲去学习。

BEN : 需要说明几件事情。我们启动这一项目时看到的一个明显现象是,到目前为止,在NeurIPS等顶级会议上从没有过一篇非洲论文——当然有一些来自非洲的作者,但他们都属于国际的研究机构,这一直是我们所有人的烦恼。这完全是从学术的角度说的。我们认为,显然有些地方不对劲,我们必须做出改变。我们都知道非洲有一些足够好的研究工作,但社区非常分散,而且通常也非常缺乏信心。事实上,当我在英国进行博士研究时,虽然我有一段非常棒的国外研究时光,但那时候我不能研究我在南非想要研究的东西。

BEN : 我希望这样事情不会再发生。如果有人想到国外学习,我们非常乐意提供帮助,鼓励他们,提供建议,确保他们找到合适的位置,但如果没有必要,他们不应该那么做。对于如何培育非洲的生态系统,我们有很多不同的想法;其中之一是开始提升研究质量,但与此同时也重点关注创业公司方面,让研究各个小项目的人都能享受到一定程度的社会福利,我们认为如果我们可以提升所有这些人的技能,我们就可以让他们与世界各地的做同样事情的人竞争。事实上,很多时候重要的不是提升技能,而基本上是软技能和信心等东西。

BEN : 加上现在网上可用的材料那么多。我们将会有一些申请者来自你都不知道有大学的国家。他们会谈到他们在空闲时间研究的各种各样的项目。这和任何地方的任何人都是相似的,让人振奋。所以我们要把这样的社区聚拢起来。我们也已经做了一些事情,比如我们鼓励所有学生在 Indaba期间展示海报,而且今年我们有一个议程是关于如何写一篇优秀的研究论文等事项的。我相信这已经改变了一些人的认知。参会的人看过之后会意识到:我也能做到这个嘛,明年我还会再来,我会写一篇论文来参加。其实要改变的只是一些心理因素。但如果没有外部的推动力,这会很难实现。

CRAIG : 非洲这里的人才情况如何?我和中国的人谈过中国的合格研究者的数量,也与北美的人谈过那里有多少合格的研究者。您知道非洲的情况吗?

BEN : 我希望我知道。但数量不多。当我在海外时,我参加过一个非常大的硕士项目,我奇怪地认识到我的基础可能和来自世界各地的其他人一样好,甚至可能更好,但我没有学习过过去三十年内发明出的东西。我想在一个时间较久而且规模仍然很小的学科就会这样。现在我们看到整个深度学习领域都在爆发,很多充满热情的年轻人进入了这一学科,并为机器学习深度学习数据科学而振奋。

BEN : 我认为这正在带来很多变化。在南非是肯定的。我不清楚非洲其它地方的程度如何,但在这片大陆上肯定已经形成了一些社区。所以作为 Indaba的一部分,我们还有另一个名为 IndabaX的倡议。我们号召任何国家的任何人申请在当地举办小型活动。当地的所有组织工作会由他们自己完成,我们会提供一些财务支持以及帮助寻找演讲者等。我们甚至不会说应该采用什么形式。现在从津巴布韦到苏丹,我们已经有 30个卫星活动,这是很了不起的。这非常激动人心,现在我们已经开始号召今年的活动了,我们希望今年能再多 20个,这意味着又会有 15或 20个社区在不同的国家开始发展。

BEN : 我们想要努力培育这些活动,在他们之间构建起一个网络,因为在这些国家有很多出色的人。对于我们的所有申请者,我们都有非常严格的审查和评估流程。在这片大陆上有很多出色的人,所以我们希望能推动他们走到一起。我期望这会产生相当大的影响。

CRAIG : 哪个机器学习部门或机器学习项目最大?

BEN : 哈哈,我可能有些自我吹嘘,但我认为是我所在的约翰内斯堡的威特沃特斯兰德大学。这是南非最负盛名的两所大学之一,而南非不管在历史还是经济方面都处于优势地位,在学术方面也是一样。而且我们已经在我们大学大力推动机器学习了,至少从研究发表的情况看是这样。过去非洲在所有的大型人工智能机器学习和机器人会议上都没什么存在感,但最近一两年我们开始代表我们的研究实验室频繁出现在这些会议上,现在我们也在尝试和其它国家的实验室合作,也让它们达到这样的状态。

CRAIG : 您的项目或大学的项目有多大规模?

BEN : 这非常复杂,因为从数学到统计学再到各种工程学科都有很多活动在不同的学校开展。我们实际上正处于寻找指导者以便将所有人都整合起来,从而避免孤岛效应的阶段。但我们在第三年才开始机器学习课程。所以我们是在向计算机科学学生提供第三年的课程,我们目前有大约 80位学生,还有一些硕士项目。

BEN : 现在我们已经开设了数据科学硕士项目、人工智能硕士项目和机器人学硕士项目。我不清楚所有的具体数字,但我教授的一个荣誉机器人学课程有大约 20到 25个学生。

CRAIG : 整个非洲训练有素的研究者应该有几百或几千人吧?

BEN : 我估计在机器学习领域活跃的人数是小几百人。是的,我相当确定不难整理出一份名单。

CRAIG : 我提这个问题的原因是这对经济会有很大的影响,没有足够能力的国家或大陆会处于劣势。这是你们担忧的问题吗?

BEN : 是的,当然是。我们非洲有各种各样历史上的不平衡仍在尝试解决。在去年 Indaba的开幕致辞中,我们大学的副校长在开幕演讲中就谈到了这一点。

BEN : 他那时刚在中国之旅后归国,他在中国见到了人们为了推进人工智能发展而做的努力。他说他有一个不祥的预感:我们忙于关注而且仍在试图纠正过去的错误,我们将在人类历史的最大规模的创新爆发中落后。所以我们一直都受到这个愿景的驱动,去和银行以及大公司对话。你知道的,南非,尤其是约翰内斯堡,在金融行业是很强的,我几年前发现所有这些银行这几年都突然决定需要数据科学团队和人工智能团队了。但人才不在这里,所以我们希望能与它们合作做各种各样的事情,比如让他们为学生提供资助,我们也在探索能帮助已经在这一行业的人提升技能的项目,让他们具备更多机器学习技能。

CRAIG : 非洲有国家已制定了明确的人工智能发展战略吗?

BEN : 这是个很难回答的问题。

CRAIG : 或者说说资助情况。

BEN : 我认为目前这方面的努力还不够协调,但很显然人们正越来越多地认识到这是一个需要资金的重要领域。我实际上不知道非洲其它地方的情况,但在肯尼亚有很多我们刚谈到的活动,不只是之前的 IndabaX,明年我们还会与他们举办 Indaba;还有苏丹,他们也曾举办过 IndabaX,他们也讨论过,当地有些团队正在寻求政府的合作,让他们有兴趣参与进来推动这些工作。听说他们对人工智能的态度很乐观。我听说卢旺达也很重视,他们显然也在前瞻性地思考有关技术和创新的问题。但我没什么一手的经历。

CRAIG : 尼日利亚呢?

BEN : 尼日利亚很有意思,我们与肯尼亚有一些波折,几乎就要把我们的网络扩展到那里了。我们去年是有些波折。我们仅有非常少的尼日利亚参会者。我们没在那里举办 IndabaX。但今年我们开始与那里的人建立联系,也提出了这些事情和社区参与。我们仍然不能很好地处理那里的事情。就我所知,那里有很多活动,但很不协调。那里有很多大学,但我感到他们没有整体向这个方向推动。我想只有到研究者的水平达到了某个临界点之后这才会实现,我想目前还没达到。

CRAIG : 除了能力,还有让研究达到当前最佳的问题。

BEN : 这是我们都在努力解决的问题。

CRAIG : 令人恼火的是,这里的激励机制的设置方式是:你在没人读的 South African Journal 上发表一篇论文比在主要国际会议上向你的同行展示成果的好处还更大。所以,我们参与 Indaba中的一群人正在努力反对这种事。因为我回到了非洲,我也一直在大力反对这个情况,现在我们已经在到处发表文章了。我可以说达到了前沿水平,而且有竞争力。我们网络中有越来越多的团队也开始在做这件事,我们希望能在这一路上为他们提供鼓励和帮助。过去两年,在 Indaba上出现了很多真正很优秀的成果,真的很出色。还是那句话,我认为作者、研究者和学术界缺少的是信心以及将成果呈现出来的方法。所以我们是有一些出色的东西——既有强化学习领域的基础研究,也有教育和医疗等领域的一些应用。

BEN : 但总体而言,非洲大陆上有很多人都在致力于解决非洲的机器学习问题。事实上有很多人不只是在搞研究,也在建立公司和开发应用来帮助社区。有很多创新。

CRAIG : 我的下一个问题是:非洲最大的企业生态系统在哪里,南非之外的情况如何?

BEN : 南非和肯尼亚非常大。同样,我没有这方面的具体数字,但在肯尼亚有一个创业公司生态系统正在兴起。那里有很多开发者和程序员在创新和尝试新事物。

CRAIG : 非洲的研究者和企业家能获得哪些数据。这方面开放透明吗?

BEN : 嗯,怎么说呢……在南非,我们有「个人信息保护法案」,意在像世界其它地方一样保护数据,但人们是不是真的遵守,却并不总是很清楚。

BEN : 只要你和合适的人去聊,你都能轻松地得到数据;你知道,我们会尽力做到我们作为大学的义务,但很容易会遇到一些人会向你展示和介绍他们使用自己公司的数据所做的事情,你不会完全相信他们不应该被允许做这些事。但我认为非洲其它地方在监管方面没有做太多工作。但肯定是有一些有趣的数据集,因为你知道的数据总是越来越多——不管是人口数据还是卫星数据。每个政府都有自己的项目,这些项目都有数据,但不幸的是,你不能直接就拿到这些数据。这通常涉及到认识合适的人,找人介绍和协商。有意思的数据集有很多,这也带来了一些激励,因为你知道这些数据可以用在很多地方——从监控不同种类的牲畜和作物到预测人口流动这些事情。都很激动人心。

CRAIG : 你能举个激动人心的数据集案例吗?

BEN : 这方面的事情是相当有趣的,我有一位同事正在研究犯罪报告。他启动了一个项目,试图从 Twitter挖掘事件报告;然后他发现了一些很有意思的问题,比如南非有 11种官方语言,很多人都使用混合语言进行交流。各种各样的缩写中混杂着大量俚语。实际上有很多有趣的项目就是想要理解这些内容,不只是网上的这些非正式语言,还有各种不同口音和语音模式的混杂。

BEN : 但与此同时,如果想要找到本地的犯罪情况,我们不能使用国际上使用的这些地名。你也必须去挖掘这些东西。由于历史原因,很多地方的名字被改来改去,这些复杂性也都要考虑到。你不能直接就将适用于世界其它地方的某个系统用在这里还指望它有效。我们有过类似的事情,我们之前开发的一个项目是我们的机器人团队做的自动车,我们直接下载了用于目标识别的数据集。当这个机器在路上驾驶测试时,它将我们校园里的每栋建筑都标记成了「监狱」,只是因为这些建筑的结构都是七十年代式的。而且这里的光照也不一样,所以会剔除很多的东西。这些奇怪的问题往往会出现在意料之外的地方。

CRAIG : 你构建这个社区,让年轻的研究者留在非洲,未来的希望是什么?

BEN : 我们希望能达成一些综合的效果。围绕这方面的兴奋越多,我们就能让越多的年轻人学习 STEM科目并完成它们,并且也变得对数学和科学更有兴趣。但更具体而言,我们非洲显然有很多问题,我认为获得这种水平的技能似乎是解决这一问题的最直接的方式。而不是依靠政府,政府基本上在世界每个地方都帮不上忙。你知道,有很多充满热情的人都有很多优秀的想法,他们在帮助解决医疗保健、教育、透明性和政府、犯罪等等各种问题。我们有去做这些事情的技术。我们只需要将这些事情聚合起来的能力,解决一些困难的技术问题,然后真正地去部署解决方案,我认为这会具有巨大的变革性。通过这样的技术,我们可以找到解决贫困、难民和干旱等所有危机的方法。我认为,如果我们能够开始培养许多热情的,让他们了解这些领域,也将能做出国际的贡献。只要你去参加这些大型会议并且谈论这些问题,其他人就会了解并且参与进来。这不是出于慈善目的,而是想要成为国际社区中一个平等的角色,也能提出问题和解决方案,平等地参与到这些学术界的讨论中。

CRAIG : 您能谈谈您的研究吗,比如在强化学习方面的研究?您想要解决什么问题?

BEN : 当然可以。我认为我们的核心研究更偏基础而不是应用。我的实验室感兴趣的问题是迁移和多任务学习方面的问题。实际上,现在很多机器学习研究都围绕着窄人工智能问题。基本上也就是一个数据域,比如围棋和国际象棋这些。我们可以构建一些能在解决这些问题上表现卓越的智能系统。通常优于人类水平。但对我而言,这某种程度上没什么意思。我希望一个系统既能解决这个问题,也能用于解决其它需要解决的问题。

BEN : 所以这实际上涉及到知识或技能的多样性,我们的很多研究都围绕着这些思想——你如何得到你通过解决一个问题而获得的知识,然后提取出适用于这个世界的东西;你也许可以宽泛地称之为常识知识,你可以假设你能通过解决很多不同问题来累积得到?或者我如何将习得的多项技能组合起来,让我得到更通用的技能?你知道,如果我某天买了一个机器人回家,并且教会了它擦地板,然后我希望教会它拖地;那么它既然已经学会了擦地,那么学习拖地应该会更简单。此外它的擦地功夫也应该越来越好,因为它现在可能更有技巧且经验更丰富。

BEN : 这里处理不同类型的技能和不同种类的问题的思想显然属于机器学习领域,尤其是强化学习领域。也就是涉及到智能体(不管是机器人还是其它什么系统)根据试错学习通过混合自己的经历来学习这些技能,或者可以在某人的指导下或通过观察别人的行为来学习,并以一种能帮助泛化的方式来组合所有这些知识。

CRAIG : 具体来说,您能分享一些实验案例吗?

BEN : 当然。我们研究的领域偏向于强化社区的人所做的标准研究,也就是视频游戏和模拟机器人等这些东西。这在非洲还很有限。获取实体机器人就更难了。而且因为我们做这个研究,做这些玩游戏的智能系统,人们往往觉得这是件怪事,但实际上,如果你关心的是决策问题,这实际上就是这些努力的方向。

BEN : 在下国际象棋时,你需要做一系列决策,难点在于这不是监督学习中的那种一次性决策,比如是否存在行人,是否有猫猫狗狗这些。下棋涉及到一系列决策,期间你不会知道结果。只有最后的反馈信号告诉你输了。现在你必须搞明白是因为一开始失误了,还是一直都下得很差?还是只是到最后才运气不佳?所以为了测试我们开发的算法和方法,真的非常需要一个能够进行测试的场景。然后你会问,如果我修改一些地方又会怎样,艰难的尝试,还要尝试反事实的方法和其它选择。而且就算这些技术可在金融决策和长期医疗保健等方面应用良好,你也不能模拟上百万种可能性去比较我的算法与可能最好的情况。

BEN : 所以我们需要这些领域,视频游戏是非常好的平台。我可以让智能体日夜不停地练习数百万次,以达到最佳的性能。所以我们往往是在这样的设置中进行研究,但由于我们的研究的多任务的本质,我们往往不会直接使用标准的视频游戏。对吧?国际象棋的目标就是赢,所以我们往往研究更复杂的视频游戏以及机器人模拟——我们希望让它学习捡拾物体或放下物体或开门等事项。然后我们尝试寻找围绕这些行为得到结构化知识的方法。因为这就相当于人们用来测试监督学习算法或目标识别算法的大型图像数据库。但同样,在决策范式中,你不能只有一个数据集。你需要模拟器这种可以交互的东西。

CRAIG : 如果你想要更深度地了解我们今天所谈的内容,你可以在 https://www.eye-on.ai/ 找到本节目的转录文本。希望你也能订阅 Jack 的新闻源:https://jack-clark.net/。你觉得本期播客有哪些你感兴趣或觉得有用的内容,你是否有帮助我们改进节目的建议,请与我们分享。请注意,奇点也许尚未临近,但人工智能即将改变这个世界。

产业机器学习非洲Ben RosmanCraig Smith
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

多任务学习技术

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

暂无评论
暂无评论~