机器之心报道
作者:吴昕
1 月 28 日,以「小数据、大任务」为技术范式的暗物智能科技(简称「暗物智能」)宣布,已于 2020 年年中完成 5 亿元人民币的 A 轮融资,由赛领资本和吉富创投共同领投,联想创投、广州基金、将门创投、花城创投跟投。
作为一家强认知 AI 平台公司和这个领域的开拓者,暗物智能极大填补了目前主流市场强认知 AI 的技术和商业空白。而一手创办这家公司的全球著名计算机视觉专家、统计与应用数学家、人工智能专家朱松纯教授,也是计算机视觉领域的华人之光。
朱松纯与美国加州大学洛杉矶分校(UCLA) 计算机视觉、认知、学习与自主机器人中心(VCLA)的 Tony 机器人,后者代表了 VCLA 致力于解决集成人工智能、视觉和机器人技术问题。方法是构建一个可以查看真实世界的系统,理解它看到的东西,并根据这种理解采取行动。
如果说有谁能将计算机视觉与交叉科学关系演绎得最为深刻与精彩,朱松纯一定当仁不让。
除了三次问鼎计算机视觉领域国际最高奖项——马尔奖,作为新一代人工智能领军者,朱松纯两次担任美国视觉、认知科学、AI 领域跨学科合作项目 MURI 负责人,长期致力于构建计算机视觉、认知科学、乃至人工智能科学的统一数理框架。
除了对视觉领域大方向有着一流的直觉和准确把握,朱松纯也一直往返于大学、公司、非营利机构,希望打通大学、研究院、产业的关节,贯穿产学研。
他筹建了世界最早大数据标注团队,发布了精细化程度最高、语义信息最丰富的大规模数据库 LHI Dataset;他一手创建暗物智能,填补了目前主流市场强认知 AI 的技术和商业空白,让普罗大众都拥有属于自己的 AI。
2020 年 9 月,朱松纯以国家战略科学家身份受邀回国,筹建北京通用人工智能研究院并担任院长,同时担任清华大学、北京大学讲席教授、北京大学人工智能研究院院长。将人工智能大一统理论框架在中国「圆梦」。
出国求学:逐梦「大一统」
1986 年,朱松纯考入中科大计算机系。当时,人工智能正陷入长达 30 多年的低谷(所谓 AI 的冬天),但他很早开始选修人工智能研究所课程。
不同于做着布朗运动的功利主义者,成长在改革开放年代的朱松纯这一代人充满理想,崇尚科学,有着一种理想主义和使命感。
在他看来,人工智能有太多问题需要解释,值得长期探索。如果说在大学做研究是练内功,那么在工业界练的就是外功。无论是上山创立门派还是下山开镖局,都要内外兼修,相辅相成。
当时,人工智能基本还是以符号为主的推理,离现实世界很远,研究人员也很悲观,失望之余,在信息闭塞、没有电邮和互联网的 80 年代,朱松纯通过自己查阅以及跟留学美国老师谈话,接触到神经科学、心理学、认知科学、神经网络等方面的知识,也与计算机视觉不期而遇。
1989 年冬天,寒假回家之前,认知科学实验室的一位老师借给朱松纯一本白皮书,作者是 David Marr,他是英国出生的 MIT 认知科学和神经科学家,也是公认的计算机视觉的创始人。
美国是在 1980 年左右开始创立计算机视觉这门新兴学科,当时国内大多数学计算机的人根本就没有听说过。因为缺乏背景知识,朱松纯当时基本读不懂这本书,但这也成为朱松纯学术生涯的起点。
「误入」计算机专业之前,朱松纯填报的志愿其实是物理。物理学发展犹如追求物理世界统一的宏伟史诗,念念不忘物理之美的朱松纯也希望用这样的「大一统」理论解决人工智能问题,「来构造这个世界最合适于他的风范的、简约的、可以理解的画卷」。(「to make for himself in the fashion that suits him best a simplified and intelligible picture of the world。」——爱因斯坦语)
1991 年,朱松纯从中科大计算机专业毕业。当时,计算机系刚刚有了第一台激光打印机,替代针式打印。朱松纯买了两包「佛子岭」香烟给管机房的师兄,让他一定帮忙把申请海外高校的个人陈述好好排版,打印出来。三页纸陈述中,朱松纯要探索一种计算机视觉统一框架。
大部分学校拒绝了申请,结果哈佛大学录取了他。90 年代,计算机视觉处于混沌初开、大家都在找「北」的时期。哈佛大学、布朗大学这个学派( Pattern Theory 学派)认定了用概率统计建模和计算的方法来研究。朱松纯的导师 David Mumford 正是后来人工智能研究转向概率统计这个新体制的重要舵手之一。
Mumford 以前研究代数几何(Algebraic geometry)并于 1974 年获菲尔兹奖。1980 年代从纯数学转来学习、研究人工智能。Mumford 认为统计是解决视觉问题的关键,并致力于建立模式理论(Pattern Theory),为智能构建一个数学体系(mathematics of intelligence)。当他看到朱松纯申请时,发现两人目标一致。
1996 年布朗大学宣传图片。朱松纯与导师 David Mumford 追逐计算机视觉的统一计算框架。
求学期间,朱松纯一直与导师追逐计算机视觉的统一计算框架。
朱松纯率先将概率统计建模与随机计算方法引入计算机视觉研究。在导师建议下,朱松纯基于归约思想将大问题分解成小问题,从具体问题入手,为 David Marr 提出的早期视觉 (early vision)概念, 包括纹理 (texture)、图像基元 (Texton)以及原始简约图 (primal sketch)等建立一个统一数理模型,使从纯粹理论、计算角度研究计算机视觉成为可能。
句子要符合语法结构,视频中的一个事件也有语法结构,寻找这样一个层次化、结构化的解释正是计算视觉的核心问题。2000 年前后,朱松纯提出图像解译(image parsing)与视频解译,把视觉问题全部纳入一个统一框架来求最佳解,扩展了模式识别创始人傅京孙先生的句法模式识别理论,并于 2003 年问鼎计算机视觉领域国际最高奖项——马尔奖。
2002 年,朱松纯加盟美国洛杉矶加州大学(UCLA),任统计系与计算机系教授,计算机视觉、认知、学习与自主机器人中心主任。在他之前,仅有 Judea Pearl 在 UCLA 计算机系和统计系兼职教授。
涉足人工智能领域近 30 年,朱松纯已在国际顶级期刊和会议上发表论文 300 余篇,三次问鼎马尔奖。作为视觉领域行业领军人物,也打破了华人在国际顶尖期刊话语权微弱的局面。
2019 年 6 月,受中美贸易战影响,美国政府对华为进行制裁,华为员工也被 IEEE 禁止参与审稿。不久,大会官方发表声明「力挺」华为。作为这届大会唯一一位华人主席,朱松纯也在这封公开信上署名,联合申明抵制 IEEE 限令,强烈倡导会议主席、编辑们自由选择论文的审裁权利。
科研攻坚:引领技术范式新方向
提前感知未来大方向,正是顶级研究者的厉害之处。
过去几十年间,每一次重大转折都是因为计算机硬件革命,带来新颖的重大工程问题。90 年代末期感知器革命,让朱松纯预见变革即将到来——因为有了数据。
2005 年,朱松纯回到老家湖北鄂州,带头成立莲花山计算机视觉研究院,并筹建了世界最早大数据标注团队。他们雇了几十位平面艺术等专业的年轻人标注图像,座椅、椅背、腿的轮廓要标得很准确,连杯子和盖子都要分开标记。朱松纯认为图像必须标记得非常细致,还制定了 200 多页标记手册。
十几个人一直标数据,做了三年,数据库也只有几十万张图片。而且到了后来,朱松纯也回答不出如何标记。正是在这一过程中,他洞察到机器学习和大数据方法的局限性,「AI 作坊」注定不是通向通用 AI 的道路。
虽然自己是最早一批提倡统计建模与学习的人,但后来朱松纯看到了更大的问题和局势——光解视觉问题是做不好的,还需要大量认知推理。
「没有多少人有勇气去尝试这件事。」 Mumford 曾这样评价朱松纯,「他确实是当今世界上正在扩展计算机视觉概念,以涵盖人工智能交叉学科重要问题的主要人物。」
2008 年之后,朱松纯转向认知领域的研究,将计算机视觉与认知科学、自然语言理解、机器人等学科结合,探索他所称的「人工智能的暗物质」——占 95%、无法通过感知输入观测到的物质。
比如,你看见了一把椅子,想象身体如何去坐,以及坐下来是否舒服,这里面包括物理、功能、价值观,这些都叫做「暗物质」;一个番茄酱瓶倒放的场景,这里的「暗物质」就是在人们倒放瓶子这个行为中隐含的目的——为了更容易从瓶子里挤出番茄酱。
感知的图像仅仅提供一些蛛丝马迹;而后面的 95%,包括功能、物理、因果、动机等等要靠人的想象和推理过程来完成。只有把这 95% 搞定了,才能去理解剩下的 5%,否则,就只能穷举所有情况。
朱松纯领导的 UCLA 计算机视觉、认知、学习与自主机器人中心(VCLA)也一直致力于计算机视觉、机器人技术和人工智能的 AOG 表征和建模。
AOG(与或图)是一个复杂的概率语法图模型,就像用脑皮层里面学习到的大量的知识来解释你所看到的「蛛丝马迹」,形成一个合理的解。而这种 Top-down 的计算过程在目前深度多层神经网络中是没有的。
在朱松纯看来,他们正在做的是面向 10 年、20 年后的技术——实现自然的(natural)智能。
VCLA 的计算机视觉方法是定义一个视觉语法,并用它来解析图像和视频。上图是一个示例图像和一个可能的解析树。
2011 年,DARPA「MSEE」项目提出一项挑战,分析几个小时从不同摄像机拍摄的视频,并创建一个可以回答人类问题的系统。
DARPA 接受了由卡内基梅隆大学、加州大学伯克利分校和麻省理工学院等多所大学的研究人员组成的九个小组的方案,除了获得高额资助,各小组还有四年时间实现自己的提案。
最后,只有朱松纯领导的 VCLA 还留在比赛中,并成功完成自己的提案。其他小组要么因为没有按时完成任务而被 DARPA 取消资格,要么因为任务太困难而自愿退出。
朱松纯团队做了一个视觉系统,视频的理解输出为一个大的综合 STC-PG(它的母版就是一个 STC-AOG)。在此基础上就可以输出文字描述和回答提问 Q&A。这与后来一些计算机视觉的人研究 VQA 不同,后者是拿大量图像和文本一起训练的,基本是在「扯白」。
MSEE 项目的成功为 VCLA 坚持的技术范式提供了重要机构背书。
从 2010 年到 2020 年,朱松纯连续领导两届大型跨学科国际专项 MURI,带领来自 Berkeley、Caltech、CMU、MIT、Stanford、Brown、Yale 以及英国牛津大学的跨学科教授专家攻关人机交互认知理论、跨领域 AI 融合等新一代人工智能技术的难题。
MURI 项目的人员。朱松纯带领来自 Berkeley、Caltech、CMU、MIT、Stanford、Brown、Yale 以及英国牛津大学的跨学科教授专家攻关新一代 AI 技术难题。
不同的人对椅子感受不一样,其实反映的是人的基本价值函数。为了解答这个问题,团队研究人员用图形学的物理人体模型模拟人的各种姿势,计算出以这些坐姿坐在这些椅子上时,几大身体部位的受力分布图,由此推算出每个维度的价值函数,判断人的价值观,解释人的行为。
2017 年,朱松纯提出「小数据、大任务」范式,主张以此来实现通用人工智能,为探索通用人工智能的道路进一步指明方向。
投身产业:经世致用,服务社会
科研上「清风明月」,但朱松纯始终绕不过另一个关键词——产业界。山上山下两头跑、游刃于学术和工业界,不仅能看到全谱,对很多问题的体会也更深。
科研上著书立说之立言乃人生价值「不朽」之一。开发新产品、改变社会之「立功」同样「不朽」。打造落地产品还需要朱松纯迈出另一只脚,跨过学术和产品之间的那扇大门。
如今,人工智能不仅处在科研领域黄金期,也正处在产业领域的黄金时期。
麦肯锡全球研究院曾估计,到 2030 年,狭义人工智能应用将为全球经济增加约 13 万亿美元,从金额来看,其影响力将超过 19 世纪的蒸汽机。
虽然产业界已实现了让机器「能听会说识物」,但直到今天,由于缺乏可解释性,人工智能和机器人技术很难被广泛应用在关键任务上。
朱松纯团队也一直在寻找能够使机器人赢得信任的有效方法。2019 年,他们在 Science Robotics 杂志上发表的一项研究表明,机器人经过几轮人类演示后,不仅知道如何用安全锁打开药瓶,而且还可以多种方式实时地解释其行为。
在吉富创投 TMT 投资负责人李健全看来,这一波人工智能浪潮有一个很明确的趋势,就是「沿着弱人工智能往强人工智能、超人工智能一路叠浪前行。」
投资已经开始。总部位于西雅图的研究公司 Mind Commerce 曾发布报告显示,预计到 2023 年,通用人工智能的投资将达到 500 亿美元。对于全世界最大的科技公司来说,通用人工智能是一场输不起的比赛,即便结果证明没有人赢。
2018 年底,暗物智能落户中国广州,将人工智能在认知层面的新突破应用于智慧教育等关系国计民生的重要领域,以实现真正的高自然度人机交互和协同。
朱松纯曾表示,教育是关乎国计民生、人口素质和社会发展均衡化的重要领域。而人工智能通过对教育过程的认知建模,可以助力提升教学和评估的效率,为基础和职业教育提供低成本解决方案。
目前,暗物智能在教育领域已形成学龄前、K12、在线教育、职业教育的用户服务全生命周期闭环,触达数百万终端用户。
归国「圆梦」:贯通产学研
目前,我们面对的是全新的问题,要研究的都是大型的复杂系统,如人工智能、神经与脑科学、生物系统、社会学。西方过去十分成功的 reductionism 思维方式是否需要掉头,融合东方哲学和综合的思想?
科研上,朱松纯已经敏锐捕捉到发现最近 60 年,科学的发展缺乏大的框架性的突破,这与 1900 年代初期的大突破时代不同。
而从产业角度来看,如今国内 AI 产业在 2016 年快速发迹后正步入一个新阶段,人工智能也被写入国家战略,AI 新基建正为众多产业换代升级带来新的机遇。
AI 产业本质上是人才和技术的竞争,中国 AI 产业整体还面临着人力资源的大量短缺。这几年,已经有一些重量级学者接连回国,以不同的身份与角色投身这次浪潮。
对于朱松纯来说,是时候开启一次新的征程,正如三十年前远赴哈佛大学求学,探寻新的挑战,去思考为学界、产业、为下一代人工智能领域的学子们做些什么。
2020 年,朱松纯以国家战略科学家身份受邀回国,筹建北京通用人工智能研究院(BIGAI)并担任院长。这也意味着「小数据、大任务」的方法,也被定为北京通用人工智能研究院的「研究范式」。
朱松纯曾在访谈中提到,三十年前就读于中国科学技术大学时,就有了追求人工智能大一统理论的梦想,赴美求学正是为了追寻与探究这一理想。三十年后,选择回国也是基于同一梦想,回归初心——将人工智能大一统理论框架在中国「圆梦」。