时在中春,阳和方起。3 月 23 日,机器之心 AI 科技年会以线上直播方式成功举办。
在这次活动中,我们设置了人工智能论坛、AI x Science 论坛和首席智行官大会三场论坛,并邀请到了 30 位重量级嘉宾,围绕多个当下最具讨论价值的议题进行了充分的交流。虽然未能线下相聚,但大家热情不减:活动当天,直播观看人数共计 26000 余人。各位嘉宾的精彩讨论与观点,也引起了在线观众的热议。作为人工智能论坛首位出场的嘉宾,郑纬民院士分享的主题是《FABS:人工智能、大数据与科学计算融合的计算模式》。近年来,智能计算正在加速与传统的科学计算融合,在蛋白质结构预测、天气预报以及分子动力学等方面都取得令人瞩目的进展。AI 和科学计算都依赖于数据处理,但现有智能 + 科学计算(AI-HPC)系统主要采用 MPI+X 的编程模式,表达数据处理任务复杂,而加入一套数据处理系统如 Spark 或 Pandas 又面临系统复杂性、性能或成本方面的挑战。此外,MPI+X 的容错能力相对较差,依赖全局检查点和重算技术,在系统规模扩展到 E 级和后 E 级时,全机平均无故障时间仅有数小时,对机器的有效使用提出重大挑战。因此,始终缺乏一种能有效表达 HPC+AI+BigData 的编程方式。基于此,郑纬民院士提出了人工智能、科学计算与大数据处理(FABS:Fused AI, Big Data and Science)融合的计算模式,通过统一的张量抽象和编译优化技术,同时为这三个领域提供了易编程、高可用、高性能的编程模型和计算模式,将为大规模 AI+Science 的发展提供重要的工具。接下来,前微软 AI 首席科学家、城堡基金首席人工智能官邓力分享了他在语音语言、金融投资、线上教育和健康医疗方面的实践经验。近年来,包括深度学习在内的人工智能技术已经彻底颠覆了全球的语音识别和自然语言处理行业,也对金融投资行业带来了巨大冲击,并且得到了初步的杰出成果。除此之外,在线上教育、医疗健康等其他领域,基于深度学习的自然语言处理技术也正在成为主流方法。为了取得更广泛的成功和应用,有几项技术上的挑战亟待解决,比如模型的预训练和自训练、如何做迁移学习等问题,这些问题的解决对于少样本和高噪声标注数据相关领域的进展会很有帮助,比如医疗和金融行业。邓力指出,另外一个很大的挑战来自对抗式学习,即针对多智能体的对抗式的深度学习,以股票预测为例,在股票市场的统计分布上,今天和明天可能非常不一样。为了要解决对抗性竞争的问题,这一领域的技术还需要更多的进展。杜克大学电子计算机工程系教授陈怡然的分享主题是《高效人工智能系统的软硬件协同设计》。过去的 100 年里,计算能力呈现出指数增长的趋势,蕴含着无限的可能。关于人工智能的计算平台分为很多种,但不管是 GPU、FPGAs、ASICs 还是其他新型架构,基本遵循了同样的原则:更高效,或者需要更长的时间;更专业,或者更灵活,实际上很难在多个维度达到统一。面对这样的矛盾,多年来,陈怡然教授的团队做了很多相关研究积累,从 2012 年开始研究不同硬件上的表达,到后来做架构设计、分布式的设计,甚至到自动化的设计。同时,陈怡然教授也指出,全栈高效人工智能系统设计中还存着很多机遇和挑战,很多方向的工作还需要更深一步的研究。随后,蚂蚁集团金融机器智能部总经理周俊进行了主题为《可信 AI 在数字经济中的实践与探索》主题分享。周俊介绍,如果将数字经济比作一棵树,树干中的人工智能 (AI)、大数据、云计算等技术,构成了数字经济的核心,起着承上启下的作用;树根中的隐私、安全等因素,决定长势以及未来;树干跟树根必须紧密融合,才能枝繁叶茂,其中 AI + 隐私、AI + 安全等成为当下亟需突破的方向。而可信 AI 技术理念将是数字时代抵御风险,提升科技包容度的关键能力之一,该体系目前在隐私保护、可解释、对抗等技术方向上,已有不少的研究突破和落地,也依然任重道远,需要持续投入。 在图机器学习方向,蚂蚁集团提出了图学习系统 AGL,可支持工业级规模的图数据结构,助力交易风险识别;在公平性方向,提出了 SMEs(中小企业) 信用评分,通过图学习,融合多源信息,挖掘潜在的复杂模式,助力中小企业享受金融服务;在可解释性方向,提出了模型无关的可解释方法 COCO,通过信息加权进行有限扰动得到反例样本,然后通过度量反例样本,计算测试样本的特征重要度,来给出任意模型的可解释性;此外周俊分享了蚂蚁集团将分布式机器学习与密态计算相结合提出了隐私保护机器学习方法 CAESAR,可进一步在增强信息保护强度情况下,提升计算效率并降低通信量。周俊最后总结,围绕隐私保护、鲁棒性、可解释性、公平性构建的可信 AI 技术理念,将持续推动提升人工智能技术在数字经济场景中的透明度、友好性,让决策更智能,使得数字经济深度智能化。随后,创新奇智 CTO、联合创始人张发恩介绍了创新奇智在人工智能技术落地商业化方面的工作,包括视觉相关和结构化机器学习的技术,以及创新奇智打造的 MMOC(MenuVision、MatrixVision、Orion、Cloud)平台。在上午的最后一场演讲中,IDEA 研究院工程总监、AI 平台技术研究中心负责人谢育涛分享了对学术研究工具和新型科研生态的思考。新技术浪潮下,科研生态中各个节点都有很大的优化迭代空间。谢育涛以论文社区 Readpaper 为例,为本次论坛观众展示了一个高效而专业的新型学术社区。其中论文搜索、文献管理及阅读和学术交流小组等功能已成为早期用户的科研利器。在最后环节,机器之心 Pro 对即将于 4 月份发布的新一年度《全球 AI 技术趋势发展报告》的部分内容进行了简要解读。目前,机器之心《2021-2022 全球 AI 技术趋势发展报告》项目组已基本完成对 11 个国际顶会收录的学术文献、数百个近年知名数字化转型及科技创新项目、近百个 AI 开发工具的数据分析等基础工作,并结合定向专家访谈完成了大部分的基础研究工作。
在下午的论坛分享中,FATE 联邦学习开源社区技术委员会主席杨强首先带来了「可信联邦学习」的主题分享,系统回顾联邦学习的进展和挑战,并展望了几个重要发展方向。杨强指出,今天的 AI 依旧存在过度依赖中心化数据的瓶颈。在真实世界中,数据往往表现出多源、分散、变化大等特征,隐私计算技术的发展和应用也愈发引人关注。其中,可信联邦学习具备安全可证明、性能可使用、效率可控、决策可解释、模型可监管、普惠等特征。近两年,联邦学习被纳入 Gartner 技术成熟度曲线(全球科技新动向最具参考价值的报告之一),处于技术创新萌芽期的联邦学习正受到越来越多地关注,成为下一代隐私计算发展的关键。全球首个隐私计算、联邦学习开源社区 FATE 也随之诞生,目前,FATE 已经吸引了 3000 + 工程师与开发者,800+ 家企业机构,350+ 所高校参与,并累计收获了 3200 GitHub Star。中国信通院调研统计显示,55% 的国内隐私计算产品是基于或参考了开源项目,其中以 FATE 开源项目为主。创新工场首席科学家、澜舟科技创始人、中国计算机学会副理事长、国际计算语言学会原主席周明的分享主题为《认知智能的创新时代》。他介绍了澜舟科技的新一代认知服务引擎计划包括轻量化预训练模型以及自然语言理解和生成的进展、分享关于它的未来发展趋势以及商业落地的观点。当前,AI 正由感知智能快速向认知智能迈进。AI 正在从能说会看,走到能思考、回答问题,走到决策和推理。面向认知智能的发展趋势和产业背景,创新工场孵化的澜舟科技提出了孟子新一代认知服务引擎研究计划,目标是研究认知智能的核心任务,用认知智能技术促进行业数字化转型。澜舟科技研制了孟子轻量化预训练模型,以及建立在其上的先进的机器翻译、文本生成和行业搜索引擎,并通过开源、SaaS 和订制等方式赋能行业客户。周明指出,未来十年,AI 将从感知智能跨越到认知智能,造福人类社会。今后的发展方向,一方面是沿着预训练的延长线,解决模型蒸馏、压缩、轻量化模型核心技术,减轻数据偏差和隐私带来的问题;另一方面,还需要在算法上解决一些重要问题,包括神经网络系统和知识系统的融合,研究更好的小样本学习机理,常识的激活和建立、可解释机制等。上海科技大学副教务长、信息科学与技术学院教授与执行院长虞晶怡带来了关于数字人的精彩内容分享。近几年,数字人成为了最火热的技术概念之一。虞晶怡介绍说,这一领域目前呈现几种趋势。首先传统的三维重建经典算法正逐步被基于深度学习的算法所取代。同时,好的重建已经被好的渲染所替代。原本做好的重建必须要有好的三维几何。而现在,基于神经网络渲染生成的图片已经足以达到类似乃至更好的视觉效果。最重要的是,整个领域正在从显式表达往隐式表达发展。原来的三维重建讲的是点云、贴图、BRDF 光照,现在讲的是 NeRF、NeuS、NPG。未来,用类似神经网络的隐式表达替换掉传统的显式表达有望成为 3D 视觉和其在虚拟现实、元宇宙等方向的研究重点。南京大学人工智能学院教授、南栖仙策创始人俞扬分享了主题为《将强化学习超人的决策能力带进现实》的相关内容。当前,强化学习技术已经在围棋、游戏等任务上取得超越人类的通用决策能力,我们十分期待强化学习也在现实应用中落地,让我们具有强大的决策能力。实现这一目标的阻碍之一,是现有强化学习技术缺乏人类一般的想象力,只能从大量试错中寻找最优决策,游戏恰好为大量的试错提供了可能。在演讲中,俞扬教授介绍了自己在使强化学习具备想象力这一方向的工作,以及在现实业务中对强化学习的应用。随后,数坤科技研发副总裁危夷晨带来了《AI 在医疗影像的应用和探索》的主题演讲。这些年,AI 在医疗影像的应用逐渐成熟落地,行业正在快速变化。由于医疗行业的特殊性,AI 产品的门槛较高,研发过程也较为复杂。在演讲中,危夷晨介绍了该行业产品研发的特点、现状和未来。图神经网络和几何深度学习是深度学习的新兴方向,在蛋白质预测、新药设计、数学定理证明和发现等领域有重要应用,是可信人工智能的重要模型。在论坛的最后,上海交通大学自然科学研究院和数学科学学院副教授王宇光介绍了几何深度学习和图神经网络的研究进展和发展趋势。如今,机器之心旗下的 Auto Byte 已成立一年有余,作为一家聚焦智慧出行的信息平台,此次也举办了并行论坛——「首席智行官大会」。在本次大会上,Auto Byte 邀约到了多位来自主机厂、自动驾驶公司、芯片企业的领袖级人物,共设置五场主题分享与两场圆桌论坛,受到了业内外的广泛关注。本次大会的嘉宾包括:集度汽车 CEO 夏一平、毫末智行联合创始人兼 CEO 顾维灏、寒武纪行歌执行总裁王平、AutoX(安途)创始人兼 CEO 肖健雄、路特斯科技副总裁兼智能驾驶业务线负责人李博、黑芝麻智能首席市场营销官杨宇欣、芯擎科技董事兼 CEO 汪凯、驭势科技联合创始人兼首席产品官周鑫、图森未来联合创始人兼首席架构师郝佳男、宏景智驾联合创始人董健、禾多科技副总裁戴震共 11 位嘉宾参与。大家就当前大热的智慧出行各个领域,进行了深入的分析与交流。在演讲环节中,集度汽车 CEO 夏一平分享了一份内部调研数据:当前用户在静止状态下电动汽车里的所处时间,已经等于或超过开车的时间。电动化 + 智能化正在让汽车变成第二生活空间,AI 带来了技术革新、效率提升和体验颠覆,2023 年将是汽车智能化竞争的元年。他还提到,智能汽车 3.0 时代已经到来,集度汽车机器人自由移动、自然交流和自我成长的特性,正是这一时代的产品特点。此外,智能汽车 3.0 时代也将更注重软件安全性,集度汽车也为此自研了电子电气架构、域控制器,从软硬结合角度保证整体安全性。在该领域,致力于自动驾驶的人工智能技术公司毫末智行也有着丰富经验。该公司联合创始人兼 CEO 顾维灏表示,数据智能是自动驾驶 AI 进化最根本的驱动力,通过对回馈数据进行进一步学习挖掘处理训练得到的更优算法、服务模式 OTA 到车端,可以给用户带来更好的系统表现。而在这个流程中,成本和速度是最关键的两方面,也是数据智能的思想钢印。顾维灏认为,在自动驾驶行业业内,谁能高效低成本的挖掘数据价值,谁就能成为竞争的王者。数据智能是 AI 自动驾驶技术进化的核心,而完善的数据智能体系是 AI 自动驾驶科技公司成功的基石。截止到目前,毫末辅助驾驶用户行驶里程已经突破 600 万公里。提到自动驾驶,当下最热门的硬件话题当属芯片。寒武纪行歌作为专注自动驾驶领域的芯片公司,其规划路线备受关注。该公司执行总裁王平也在演讲中谈到了智能驾驶规模化落地在芯片上面临的多重挑战:例如目前单片处理能力不够的问题,导致系统复杂度明显提高。而多片方案又会造成预控制器的功耗偏高,必须采用风冷甚至液冷,增加系统成本,难以在燃油车或经济型电动车上普及。另外他也提及,国产芯片的占比仍然偏低,整体供应链还面临较大挑战。而谈到自动驾驶芯片未来的趋势,王平也给出了两个判断:一个是通用开放式,一个是大算力。他表示,在 L1 和 L2 级自动驾驶时代,因为数据量是相对较少,很多车企可接受芯片和算法强耦合的封闭式的一体化方案,但 L3、L4 时代数据量激增,算法也更加复杂,需要大算力芯片才能够满足需求。未来,寒武纪行歌也将推出覆盖不同级别自动驾驶的产品,包括将于今明两年推出的 SD5223(今年)和 SD5226(明年)两款芯片。其中,SD5223 是面向 L2 + 市场的产品,最大算力超过 16 TOPS,单颗 SOC 就可以实现行泊一体的功能;SD5226 则是针对 L4 市场、支持车端训练的产品,采用 7nm 制程,AI 算力超过 400 TOPS,CPU 最大算力超过 300K+DMIPs。作为正在经历全新蜕变的超豪华品牌,路特斯科技方面也分享了行业及技术层面的思路:路特斯科技副总裁兼智能驾驶业务线负责人李博表示,在路特斯内部用户访谈中,智能化体验已经超过配置、品牌和服务,成为影响购买 70 万元以上高端豪华车的首要因素,而其中,智能化在重新定义豪华车上占很大比重。智能化时代下,智能驾驶系统能力开始替代动力性能,成为纯电智能车最关键的部分。李博还表示,路特斯将用接管里程和覆盖里程重新定义智能驾驶分级,目标是打造出覆盖高速快速路、城市路和泊车场景的端到端智能驾驶,同时以更高精度全覆盖的感知能力、更懂博弈的认知能力、更快更稳的规控能力,打造路特斯所特有的「赛道级智能驾驶」。对于自动驾驶商业化的另一条路线,也是被看做自动驾驶最终应用场景的 RoboTaxi 已成为业界普遍关注的热点。对此,AutoX(安途)创始人兼 CEO 肖健雄分享了自己的观点:只有达到现有网约车相同的实用性,彻底拿掉安全员、不限目的、不限区域的自动驾驶,才是真正的商业化。此外,「首席智行官大会」还设置了「大算力时代下的芯片挑战」、「自动驾驶商业化如何走向成熟」两场圆桌论坛。黑芝麻智能首席市场营销官杨宇欣、寒武纪行歌执行总裁王平、芯擎科技董事兼 CEO 汪凯、路特斯科技副总裁兼智能驾驶业务线负责人李博,就芯片问题进行了全方位的探讨。2021 年被称作激光雷达上车元年,伴随上车的还有自动驾驶计算平台开始突破 1000TPOS。这种趋势在杨宇欣看来,现在算力已经成为判断汽车智能化程度的重要指标,车企希望通过突出算力值,让终端用户对车企的自动驾驶能力有更多认知。当前的算力理论上已经可以满足 L2+、L3 自动驾驶系统需求,接下来重点是将场景和体验做得更好。他还补充称,「算力堆料」是一种为后续技术升级的必要冗余,从商业逻辑和技术演进来讲,芯片企业也需要帮助客户用更小的成本、更高的系统集中度、更低的功耗,实现更好的自动驾驶功能,这是芯片企业一直在努力,也是推动大家技术演进和产品路线中演进的一个点。作为代表主机厂需求侧的李博,则从另一个维度解释了硬件冗余的意义。他提出,软件定义汽车,硬件定义软件天花板,预留足够算力、预留足够传感器,是给未来智能驾驶系统的性能需求留出冗余。否则就像当前的应用程序逻辑上能在老款手机跑通,但却无法真正有效运行。王平也提到,目前汽车在 OTA 趋势下,已呈现出软硬件逐渐解耦的趋势。相比硬件,软件更容易通过 OTA 便捷升级的特点,促使车企在算力上做选择性预埋,即使这部分现在用不到。除此之外,特斯拉、小鹏等车企自研自动驾驶计算芯片,也正在成为一种趋势。芯擎科技董事兼 CEO 汪凯称,这是因为芯片短缺让主机厂更加重视供应链多样性和供给安全,另一方面是高算力芯片已经成为车企的核心竞争力,供应商芯片越来越难以满足主机厂迭代速度、成本和性能要求。但他也认为,这种路线面临着诸多挑战:自动驾驶芯片的门槛较高,一旦走弯路就将面临巨大的资金损失,也将造成规划上的不协调。车规级芯片与消费级芯片不同,对性能、功耗和可靠性的要求更高,还要完成车规级认证,周期更长,投入也更大,需要通过在多款车的应用普及来收回前期成本,因此需要推出更包容、更有竞争力的产品体系来满足不同车厂的需求。此外,参会嘉宾还对芯片短缺问题进行了解答。一致的观点是,目前扩产成本较高,芯片商在不敢保证接下来几年还有同样需求的情况下,盲目扩充产能。尽管当前的产能已经从疫情中恢复过来,但去年被抑制的需求还未得到满足,真正解决可能要等待明年。在第二场关于「自动驾驶商业化」的圆桌环节中,驭势科技联合创始人兼首席产品官周鑫、图森未来联合创始人兼首席架构师郝佳男、宏景智驾联合创始人蒹软件算法 VP 董健、禾多科技副总裁戴震,也展开了热烈的讨论。驭势科技联合创始人兼首席产品官周鑫、图森未来联合创始人兼首席架构师郝佳男均认为,效率和成本是自动驾驶在 B 端实现商业化的前提:要么做到效率比人更高、要么做到全无人自动驾驶。但要想实现最后的商业逻辑,不仅需要非常高的安全性和可靠性,还需要法规的逐步完善。作为同时面向 B 端和 C 端用户的企业,宏景智驾联合创始人蒹软件算法 VP 董健表示,目前的落地速度也比想象更快,一两年出现将出更多量产车型。不过,受制于法律法规问题,多数车企推出的将是具备 L3 级自动驾驶体验、但依据 L2 + 级法规体系开发的车型。禾多科技副总裁戴震对于自动驾驶的 C 端落地还给出了更具体的时间点——预计 2025 年将是关键时间节点,届时自动驾驶技术的量产、消费者的接受度、基础设施及法律法规完善都将逐步落地。
本次「AI x Science 论坛」论坛中,美国芝加哥丰田计算技术研究所教授许锦波做了题为《蛋白质结构和功能预测》的报告。报告概括了蛋白质机构预测领域的研究进展:人工智能颠覆了蛋白质结构预测领域的发展,也改变了分子生物学家的研究思路,从基于序列研究转变为基于结构的研究。同时促进了基于结构的药物发现和设计,提高了蛋白质从头设计的效率。另一方面,许老师也指出,当前的蛋白质结构预测还有一些未完全解决的问题,比如蛋白质与其他分子的相互作用、单点突变对蛋白质结构和功能的影响、孤儿蛋白质结构预测等等。随后,西湖大学特聘研究员、博士生导师、西湖实验室 iMarker 主任、西湖欧米创始人郭天南博士做了题为《AI 赋能的蛋白质组大数据科技》的演讲。演讲以团队近期研究为例,展示了蛋白质组学在生命科学中的价值和应用,将人工智能应用于蛋白质组学,并与大量临床数据相结合,探索生物标志物,加速蛋白质组学技术成果在肿瘤领域的最新进展,同时介绍了 AI 赋能的蛋白质组大数据科技领域的产业转化 / 落地等前沿资讯。在「AI x Science 论坛」上,智化科技创始人、董事长兼 CEO 夏宁分享了主题为《AI 辅助化学合成路线设计助力提升创新药研发效率》的相关内容。 新药研发面临着成本高,时间长,成功率低的巨大痛点。智化科技专注于化学合成路线设计,其独立研发的算法基于数据学习和化学知识进行分解,解决了可解释性、化学反应数据量两大问题。除了逆合成平台外,还在化学工艺路线设计、化学反应条件、副产物预测分析、分子库生成等领域进行了研究。未来,智化科技将持续优化以提供路线的多样性和可行性,利用来自 ELN 的失败反应数据避免失败,以及进行多步策略学习。百度深圳研发中心自然语言处理部技术总监,螺旋桨 PaddleHelix 生物计算平台负责人何径舟进行了题为《飞桨螺旋桨 PaddleHelix 赋能生物医药:AI 技术在药物研发领域的探索和应用》的主题报告。他从 AI 在生物医药行业面临的挑战和思考,以及助力生物医药行业进行了分享,系统介绍了基于预训练技术以及螺旋桨 PaddleHelix 取得的进展:化合物表征模型 GEM 和蛋白 PPI 表征模型 S2F。何径舟指出, AI 在药物研发拥有巨大的潜力,未来预训练利用海量无标注数据进行自监督学习、多任务学习增强模型泛化能力、分子空间结构特征进行模型表征,能够大幅提升 AI 生产效率,降低药物研发生产门槛。 创材深造创始人兼 CEO 王轩泽在「AI x Science 论坛」分享了主题为《AI + 金属材料:更适合产业落地的方向》的相关内容,就 AI 产业落地过程中可能遇到的问题进行了讨论,包括精度陷阱;行业壁垒并非技术,传统大厂转型自研;某些 toB 领域存在的一些问题;黑盒性质严重,客户不认可,短期内取代不了关键岗位人员;算法效果惊艳但落地艰难等精彩观点。 王轩泽介绍说,AI 赋能金属材料的产业化,可以有效的规避或解决上述 AI 落地中的难点问题。从另一方面讲,高端金属材料是一个经常被忽视的市场,随着产业升级和战略转型,国产化替代的需求被迅速放大。高端金属领域最主要的难点在于过长的研发周期和过大的研发投入,因此使用 AI 赋能新材料的研发成为了弯道超车的最优解。 脑陆科技创始人兼 CEO 王晓岸女士做了题为《基于 AI 的脑机技术助力更广泛的社会价值与机理发现》的演讲。脑科学以阐明脑和神经系统的工作原理和机制为目标。演讲指出,随着人工智能技术取得突破性进展,脑科学的巨大潜力再次受到科学界的高度重视。自 2019 年以来,与 AI 的结合推动了脑核磁成像、脑机接口等技术在应用层面的飞速发展,为脑疾病诊断与治疗、精神与睡眠健康管理、娱乐交互、安全生产等行业提供了新的解决方案。未来,产学研届将共同发现越来越多大脑机制,并普惠服务更广泛的人群。清华大学智能产业研究院(AIR)助理教授黄文炳博士的演讲主题为「AI×Science 论坛」做了题为《GNN for Science: Graph Mechanics Networks》。他介绍了人工智能结合物理学中多体问题的应用,解读了一种全新的图神经网络——图力学网络 GMN,这种网络将物理定律融入到图神经网络的构建当中,初步探索了数据驱动和知识驱动结合的优势。同时,他还解释了 GMN 在物理、生物医药方面的应用。 黄博士指出,已经有越来越多的人工智能方法,在解决传统自然科学等问题上大放异彩,未来可以更多关注如何将现有数据驱动的机器学习模型和基础科学领域的知识进行结合。当然,目前仍然处于一个比较初始的探索。 机器之心后续将在 B 站上传回放视频,也会把嘉宾演讲内容整理成文字发布,欢迎大家关注。回放观看地址:https://space.bilibili.com/73414544