现如今,大模型早已成为街谈巷议的 AI 话题,ChatGPT 更火出了圈。NLP、CV 和多模态领域的大模型层出不穷,并朝着通用方向不断演进,让人们看到了 AGI 的希望。在大模型时代,除了继续升级预训练、微调等技术和算法之外,构建开源开放的大模型评测体系和生态同等重要。说来容易,但做起来很难。仅就开源而言,谷歌、OpenAI 等头部 AI 企业对自己的大模型大多并没有开源或仅开放 API 使用,正在逐渐形成壁垒。在国内,作为最早系统化布局大模型的科研机构,北京智源人工智能研究院(以下简称智源)自 2021 年以来先后推出悟道 1.0、悟道 2.0 大模型系列,并连创「中国首个 + 世界最大」记录。悟道 1.0 是我国首个超大规模智能模型系统,悟道 2.0 参数规模更是达到 1.75 万亿,成为当时中国首个、全球最大的万亿级模型。6 月 9 日,在 2023 北京智源大会上,智源发布了完整的悟道 3.0 大模型系列,并进入到了全面开源的新阶段。此次悟道 3.0 包含的项目有「悟道・天鹰」(Aquila)语言大模型系列、FlagEval (天秤)大模型语言评测体系以及「悟道・视界」视觉大模型系列。此外 FlagOpen 飞智也带来了开源大模型技术体系最新进展。智源研究院院长黄铁军教授发布悟道 3.0大模型系列作为大模型领域年度巅峰盛会,智源大会至今已经举办了五届,为加强产学研协同、促进国际交流与合作、打造世界人工智能学术高地做出了重要贡献。本届大会邀请到了图灵奖得主 Geoffrey Hinton、Yann LeCun、Joseph Sifakis 和姚期智,OpenAI 首席执行官 Sam Altman、加州大学伯克利分校人工智能系统中心创始人 Stuart Russell、中国科学院张钹院士及中国工程院郑南宁院士、 中国工程院外籍院士、美国艺术与科学院院士张亚勤、Midjourney 创始人 David Holz 等重磅嘉宾,共议人工智能前沿与热点话题。今年大会共同主席为智源研究院理事长张宏江,以及加州大学伯克利分校教授、智源学术顾问委员 Michael I. Jordan。共同程序主席为智源研究院院长黄铁军教授,以及清华大学教授、智源首席科学家朱军。时至今日,每年一度的智源大会已经成为促进国际人工智能生态发展的标志性活动,在人工智能精英人群中备受推崇,国际视野、专业前沿、思想激荡,推动各方更好地把握住高速发展的人工智能大模型时代。历经 1.0、2.0,悟道 3.0 进入全面开源新阶段回望 2021 年 3 月和 6 月,智源在两个多月时间里先后发布了悟道 1.0 和悟道 2.0。彼时,AI 领域进入到了「炼大模型」的阶段,智源也集中力量打造能力达到 SOTA 的数十亿乃至万亿参数大模型,以此对标、超越谷歌、OpenAI 等国外 AI 巨头的超大规模大模型(如 GPT-3、Switch Transformer)。不过自悟道 2.0 始,智源就不仅仅是研发模型。智源研究院院长黄铁军表示,智源更偏向于构建以大模型为核心的生态,包括底层数据处理和汇聚、模型能力和算法评测、开源开放,形成一套高效的大模型技术和算法体系。因此在悟道 3.0 大模型系列中,智源发布并全面开源「悟道・天鹰」(Aquila)语言大模型系列和「悟道・视界」视觉大模型系列,与多个高校和科研院所合作构建 FlagEval(天秤)开源大模型评测体系与开放平台,加之 FlagOpen 飞智大模型技术开源体系,通过全方位的大模型技术、评测体系以及更广泛的开源生态,服务于大模型行业发展。悟道・天鹰 + 天秤,合力打造大模型能力与评测双标杆时至今日,随着模型规模的不断增长,语言大模型已经变得非常「聪明」和「全能」。以 ChatGPT、GPT-4 为例,它们已经具备超强理解和推理能力,并在上下文学习(ICL)、思维链(CoT)等任务中出现了业界从未预测到的涌现能力。不过对于这些大模型,OpenAI 无一例外选择不开源。在悟道 3.0 大模型系列中,智源走出了一条不同的道路。智源发布了首个具备中英双语知识、支持商用许可协议、支持国内数据合规要求的「悟道・天鹰」(Aquila)语言大模型系列,结合 FlagEval(天秤)开源大模型评测体系及开放平台,打造 “大模型进化流水线”,持续迭代、持续开源开放。对于「悟道・天鹰」语言大模型系列,它包含了 Aquila 基础模型(7B、33B)以及 AquilaChat 对话模型和 AquilaCode 文本 - 代码生成模型。开源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
整体来看,「悟道・天鹰」Aquila 语言大模型在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,训练效率是 Magtron+DeepSpeed ZeRO-2 的近 8 倍。此外在中英文高质量语料基础上从0开始训练,通过数据质量控制、多种训练优化方法,在更小数据集、更短训练时间下,实现比其他开源模型更优秀的性能。AquilaChat 对话模型(7B、33B)是智源推出的类 ChatGPT 模型,它是一个单模态语言大模型,支持流畅的文本对话及多种语言类生成任务;通过定义可扩展的特殊指令规范,实现通过 AquilaChat 对其它模型和工具的调用,且易于扩展。例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型,它还可以轻松实现对人脸图像的多步可控编辑。智源研究院副院长、总工程师林咏华表示,根据内部对 AquilaChat 的评测,其综合能力能够达到 GPT-4 的 70%左右,甚至在某些单项任务上的分数比后者更高。AquilaCode-7B 是智源推出的文本代码生成大模型。它的预训练代码语料来源是一个由 Huggingface 牵头创建的数据集 The Stack,初始版本涵盖了 30 种主流编程语言,数据量超过 3T。智源基于该代码数据集进行抽取、质量过滤,并最终使用超过 200GB 的数据进行训练。与 OpenAI 编码大模型 Codex-12B 相比,AquilaCode HumanEval pass@1 上的结果接近,并在近期有望超越。更重要的是,智源 AquilaCode 的参数量不到 Codex-12B 的 1/2,做到了用更小的模型实现了接近后者的评测结果。与 DeepMind AlphaCode 1B 、CodeGeeX 等一系列开源代码模型相比,智源 AquilaCode 都已经明显超越。得益于 Aquila 基础模型的强大能力,AquilaCode-7B 模型在使用更少训练数据和训练参数的情况下,成为目前支持中英双语、性能最好的开源代码模型。如下为代码生成动图演示示例:AquilaCode-7B 同时支持不同芯片架构的模型训练,并分别在英伟达和国产芯片上完成了代码模型的训练,推动芯片创新和百花齐放。建立大模型评测体系至关重要。一方面在学术上可以拉动大模型创新,构建衡量大模型能力和质量的尺子。另一方面在产业上,对于绝大多数无力研发和构建大模型尤其是基础大模型的企业而言,他们在选择使用大模型时更需要一个可信可靠、全面客观的评测体系。FlagEval(天秤)希望通过建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval(天秤)评测平台已经开放,提供在线和离线评测目前已支持英伟达、寒武纪、昆仑、昇腾等多种芯片架构,以及 PyTorch、MindSpore 深度学习框架。开放地址:http://flageval.baai.ac.cn大模型评测并不容易。林咏华指出了面临的四大难点,一是快速发展的大模型给评测带来了越来越大的挑战,以往语言模型评测更多是从理解能力出发;二是大模型生成能力的评测主要依赖人类评分,不仅效率低,客观性及评测质量很难保持一致;三是现在大模型趋向于认知模型,但认知边界很难确定,用人类考题评测模型认知能力往往易出现偏差;四是有时需要在一些情况下考虑大模型的心智能力,包括对复杂意图、复杂场景的理解以及情绪和鉴别能力,这些更加难以评测。FlagEval(天秤)创新性地构建了「能力 - 任务 - 指标」的三维评测框架,细粒度地刻画基础模型的认知能力边界,呈现可视化评测结果。目前提供 30 + 能力、5 种任务、4 大类指标共 600 + 维全面评测,任务维度当前包括 22 个主客观评测数据集和 84433 道题目,更多维度的评测数据集正在陆续集成。天秤还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究,以期更加科学、全面地评价语言大模型:目前 FlagEval 已经覆盖语言、多模态两大领域的大模型评测,后续覆盖视觉、语音领域。第一期已推出大语言模型评测体系、开源多语言文图大模型评测工具 mCLIP-Eval 和开源文图生成评测工具 ImageEval。下图为mCLIP-Eval的评测演示。FlagEval 首创可持续大模型评测辅助模型训练新范式,打造自动化评测与自适应评测结合的机制,帮助模型研发团队实现 “以评测结果为指导” 的高效训练。这种新范式实现了以大模型评测带动训练的效果。“是骡子是马”只有评测比较过后才更有说服力。FlagEval(天秤)面向的人群包括大模型开发者和使用者,前者将模型接入系统进行自动评测,后者则可以是个人、高校和企业。就价值而言,大模型的全面评测衡量可以帮助各个开发团队了解自身模型薄弱之处,推动进一步技术创新。此外全面客观的评测还能加速大模型产业落地步伐。FlagEval(天秤)大语言评测体系及开放平台是「科技创新 2030」旗舰项目重要课题,合作共建单位包括北大、北航、北师大、北邮、闽江学院、南开等高校和中科院自动化所、中国电子技术标准化研究院等科研院所,定期发布权威评测榜单。与语言大模型一样,视觉大模型近年来也进入了井喷阶段。对于视觉领域涵盖的分类、定位、检测和分割等多种任务,既出现了在某项任务上实现极致效果的大模型(如面向分割任务的 SAM、SEEM),也有追求一举解决多个或全部 CV 任务的通用视觉大模型(如 Meta 的 DINOv2)。此次智源发布了「悟道・视界」视觉大模型系列,由悟道 3.0 的视觉大模型团队打造,涵盖了国际领先的六大成果,包括在多模态序列中补全一切的多模态大模型 Emu、最强十亿级视觉基础模型 EVA、性能最强开源 CLIP 模型 EVA-CLIP、首创了「上下文图像学习」技术路径的通用视觉模型 Painter、一通百通、分割一切的视界通用分割模型、以及首个零样本视频编辑方法 vid2vid -zero。前五个为基础模型,后一个为应用技术。「悟道・视界」聚焦视觉和多模态上下文学习,创新视觉和多模态领域的 Prompt 工程,取得了零样本学习性能的新突破。未来的应用可以拓展到自动驾驶、智能机器人等领域,为这些领域带来更多可能性和创新。首先是一个接受多模态输入、产生多模态输出的多模态大模型 Emu。通过学习图文、交错图文、交错视频文本等海量多模态序列,实现在图像、文本和视频等不同模态间的理解、推理和生成。训练完成后,Emu 能在多模态序列的上下文中补全一切,实现多轮图文对话、视频理解、精准图像认知、文图生成、多模态上下文学习、视频问答和图图生成等多模态能力。然后是最强十亿级视觉基础模型 EVA[1]。通用视觉大模型在更高效的同时也要更简单, 这就必须解决视觉问题的两大关键点:语义学习和几何结构学习。因此 EVA 结合最强语义学习(CLIP)和最强几何结构学习(MIM),只使用标准 ViT 模型的情况下将规模扩大到了十亿参数进行训练,在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当时最强性能。该研究被接收为 CVPR 2023 highlight 论文。再者是性能最强的 CLIP 模型 EVA-CLIP。CLIP(Contrastive Language-Image Pre-training)是一种视觉 - 语言基础模型, 具有强大的零样本迁移能力,并有可能增强多模态和单模态视觉任务。并且作为零样本学习基础模型,多模态预训练 CLIP 广受业界认可。EVA-CLIP 是一系列提高 CLIP 训练效率和效果的模型,基于通用视觉模型 EVA 开发,结合了新的表示学习以及优化、增强技术,可以降低训练成本、稳定训练过程和提升零样本性能。智源视觉团队于 2022 年发布了 EVA-CLIP 1B 版本,并于 2023 年初发布了 EVA-CLIP 5B 版本 [2],创造了零样本学习性能新水平,超越了此前最强的 OpenCLIP 模型,在 ImageNet1K 零样本 top1 达到最高的 82.0% 准确率。此外,EVA-CLIP 相比其他方法更高效,做到了更少时间、更低成本。例如训练 EVA-CLIP-B/16,在 32K batch size 设置下,用 16 个英伟达 40GB-A100 的 GPU 卡,80 小时就能完成 30 亿图文对的训练。图左为 CLIP 模型(EVA-CLIP 和 OpenCLIP)的 ImageNet-1K 零样本分类性能比较,图右为 EVA-CLIP 在 27 个数据集上的零样本分类性能。接着是一通百通、分割一切的视界通用分割模型(即 SegGPT),它是智源通用视觉模型 Painter 的衍生模型。Painter 首创「上下文图像学习」技术路径,具备了较强的上下文学习能力。用户输入 prompt 即可完成对应视觉任务。该研究[3]同样被 CVPR 2023 会议接收。基于 Painter,视界通用分割模型 [4] 在图像分割领域点亮视觉 GPT 曙光。它与 Meta 的分割一切模型(SAM)同一时间发布,不过二者采用的方法不同。SAM 侧重一触即通, 通过一个点或边界框,在待预测图片上给出交互提示并识别分割画面上的指定物体。视界充分利用其强大的视觉上下文推理能力,只需提供一个或几个示例图像和视觉 prompt,模型即可自动推理并「有样学样」完成类似分割任务,具体可见如下示例。标注出一个画面中的彩虹(上),即可批量化分割其他画面中的彩虹(下)。从影像中分割出各种各样的对象,是视觉智能的关键里程碑,而视界、SAM 等分割模型的推出加速了向通用视觉的发展。对此,黄铁军指出,图像或视频分割只是「视界」通用视觉模型的外在表现能力之一。当未来应用到自动驾驶和机器人等更复杂的通用视觉场景时,「视界」非常有潜力凭借其分割一切以及强大的分辨能力加速这些实体智能产业的发展。最后是零样本视频编辑技术 vid2vid-zero [5]。除了图像领域的生成、编辑任务之外,智源同样探索高效、低成本的自动视频编辑技术。已有文本驱动的视频编辑方法严重依赖在大量文本 - 视频数据上调整预训练好的视频扩散模型,因而需要庞大的计算资源,导致人工数据标注和计算成本颇高。对此智源提出了这种简单高效的零样本视频编辑方法,亮点在于首次无需对视频进行额外训练,利用注意力机制动态运算的特点,结合现有图像扩散模型,实现可指定属性的视频编辑。对于现实世界的视频,该方法在编辑属性、主题和地点等方面都展现出了很好的效果。你只需要上传一段视频,然后输入编辑文本 prompt,就能得到 AI 美化的创意大片。如下为一个动图演示示例,图左为原始视频(一个跑步的男子),图右为编辑文本 prompt 后的生成视频(一个在纽约跑步的男子)。可以看到,生成视频不仅增加了一些元素,风格也发生了改变(动漫风格)。与「悟道・天鹰」(Aquila)语言大模型系列一样,所有这些「悟道・视界」视觉大模型都向公众开源。前段时间,一位谷歌研究人员在泄露的内部文件中表示,在大模型时代,虽然看起来是 OpenAI 和谷歌你追我赶,但悄然崛起的第三方力量或许将成为真正的赢家。这个第三方力量就是开源。无论是开源模型、算法还是开源社区,它们的力量正在踏破大模型门槛。作为一个非盈利的平台型研究机构,智源始终通过开源开放的方式发布系列大模型,包括数据集、算法、工具等。此次全面开源的悟道 3.0 大模型系列更充分展现出了智源坚持开源开放的决心。林咏华表示,智源希望以开源开放为出发点打造大模型基础底座,促进大模型科研创新,加速产业落地。其中开源更是采用商用许可协议,避免数据和算法等社会资源的浪费。与此同时,智源正在通过 FlagOpen 飞智大模型技术开源体系践行着开源开放的理念。这套开源体系涵盖了大模型算法、模型、数据、工具和评测等重要组成部分。FlagOpen 开源平台入口:https://flagopen.baai.ac.cn/#/home其中 FlagAI 大模型算法开源项目是 FlagOpen 的核心部分,集成了全球各种主流大模型算法技术。语言大模型 OPT、T5、视觉大模型 ViT、Swin Transformer 以及多模态大模型 CLIP 等多个领域明星模型都在该项目中收录。在本次智源大会,悟道・天鹰 Aquila 语言大模型已经加入到 FlagAI 的开源仓库。随后,悟道 3.0 视觉基础模型 EVA、视觉通用多任务模型 Painter 等将陆续开源至 FlagAI。
FlagOpen 开源体系还包括面向多种 AI 硬件的一体化评测引擎 FlagPerf、上文介绍的多领域多维度开源大模型评测体系 FlagEval、开箱即用且易于扩展的数据工具开源项目 FlagData、应用文生图和文生音乐等 AI 模型支持艺术创作的开源项目集合 FlagStudio、基于 Scala 开发的轻量级高并发微服务框架 FlagBoot。此外 FlagOpen 开源体系正逐步实现对多种深度学习框架、AI 芯片的完整支持,构建更繁荣的 AI 大模型软硬件生态。总之,在人工智能下个十年,智源希望以该开源体系为基础,用开源的力量打造属于大模型时代的「新 Linux 生态」。在 AI 大模型时代,通用人工智能(AGI)无疑是一个逃不开的话题。尤其自近半年来 OpenAI 先后发布 ChatGPT、GPT-4 以来,很多人都认为 AGI 的大门已经被敲开。通用语言大模型已展现出的超强理解、推理以及涌现能力,真的就能通向 AGI 吗?在黄铁军看来,ChatGPT 等语言大模型的确可以说敲开了 AGI 的大门,它们涌现出的未曾预测到的新能力在某种意义上是 AGI 的一个典型标志。但他也表示,敲开门并不意味着沿着这条路走下去,就一定能实现 AGI。未来 AGI 的实现仅凭大模型显然是不够的,还需要更多技术要素的加入。在通往 AGI 的漫漫征途中,智源非常注重大模型、类脑智能和具身智能这三条路线。三条路线并不是孤立的,它们相互作用和影响。首先是最快取得阶段性突破的大模型。得益于蕴含丰富知识和智能的海量高质量数据,大模型迎来了里程碑式的进展即涌现能力,复杂 AI 系统首次自发出现这样的智能现象,成为 AGI 的第一道曙光。但是大模型路线并没有解决 AGI 的所有问题,其涌现出的能力与人脑中的灵感、头脑风暴有着根本差别。想要达到类似于生物或人脑的巧妙智能,仅靠大模型远远不够。这就需要在类脑方向继续发展,包括基础的神经网络结构、信号加工机理等等。大模型、类脑智能之外的另一个方向是大家谈论较多的具身智能,通过强化学习方法,利用物理实体与环境互动,得到经验和教训,不断调整自身策略。在解决一些真实世界的问题时,必须与环境进行交互。以自动驾驶和机器人为例,物理实体在复杂的环境中感知和行动,最终完成任务。大模型是没有具身的,因此具身智能势必要继续发展。黄铁军认为,三条路线对于未来的 AGI 发展都是必要的,解决一个问题并不意味着所有问题都迎刃而解。未来必定困难重重且过程注定漫长,三条路线距离终极目标或许仍是「咫尺天涯」。但他对最终实现 AGI 持乐观态度,通过各种各样的方法一步步逼近并最终达到目标。未来,智源将继续扮演好自己的角色,作为致力于全球领先大模型技术和算法的推出者、大模型及人工智能生态的建设者,始终为国内大模型的技术创新和产业落地发光发热。[1] https://arxiv.org/search/cs?searchtype=author&query=Fang%2C+Y, etal. EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
[2] Quan Sun, etal. EVA-CLIP: Improved Training Techniques for CLIP at Scale
[3] Xinlong Wang, etal. Images Speak in Images: A Generalist Painter for In-Context Visual Learning
[4] Xinlong Wang, etal. SegGPT: Segmenting Everything In Context
[5] Wen Wang, etal. Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models