LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架,其包括了高度优化的训练框架、全面的评测体系,支持多种视觉模态。
项目主页:https://openlamm.github.io 代码地址:https://www.github.com/OpenGVLab/LAMM
以最小的计算资源成本训练和评估 MLLM,仅需 3090 或 V100,轻松开始 MLLM 的训练和评测。 构建基于 MLLM 的具身智能 Agent,能够使用机器人或游戏模拟器定义任务并生成数据。 在几乎任何专业领域扩展 MLLM 应用。
使用标准数据集格式兼容不同指令微调数据集。LAMM 定义了标准化多模态指令微调数据格式,可以多模态指令微调常用的 LLaVA、LAMM、ShareGPT4V 等数据集可以直接无缝适配,一键启动。 组件式搭建模型流程,方便地更新和修改模型架构。LAMM 中模型以视觉编码器(Vision Encoder)、特征映射器(Feature Projector)、语言模型(LLM)为主要组件。目前 LAMM 已经支持 Image、Point Cloud 等模态编码器和 LLaMA/LLaMA2 等预训练语言模型,用户可以自由选择适合需求的模块搭建 pipeline,实现自己专属的 MLLM。 以最小计算资源训练和评测 MLLM。LAMM Repo 集成了 Deepspeed、LightLLM、flash attention 等加速框架,将训练成本大幅优化。目前已经支持在 4 张 RTX3090 或更新设备上微调 7B 的语言模型。同时 LAMM 也在不断跟进新的大语言模型和优化框架,以推动多模态领域的发展。 基于 MLLM 构建具身智能 AI Agent。使用机器人或模拟器定义目标任务并生成相应指令数据后,LAMM 支持的 MLLM 可以作为强大的 AI Agent 进行决策和分析。