Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型与具身智能的火花,ICML 2024 MFM-EAI Workshop征稿和挑战赛启动

图片

Workshop主页:https://icml-mfm-eai.github.io/

概述

近年来,多模态基础模型(MFM),例如 CLIP、ImageBind、DALL・E 3、GPT-4V、Gemini 和 Sora,已成为人工智能领域最引人注目且发展迅速的领域之一。同时,MFM 的开源社区也涌现出了诸如 LLaVA、LAMM、MiniGPT-4、Stable Diffusion 和 OpenSora 等具有代表性的开源项目。

不同于传统计算机视觉自然语言处理模型,这类 MFM 正在积极探索通用问题解决方案。通过引入 MFM,具身智能(EAI)能够在模拟器和现实世界环境中更好地处理各种复杂任务。然而,在 MFM 和 EAI 的交叉领域,仍有许多尚未探讨和解决的问题,包括智能体长期决策、智能体运动规划、新环境泛化能力等。

本次 Workshop 将致力于探讨几个关键问题,包括但不限于:

  1. MFM 的泛化能力;

  2. 用于具身智能的 MFM;

  3. 基于生成模型的世界模型;

  4. 模仿学习数据收集。

Workshop 征稿

该 workshop 聚焦于多模态基础模型(MFM)、具身智能(EAI)以及两项研究的交叉领域。本次征稿主题包括但不限于:

  • Training and evaluation of MFM in open-ended scenarios

  • Data collection for training embodied Agents

  • Framework designs for MFM-powered embodied agents

  • Perception and high-level planning in embodied agents empowered by MFM

  • Decision-making and low-level control in embodied agents empowered by MFM

  • Evaluation of the capability of embodied agents

  • Generative model as world simulator

  • Limitations of MFM in empowering EAI

投稿规则

本次投稿将通过 OpenReview 平台实行双盲审稿。投稿的正文篇幅为 4 页,参考文献和补充材料篇幅不限。

  • 投稿格式和模板遵循 ICML 2024 投稿指南:https://icml.cc/Conferences/2024/CallForPapers

  • 投稿入口:https://openreview.net/group?id=ICML.cc/2024/Workshop/MFM-EAI

时间节点

所有时间节点均为 [AoE] (Anywhere on Earth)。

图片

MFM-EAI 挑战赛

三个赛道(可以同时参与)

  • EgoPlan 挑战

EgoPlan 挑战赛致力于评估多模态大模型在复杂的现实世界场景中,针对人类日常活动所涉及的真实任务的规划能力。在比赛中,模型需要依据开放式的任务目标描述、第一人称视角下的任务进度视频和当前环境观察,从多样化的动作候选集合中选择出最合理的下一步,以有效推进任务的完成。

  • 比赛官网:https://chenyi99.github.io/ego_plan_challenge/

  • 即日起 - 2024 年 7 月 1 日  通过填写 [Google 表单]报名参赛(https://docs.google.com/forms/d/e/1FAIpQLScnWoXjZcwaagozP3jXnzdSEXX3r2tgXbqO6JWP_lr_fdnpQw/viewform?usp=sf_link)

  • 奖项设置

  • 冠军:800 美元

  • 亚军:600 美元

  • 创新奖:600 美元

  • Composable Generalization Agent 挑战

Composable generalization 挑战赛致力于评估由多模态大模型进行规划、low-level 控制器进行执行的组合系统在开放场景下的任务规划能力、任务执行能力和对 novel 场景、物体和技能的泛化能力。在比赛中,模型会根据语言形式的任务描述、多模态视觉输入(RGB 图片 + 深度图片),对任务进行拆解,并由控制器完成对拆解后子任务的执行。

  • 更多信息将于 7 月公布

  • World Model 挑战

World Model 挑战赛致力于评估 world simulator 在多种具身智能场景(机械臂,自动驾驶,Minecraft 等)中的应用表现。在比赛中,模型需要在不同具身智能场景下根据具身任务的描述以及实时场景观测生成一段符合任务指令的视频,评估将从:1)具身角度评价视频生成质量;2)视频指导 agent 产生控制信号完成任务两个角度进行。

  • 更多信息将于 7 月公布

委员会成员

Workshop组织者

图片

指导委员会

图片

联系方式

Workshop 相关问题

  • icmlmfmeai@gmail.com

产业具身智能多模态基础模型workshop
相关数据
运动规划技术

运动规划(也被称为导航问题或钢琴搬运工的问题)是机器人的一个术语,用于将期望的运动任务分解成离散的运动,以满足运动的限制,并可能优化运动的某些方面。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~