机器之心原创

2025/03/03 21:01

ICRA 2025｜清华x光轮：自驾世界模型生成和理解事故场景

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近年来，自动驾驶技术快速发展，萝卜快跑已经无缝融入了武汉的交通，不少车企的智驾系统也都上路了。

然而，在复杂交通环境中，如何理解和预防事故仍然是一个巨大挑战。比如前段时间特斯拉 FSD 终于入华。但中国版 FSD 似乎有些「水土不服」，频繁闯红灯、开上人行道、逆行，被网友调侃为「美国司机直接来中国开车」。

同时，现有的方法往往难以准确解释事故发生的原因，并缺乏有效的预防策略。此外，由于事故数据较为稀缺，自动驾驶系统在面对突发情况时往往难以作出合理决策。

为了解决这一问题，光轮智能（Lightwheel）和来自来自清华、香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等的研究团队，提出了AVD2（Accident Video Diffusion for Accident Video Description），提高行业的自动驾驶事故场景的安全能力。

AVD2 是一个创新的事故视频生成与描述框架，旨在提升自动驾驶系统对事故场景的理解。通过生成与自然语言描述和推理高度一致的事故视频，AVD2 增强了对事故场景的建模能力。

同时，该团队还贡献了 EMM-AU（Enhanced Multi-Modal Accident Video Understanding）数据集，以推动事故分析和预防的研究。

项目主页链接：https://an-answer-tree.github.io/
论文链接：https://arxiv.org/abs/2502.14801
EMM-AU 数据集链接：https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip
代码链接：https://github.com/An-Answer-tree/AVD2

模型架构

AVD2 框架包含两个主要部分：视频生成和事故分析。通过生成与事故描述一致的高质量视频，并结合自然语言解释，AVD2 能够更深入地理解事故场景。

视频生成

AVD2 的视频生成部分旨在基于输入的事故描述生成具有现实感的交通事故视频。该部分使用了 Open-Sora 1.2 模型，并通过两个阶段的微调来优化模型：

1. 第一阶段 Finetune：基于 MM-AU 数据集对 Open-Sora 1.2 模型进行预训练，生成与事故场景相关的视频。

2. 第二阶段 Finetune：利用选取的 2,000 个详细事故场景视频进一步微调模型，以确保生成的视频与真实事故场景高度一致。

通过这一过程，AVD2 能够根据描述生成多个具有高保真度的事故视频，用于进一步的事故理解和分析。

生成视频的增强

为了提高视频质量，AVD2 框架采用 RRDBNet 模型，在 Real-ESRGAN 框架下进行超分辨率处理。每个生成的低分辨率视频帧都被提升到更高的分辨率，以增强细节并减少伪影，从而为后续的分析提供高质量的视频数据。

事故分析

AVD2 的事故分析部分结合了视频理解与自然语言处理技术，主要包括两个任务：

车辆行为描述和原因分析（如何规避）

AVD2 生成两个自然语言描述：

1. 车辆行为描述：基于输入的视频，生成描述车辆动作的句子（例如：“车辆右转”）。

2. 原因解释：解释为什么车辆执行这一动作（例如：“因为前方交通信号灯变绿”）。同时进一步给出如何规避事故的发生（例如：“转弯前应环顾四周注意直行车辆”）。

这两个任务共同协作，利用 Vision-Language Transformer（视觉 - 语言 Transformer）来进行多任务学习。模型同时学习生成描述与推理任务，增强了两者之间的关联性，从而提高了整体性能。

多任务学习与文本生成

多任务学习方法使得 AVD2 能够联合训练行为描述任务和事故原因理解任务，以及预防措施任务。

通过这种方式，AVD2 在生成的事故视频基础上，结合视觉特征与文本特征进行分析，不仅可以描述事故发生的过程，还能为事故的预防提供有价值的建议。

^{AVD2 的整体架构}

在图中，输入视频通过 SwinBERT 进行处理，生成视频特征，随后这些特征被输入到不同的任务模块中进行预测和描述生成。同时，SCST（自我批判序列训练）机制被用来优化生成文本的质量。

生成与分析模块的协同工作

AVD2 框架中的生成模块与分析模块紧密配合，生成的事故视频不仅为自动驾驶系统提供了训练数据，还为系统提供了关于事故行为的详细解释和原因分析。两者结合，大大提升了系统的透明度和可解释性。

实验结果

该团队通过多种机器评测指标（如 BLEU、METEOR、CIDEr 等）对 AVD2 进行了评估，并与现有的先进方法进行了对比。

以下是 AVD2 与 ADAPT 框架 (Jin et al., 2023) 在描述任务与解释和预防任务上的比较结果：（MM-AU 为原始数据集 (Fang et al., 2024)，EMM-AU 为该团队结合生成的事故数据集新提出的数据集，SR 为经过超分处理后的数据集）

如上所示，AVD2 在所有评测指标上优于 ADAPT，尤其是在 CIDEr 指标上，AVD2 在动作描述和原因解释（预防措施）两个方面都表现出了更好的性能。

可视化结果

以下是 AVD2 对事故场景的可视化结果，在此展示两个不同的事故视频及对视频的分析：

第一张图示例：车辆变道未打转向灯，未给优先通行车辆让路，导致了潜在的碰撞风险。

第二张图示例：由于过快的车速，刹车距离不足，造成了跟车过近的危险情况。

未来，该团队将计划进一步优化 AVD2 框架，并将此新技术通过光轮智能的端到端自动驾驶应用于客户的上车训练评测中，以促进自动驾驶技术的安全在产业界真正落地。

^{参考文献：}

^{[Atakishiyev et al., 2023](https://doi.org/10.1109/IT）}

^{[Jin et al., 2023](https://doi.org/10.1109/ICRA.2023.654567)}

^{[Fang et al., 2024](https://arxiv.org/abs/2403.00436)}

工程ICRA 2025AVD2自动驾驶技术

推荐文章

深度强化学习探索算法最新综述，近200篇文献揭示挑战和未来方向

深度强化学习探索算法最新综述，近200篇文献揭示挑战和未来方向

AI专用领域之一：声音、相机陷阱用于野生动物研究和保护

AI专用领域之一：声音、相机陷阱用于野生动物研究和保护

NeurIPS 今年共收录1900篇论文，我该怎么阅读？

NeurIPS 今年共收录1900篇论文，我该怎么阅读？

登录后评论

暂无评论

暂无评论~