2024/06/04 15:59

2024智源大会议程公开丨生成模型

2024年6月14日-15日，第6届北京智源大会将以线下与线上结合的形式召开，线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野，汇聚年度杰出工作研究者，交流新思想，探讨新思路，引领新前沿。目前已正式开放报名渠道。

北京智源大会倒计时：11 天

生成模型论坛丨6月15日下午

生成式建模是人工智能的基础范式之一，是迈向通用人工智能的重要一环。随着生成式建模方法的快速发展和模型规模的急速增长，以自回归模型、扩散概率模型为代表的生成式人工智能（如GPT系列、Sora、Stable Diffusion等）在文本、图像、视频、跨模态等重要领域取得了一系列突破性进展。本论坛聚焦生成式概率建模的未来发展，邀请到4位生成式人工智能一线专家学者，分享生成式建模的前沿进展，共同探讨如何构建多模态统一的生成式建模方法等重要未来方向。

论坛议程

论坛主席

李崇轩，中国人民大学高瓴人工智能学院副教授

李崇轩，中国人民大学高瓴人工智能学院副教授、博士生导师，2010-2019年获清华大学学士和博士学位。主要研究机器学习、深度生成模型，代表性工作部署于文到图大模型DALL·E 2、Stable Diffusion和文到视频大模型ViDu等。曾获国际会议ICLR杰出论文奖、吴文俊优秀青年奖、吴文俊人工智能自然科学一等奖、中国计算机学会优秀博士论文等。入选博新计划、北京市科技新星，主持、参与多项国家自然科学基金、科技部课题。担任ICLR 、NeurIPS 等国际会议领域主席。

陈键飞，清华大学副教授

陈键飞于2014年和2019年分别在清华大学获得了计算机科学的学士和博士学位，并在TSAIL组与朱军教授合作。他的研究兴趣包括高效机器学习，特别是量化神经网络、随机优化算法和概率推理算法。在过去，他还开发了几个可扩展的主题模型训练系统。2019年，陈键飞因杰出的工作获得了CCF优秀博士学位论文奖。他还曾在2009年获得中国信息学奥林匹克竞赛金牌。2018年，陈键飞共同创立了RealAI，这是他职业生涯中的一个显著成就。

演讲主题及嘉宾介绍（按照发言先后顺序）

1、视频生成前沿进展

报告简介：不同于图像生成，视频生成在内容一致性、长视频生成、计算资源消耗等方面均面临巨大的挑战。但是，视频生成仍然在2023年取得了飞速的发展，涌现出Stable Video Diffusion、Runway Gen-2、Video Diffusion Transformer、Sora等优秀模型。本报告首先介绍当前视频生成面临的挑战，然后详细介绍最新的视频生成优秀模型，最后还对视频生成的技术发展进行展望。

卢志武，中国人民大学教授

卢志武博士，中国人民大学高瓴人工智能学院教授，博士生导师。2005年毕业于北京大学数学科学学院信息科学系，获理学硕士学位；2011年毕业于香港城市大学计算机系，获PhD学位。研究方向为机器学习与计算机视觉。设计首个中文通用多模态预训练模型文澜BriVL。发表多模态领域首篇Nature子刊论文。早于OpenAI发布类Sora的视频生成底座VDT。

2、Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

报告简介：讲者将会介绍最新的视觉生成框架Visual AutoRegressive Modeling，基于Visual tokenizer结合transformer实现了Next Scale Prediction，首次使得GPT风格的自回归视觉生成，在效果、速度、Scaling能力多方面超越 Diffusion，并迎来了视觉生成领域的 Scaling Laws，本次分享将会带大家介绍经典的扩散模型以及近期受到大家关注Auto Regressive模型的前沿进展。

江毅，字节跳动 GenAI 研究员

江毅，字节跳动 GenAI 研究员，毕业于浙江大学，他的代表性工作有Sparse R-CNN，ByteTrack，UNINEXT等。当前的研究兴趣主要是计算机视觉和视觉生成基础模型的研发，在CVPR，ICCV，NeurIPS，ICLR，ICML，ECCV等会议和期刊上发表论文30余篇，其中多篇文章被录用为Oral，Spotlight，他的工作在github开源并累计获得20K star。

3、视觉生成中的若干问题

报告简介：近年来，视觉生成模型在人工智能领域实现了突破性进展，吸引了业内广泛的关注。然而，随着技术的发展，该领域亟待解决的关键问题亦日益凸显，呼唤研究者们投入更多精力进行深入探讨。本报告旨在梳理并总结该领域面临的若干重要问题，同时分享作者针对以下课题的初步思考与见解：一、探讨生成模型的最终追求；二、视觉信号拆分问题；三、Tokenizer存在的困境；四、扩散模型的内在冲突问题；五、扩散模型是否是最大似然估计。报告期望这些讨论能够引起学界的重视，并为推动该领域的持续创新与发展贡献力量。

古纾旸，微软亚洲研究院视觉计算组研究员

古纾旸，在中国科学技术大学自动化系于2017年和2022年分别获得学士和博士学位，现为微软亚洲研究院视觉计算组研究员，主要研究方向为计算机视觉中的生成模型。研究兴趣主要包括生成对抗网络和扩散模型的理论及应用，探索新一代生成模型，以及生成模型质量评估。目前已在CVPR、ICCV、ECCV等会议上发表多篇论文并担任多个会议与期刊的审稿人。

个人主页：https://cientgu.github.io/

4、大模型的高效并行推理方法

报告简介：AIGC大模型已取得广泛应用成果，然而其低效的顺序推理过程常导致较差的用户体验和高昂的部署成本。本次报告将介绍如何从推理算法的角度改善大模型的推理效率，并探讨在模型架构、序列压缩、缓存优化等其他方面的加速手段。