两款 Step 系列开源多模态大模型,性能位列开源多模态全行业第一。
本周二,国内 AI 创业公司阶跃星辰和吉利汽车集团宣布联合开源两款多模态大模型。

GitHub:https://github.com/stepfun-ai/Step-Video-T2V Hugging Face:https://huggingface.co/stepfun-ai/stepvideo-t2v Modelscope:https://modelscope.cn/models/stepfun-ai/stepvideo-t2v 技术报告:https://arxiv.org/abs/2502.10248















多模态理解生成一体化:单模型完成语音识别、语义理解、对话、语音生成等功能,并开源了千亿参数多模态模型 Step-Audio-Chat 版本; 高效合成数据链路:Step-Audio 突破传统 TTS 对人工采集数据的依赖,能生成高质量的合成音频数据,实现合成数据生成与模型训练的循环迭代,并同步开源了首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B; 精细语音控制:支持多种情绪(如生气、高兴、悲伤)、方言(如粤语、四川话)和唱歌(包括 RAP、干声哼唱)的精准调控; 扩展工具调用:通过 ToolCall 机制,Step-Audio 能够集成搜索引擎、知识库等外部工具,进一步提升其在 Agents 和复杂任务上的表现; 高情商对话与角色扮演:基于情感增强与角色扮演强化的 RLHF 流程,提供了人性化回应并支持定制化角色设定。
GitHub 链接:https://github.com/stepfun-ai/Step-Audio Hugging Face:https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b Modelscope:https://modelscope.cn/collections/Step-Audio-a47b227413534a 技术报告:https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

Level 1 是翻译视频的基础模型。此类模型可充当跨模态翻译系统,能够从文本、视觉或多模态上下文生成视频。目前基于扩散的文本转视频模型如 Sora、Veo、Kling、Hailuo 和 Step-Video 系列都属于 Level 1。 Level 2 则是「可预测视频基础模型」。此级别的模型充当预测系统,类似于大语言模型(LLM),可以根据文本、视觉或多模态上下文预测未来事件,并处理更高级的任务,例如使用多模态数据进行推理或模拟真实世界场景。