
Auto Byte
专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯
字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露
就在今天,字节豆包大模型团队在 arxiv 上发布了一篇技术报告,完整公开了文生图模型技术细节,涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法,也详细披露了此前大火的文字精准渲染能力如何炼成。报告将豆包文生图模型称为 Seedream 2.0,并明确提到,该模型于去年 12 月初上线到豆包 APP 和即梦平台。从模型能力看,Seedream 2.0 是原生的中英双语图像生成基础模型,拥有很强的美感和文本渲染效果,与目前即梦上的文生图主力模型特性匹配。换而言之,字节此次披露的,就是线上直接服务于数亿用户的核心模型。论文标题:Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
论文地址:https://arxiv.org/pdf/2503.07703
技术展示页:https://team.doubao.com/tech/seedream
众所周知,基于 DiT 架构下图像生成的质量、细节丰富度、美感、结构性等问题仍是技术从业者面临的老大难问题,阻碍技术更大规模落地,服务大众。各家厂商也纷纷在从细节处入手,优化文生图效果。字节走在国内大厂前列,旗下即梦平台颇受 AIGC 爱好者欢迎,主要因其 AI 生图兼顾真实度与美感,尤其在国风内容生成上独具特色。海辛、归藏、AJ 等 AIGC 领域 KOL 也对即梦上模型文字生成与渲染、指令遵循、风格把控等方面表达过认可。近期,即梦上还有不少「哪吒 2」主题的相关内容,所生成的图片既贴合人物特征,又有创意发挥之处。根据豆包大模型团队提供的评测结果可以看到,服务即梦的 Seedream2.0 模型,在面向英文提示词上,生成内容的结构合理性、文本理解准确性对比 Ideogram 2.0 、Midjourney V6.1 、Flux 1.1 Pro 等模型展现出优势,且各类关键维度无明显短板。注:面向英文提示词,Seedream 2.0 在不同维度上的表现。本图各维度数据以最佳指标为参照系,已进行归一化调整。Seedream 2.0 中文综合能力同样突出,尤其在中文文字渲染和国风美感方面。面向中文提示词,其 78% 的生成与渲染文字可用率和 63% 的提示词完美响应率,高于业界目前其他模型。面向中文提示词,其生成与渲染文字可用率达 78% ,完美响应率为 63% ,高于业界目前其他模型。注:面向中文提示词,Seedream 2.0 在不同维度上的表现。本图各维度数据以最佳指标为参照系,已进行归一化调整。上述能力并非来自于单点技术突破,而是源自 Seedream 2.0 团队针对数据处理、预训练、后训练阶段融入了一系列优化方法和技术。面对百亿量级的中英多模态数据,Seedream 2.0 团队构建了以 “知识融合” 为核心的预处理框架,从以下三个方面实现技术突破。大规模数据构建,往往伴随质量下滑,进而影响模型表现。为此,团队创新设计了四维拓扑网络,突破单一模态限制。该架构包含四个数据层:优质数据层:精选高分辨率、知识密度强的数据(如科学图解、艺术创作),奠定质量基础;
分布维持层:采用双层级降采样策略,从数据源维度对头部平台等比降维,从语义维度通过 10 万级细粒度聚类维持多样性;
知识注入层:构建 3 万 + 名词和 2000 + 动词分类体系,结合百亿级跨模态检索,为数据注入文化特征;
定向增强层:建立 “缺陷发现 - 数据补充 - 效果验证” 闭环,优化动作序列、反现实生成等场景。
这一架构有效平衡了数据质量与知识多样性,为模型训练提供坚实的数据支撑。传统标注的 Caption 系统受单模态理解局限,对图像内容描述不够全面精准。团队在其基础上,实现了智能标注引擎的三级认知进化。首先,构建分层描述体系,通过短、长和特殊场景 Caption 结合,让模型既能捕捉图像核心内容,又能提供丰富细节与艺术解释。其次,建立文化专有名词映射库,实现跨语言对齐,将中英文生成质量差异压缩至 2% 以内,提升模型在多语言环境下表现。最后,引入动态质检机制,利用 LLM 预筛选,通过 Badcase 驱动 prompt 模板迭代,优化描述质量。工程化方面,传统 ETL 流程存在算力错配与迭代迟滞痛点。这不仅导致非核心任务占用大量高算力资源,挤占核心任务资源,也造成数据处理流程难以适应业务与数据变化,限制整体效能。一方面通过异构调度,释放高算力资源用于关键任务。另一方面,采用 “分片 - 校验 - 装载” 三级流水线并行处理方法,打包速度提升 8 倍。这些改进大幅提高数据处理效率与质量,为大规模数据管理利用奠定基础。在预训练阶段,团队基于大量用户调研与技术预判认为,多语言语义理解、双语文字渲染和多分辨率场景适配等模块的突破,对于图像生成技术发展极为关键,可大幅提升模型适用性与用户体验,满足不同语言文化背景的用户需求,并拓展应用场景。因此,Seedream 2.0 采用了全新的预训练架构设计,其整体框图如下。具体来看,Seedream 2.0 从三个方面实现了关键技术升级。面向双语文生图场景,团队提出基于 LLM 的双语对齐方案。具体来说,先通过大规模文本 - 图像对微调 Decoder-Only 架构的 LLM,使文本 Embedding 与视觉特征形成空间映射对齐。同时,针对中文书法、方言俚语、专业术语等场景构建专用数据集,加强模型对文化符号的深度理解与感知。这种 “预训练对齐 + 领域增强” 的双轨策略,使模型能够直接从大量中英文数据中习得 “地道” 的本土知识,进而,准确生成具有文化细微差别的中文或英文美学表达图像,打破不同语言与视觉的次元壁。在过去,图像生成模型的文本渲染常面临两难困境:依赖 ByT5 等字形模型易导致长文本布局混乱,而引入 OCR 图像特征又需额外布局规划模块。为此,团队构建了双模态编码融合系统 ——LLM 负责解析 “文本要表达什么”,ByT5 专注刻画 “文字应该长什么样”。此种方法下,字体、颜色、大小、位置等渲染属性不再依赖预设模板,而是通过 LLM 直接描述文本特征,进行端到端训练。如此一来,模型既能从训练数据中学习文本渲染特征,也可以基于编码后的渲染特征,高效学习渲染文本的字形特征。多分辨率生成是图像生成场景的常用需求,团队在 SD3 的 MMDiT 架构基础上,进行了两重升级:其一,在训练稳定性方面。团队引入 QK-Norm 抑制注意力矩阵的数值波动,结合全分片数据并行(FSDP)策略,使模型的训练收敛速度提升 300%。其二,团队设计了 Scaling ROPE 技术方案。传统二维旋转位置编码(RoPE)在分辨率变化时,可能会导致位置标识错位。Seedream 2.0 通过动态缩放因子调整编码,使图像中心区域在不同宽高比下,保持空间一致性。这使得模型在推理过程中,能够生成从未训练过的图像尺寸和各种分辨率。Seedream 2.0 的后训练过程包含四个阶段:Continue Training (CT) 、 Supervised Fine-Tuning (SFT) 、人类反馈对齐(RLHF)和 Prompt Engineering (PE) 。较值得分享的是 —— 团队开发了人类反馈对齐(RLHF)优化系统,提升了 Seedream 2.0 整体性能。团队收集并整理了一个多功能的 Prompt 集合,专门用于奖励模型(RM)训练和反馈学习阶段,并通过构建跨版本和跨模型标注管道,增强了 RM 的领域适应性,并扩展了模型偏好的上限。在标注阶段,团队构建了多维融合注释。这一做法成功扩展了单一奖励模型的多维度偏好表征边界,促进模型在多个维度上实现帕累托最优。Seedream 2.0 直接利用 CLIP 嵌入空间距离,作为基础奖励值。这省去了回归头等冗余参数结构以及不稳定训练情况。同时,团队精心制作并训练了三个不同的奖励模型:图像文本对齐 RM、美学 RM 和文本渲染 RM。其中,文本渲染 RM 引入了触发式激活机制,在检测到 “文本生成” 类标签时,模型将强化字符细节优化能力,提升汉字生成准确率。团队通过直接最大化多个 RM 的奖励,以改进扩散模型。通过调整学习率、选择合适的去噪时间步长和实施权重指数滑动平均,实现了稳定的反馈学习训练。在反馈学习阶段,团队同时微调 DiT 和文本编码器。此种联合训练显著增强了模型在图像文本对齐和美学改进方面的能力。经过 RLHF 阶段对扩散模型和奖励模型的多轮迭代,团队进一步提高了模型性能。奖励曲线显示,在整个对齐过程中,不同奖励模型的表现分数值都呈现稳定且一致的上升趋势。
Seedream 2.0 模型技术报告的发布,是字节跳动首次公开图像生成基础模型的细节做法。团队还将持续探索更高效地 Scaling 模型参数及数据的创新技术,进一步提升模型的性能边界。伴随 2025 年强化学习浪潮兴起,团队认为,他们将持续探索基于强化学习的优化机制,包括如何更好地设计奖励模型及数据构建方案。后续,豆包大模型团队也将持续分享技术经验,共同推动行业发展。