
Auto Byte
专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯
随着大模型时代的到来,搜推广模型是否具备新的进化空间?能否延续像深度学习时期那样迸发旺盛的迭代生命?带着这样的过去,阿里妈妈搜索广告在两年的持续探索中,逐步成功清理了一些关键问题,落地了多个优化方向。现在,我们更加坚定地认为,搜推广模型与大模型的结合蕴藏着巨大的想象空间和价值业务。以下几个方面分享和交流2024年的思考与实践:- 在保卫变革性的技术交替之际,回顾搜搜推广模型的历史演进,抓住三条关键路线(明线、暗线和辅助线)有助于更加清晰地理解技术升级的内在逻辑。同时,明确如何在新时期系统性发挥算力优势,深度挖掘搜搜推广领域的尺度规律,已成为推动技术进步的核心路线。
- 新探索的前哨站,诉状模型通过与大模型的深度结合,全面提升感知与推理能力。在感知方面,着眼于解决系统内容融合信息与行为良好信息的问题,持续优化多模态表征的质量,突破传统ID表征的前置,逐步实现对感知世界更丰富的感知建模;在推理层面,构建用户序列大模型,将生成式方法与判别行为方法有机结合,探索推理能力的持续进化之路。
- 大模型正在全面全面搜索广告系统。依托预训练(pre-train)与后(post-train)的模型迭代新范式,阿里妈妈自主研发了广告领域专属大模型LMA(Large Models for Advertising),并于2024年4月业务随宣推。LMA是电商基础大模型衍生出来的广告模型集合,迭代分支包括认知、推理和决策。新财年以来,LMA持续优化、认知分支聚焦多模态表征、推理分支聚焦搜索推广领域的用户行为大模型等。这些技术进展不仅推动了第一阶段体系实现多个版本迭代上线,还深度改造了认知、改写、相关性和创意等核心技术模块,推动技术全面升级。
和深度学习时期相比,大模型时期的搜推广模型有一脉相承之处,也有推陈出新的地方。回顾过往,模型能力的突破主要沿三条路径演进:- 明线,推理偏置(Induction Bias)的合理设计,是模型能力提升的核心驱动力。
- 暗线,硬件算力的指数级提升,为模型的规模化提供了强力支撑。
- 辅助线、CV和NLP领域的代际性技术升级,给搜推广领域带来重要启示。
所谓明线,即表面能够看到的模型结构的变形,其本质是对偏置偏置的合理设计与现实。偏置偏置了模型在学习过程中对特定假设和结构的先验偏好,在数据有限的情况下能够有效约束参数搜索空间,提升模型的泛化能力。例如CV领域广泛应用的模型结构CNN,内部的偏置就是图像在局部空间的平移偏置。类似地,搜推广模型在用户行为预测建模上也有自己的惯性偏置。例如,如何设计模型结构以充分捕获用户行为的多样性、动态定位、局部定向及相互依赖关系等;如何优化嵌入结构及范式训练,赋予有效的自适应ID特征的高维稀疏和幂律分配等统计特性。所以,每次可见的模型结构升级,都是对流程图的拓扑层次理解与实现。暗线,即模型能力升级的内在演进逻辑,就是借助算力的东风不断提升模型规模化的能力。若明线似看得见的招式,则暗线似看不见的内功。如何修炼内功,优化基础训练和推理,能够充分利用摩尔动作与黄氏动作带来的算力提升,使得模型参数规模持续增长。这就是近年来模型演进的核心旋律。然而,算力的指数级增长主要体现在计算上,“内存墙”依然高筑,存储与带宽仍然是系统的瓶颈。对于搜推广模型而言,其训练的主要挑战在于稀疏嵌入的访问与计算,如何进行算法与工程的深度联合优化,提升计算与通信的任务,最大化GPU计算资源,成为释放算力和推动模型规模化的关键。某种程度上,搜推广模型比其他领域更早认识缩放定律(缩放缩放)的重要性。与 CV 和 NLP 领域不同,搜推广模型依赖于高维稀疏的 ID 特征体系,其规模化方向并不是向更深的方向生长,而是向更宽的方向扩展。如果以 LLM 常用的 Token 规模作为对比,我们场景中一天的样本对应的 Token 规模已达到 T 级别,与 GPT-3公开的数据相当,且模型的训练还需要大量样本,数据量远超一般LLM训练。因此,长期以来,增加的样本规模、特征数和嵌入维度等共同支撑了更广泛的缩放法则的第一增长曲线方向。然而,随着时间的推移,这一增长曲线的边际效果正逐渐递减,促使我们重新思考:搜索推广模型是否也有向更深层次扩展的机会?接下来,我们将重点探讨这一可能性。搜推广模型作为AI应用领域的重要分支,贯穿整个AI技术的发展影响。纵观整个AI发展史,CV和NLP领域的技术相互响应、交相辉映,每一轮技术都刷新着AI迈向新的高度,引领了引领和破圈的效应。相对地,搜推广模型在发展进程中既面临AI领域的共性问题,也有自身业务属性的特色问题。其中关于共性问题,CV和NLP的技术突破就是很好的辅助线,给予搜推广模型重要启示,加速创新。搜推广模型经历了几次重大技术变革,与 CV 和 NLP 领域的创新息息相关,沿着时间线:AlexNet 在 ImageNet 竞赛中的突破性成功表明了 DNN 的巨大潜力,搜推广开启 DNN 时代;
Word2Vec奠定了表征的基础启示,使嵌入技术得以广泛推广的广泛应用;
注意力机制对翻译任务的大幅提升,深度影响用户行为兴趣建模;
基于Transformer结构的训练范式的普及,推动了对比学习、掩码学习、预训练和迁移学习等多种迭代模式的兴起。
当然,推广模型的实践也将反哺AI领域的发展,例如基于用户反馈的强化学习并由此产生性能敏感的提升、剪枝、低排序和量化等技术。如今,LLM又开启了大模型的新时代。综上,新的辅助线看起来会延伸更远,LLM已经彻底削减NLP,搜推广模型的演进可能会发生深刻变化。一方面,从算力(暗线)角度来看,缩放法则在稀疏的更宽方向已经表现出第一生长曲线,新时期需要探索稀疏往稠密的转变,走出更深的新生长;
另一方面,从偏见(明线)角度来看,人工先验的偏见由精细化设计向朴素化范式转变。 正如《苦涩的教训》所言:“AI发展史最苦涩的教训是:试图将我们认为的思维方式编码硬进AI,长期来看是无效的。最后重要的,是那些能够随着计算能力高效增长而扩展的通用方法”。这一点紧迫感同身受,过去依赖精巧结构设计的短期收益,往往在算力提升的长期趋势下变得微不足道,甚至有些复杂结构反而成为算力扩展的障碍。真正支撑生产服务的模型,最终仍会朝着简洁、简化、方向的收敛,以适应计算资源的可扩展性和实际业务需求。
所以,大模型时期的迭代主线:弱化偏置,强化数据驱动,设计高效通用且的模型结构,让模型从数据中自动学习复杂模式,充分挖掘算力潜力,探索出稀疏方向往稠密更深方向扩展的新路径。这就是我们研发LMA系列模型的认知核心。LLM的横空出世让各领域探索应用潜力,搜刮推广系统也不例外。关于LLM在搜索和推荐系统中的重建应用,开始已有消防灾害,技术分类体系十分完善,颇有启示,本文不再赘述。同时算力现实和性能约束,我们更关注短期内的落地呼吸,所以本文逐步进进式优化的视角,回顾并CTR模型与大模型结合的思考与实践。前文已经论述了大模型时期我们认为的迭代主线,即弱化增量增量,强化数据驱动,探索搜推广模型的稠密更深方向的规模化之路。CTR模型经过多次的迭代积累,形成了最具生命迭代力的两个提效方向——嵌入建模和用户行为兴趣建模。二者均遵循更广泛的规模化思路,不断增加特征个数、不断扩散长用户行为规模、不断延展嵌入的向量等,取得不断持续的收益。更深层次的规模化始终不像CV和NLP模型那么顺利,CTR模型似乎搞到了几十层没有意义,反而会适得其反。最关键的认知破局点存在,CTR任务的判别式模式太简单了,让模型判别是否点击此类的1bit信息量的答案,初步于下一个Token预测的生成式方面,活动空间过小。如此,在不改变判别式任务的情况下,模型仅依靠强能力的高维稀疏ID Embedding就可以完成大部分的记忆工作,浅层的Dense参数只需要承受部分的泛化能力就好,这样模型总是有更深的所以,我们认为三阶段的迭代范式——“Pre-train + Post-train + CTR”可以破局,更深层次的方向规模化的重任交由Pre-train和Post-train完成。下面分别介绍新范式下对我们嵌入建模和用户行为兴趣建模的改造,两个对应——“多模态”和“生成式”。深度学习时期的 CTR 模型以 ID 体系特征为基石,ID Embedding 的参数规模关注整个模型的 90% 以上,其表征决定了模型爆发能力的基础。然而,ID Embedding 体系长期面临一个核心挑战,就是其过度依赖历史统计数据问题,对长尾和冷启数据极为不友好,且此类数据是搜推广业务的核心。参数规模化的收益边际速率逐渐增长,而数据稀疏的瓶颈问题日益凸显,我们需要探索新的嵌入技术体系。我们开始重新利用ID形式的特征表达,认为ID但是为了捕捉世界的代理表达,模型对世界的采集应该更加直观和直接。常理思考,用户对于一个项目是否发生感兴趣、是否有点击行为,本质上是项目的视觉表达是否会吸引到用户,所以直接建模近似视觉表达会本质上。因此,过去两年我们重点建设多态MM嵌入内容技术体系,把其应用到用户行为兴趣建模中,打造朴素但强大的视觉兴趣模型(MIM:Multi-modal content Interest Modeling)。视觉兴趣模型MIM采用“Pre-train + Post-train + CTR”的迭代范式,核心就是将更深方向的参数规模化交由Pre-train和Post-train来实现,考虑前序阶段的训练目标就是自定义质量的MM Embedding,然后基于MM Embedding的视觉兴趣建模由CTR任务来完成。该范式有优势,多模态能力及时可以追踪前沿开源技术、CTR任务能够保持性能和迭代的高效、更深方向的规模化可以有规划性的持续迭代、生产关系可以解耦并各司其职地开展等。这些优势在过去两年的模型升级中体现得淋漓尽致,这也是我们最终没有采用建模路线的原因。高质量MM Embedding生成的核心是承载稀疏信息的内容空间与承载稠密信息的兴趣空间如何有效协调,模型架构就是多模态领域的稠密模型。稠密模型和CTR任务的稀疏模型相比,语义理解比统计判别的稀疏任务更难,几十层的模型架构最重要,给更深层次的方向规模化带来空间。编码、负责空间的理解与迁移,关注图文是什么,多态调整能力的持续优化是基础,将开源世界知识往电商知识迁移是关键;培训后职责是对齐,负责空间与兴趣空间的协调,关注用户行为反馈、凸显图文吸引力要素,高质量的训练样本并找到与下游CTR任务正相关的中间指标是关键。另外,这两个阶段也有内容的优化主线:训练模式,包括分类、对比学习、掩码学习、自回归学习等,且骨干紧随主流更迭,包括BEiT3、BGE、BLIP2、EVA2等。
数据质量、图文质量包括视觉强相关的主体和关键词识别、难正负样本挖掘,结合行业特色挖掘兴趣样本例如拍立淘的图搜场景等。
规模效应,包括图片尺寸、训练样本和模型参数,模型尺寸经历了0.1B、1B和10B的升级过程,是更深层次规模化的主要路径。
有了高质量的MM Embedding,CTR阶段的兴趣建模就回归传统、轻车熟路,基于Target-Attention机制将ID Embedding升级为MM Embedding就可以灵活地高效建模用户的视觉偏好。整个算法框架就这样运转起来,三个阶段既相互解耦合又是相互联系的。同时,关于Pre-train和Post-train的稠密模型框架和CTR稀疏模型框架的有机结合,工程在离线和在线前期都做了相应的架构升级和性能优化。迄今为止,MIM模型共上线过去4期,分别在两年的大促(2023&2024-618&双11)全量上线,每期都有整体大约CTR+5%、长尾CTR+10%的显着提着效果。欢迎讨论,【MIM】MIM:用户行为建模的多模态内容兴趣建模范式论文链接:https://arxiv.org/abs/2502.00321随着包括用户行为序列行为规模的不断扩大,行为长周期的不断加长、多类型行为和多领域行为的不断补充等,这类特征的重要性逐渐在整个特征系统中支配地位。过去,单值特征类型的特征交互建模曾是模型迭代的主线,而现在,实际提效的研究焦点是转向业务多值/序列特征类型的用户建模。研究焦点的转向和方向该行为的尺度法则密不可分,例如针对行为周期的不断拉长,设计高性能的目标注意力结构能够带来收益。但是传统的规模化仍然仅在更广泛的持续方向有效,我们多次尝试加深行为兴趣网络结构的层数,但却提效甚微并且很快就遇到瓶颈,我们开始认识CTR任务的最终会建模限制模型的复杂程度,更深层次的规模化红利需要用新的思路来解决。为此,我们提出 LUM(Large User Model)模型,同样考虑“Pre-train + Post-train + CTR”的迭代范式,点与 MIM 模型类似,由 Pre-train 和 Post-train 来承担更深的方向规模化,同时系统架构、迭代效率、推理性能和生产关系等对落地和后续发展有好处。前序阶段参考 LLM 模型架构设计自回归生成式任务 ——下一项预测,目的是从用户行为序列中以驱动的方式学习良好的过滤模式,高效阶段该下游行为预测类模型的可迁移性。CTR模型则依赖LUM的推理结果,进行目标注意力,除传统的从历史行为中的兴趣之外,进而从推理的未来信息中挖掘潜在兴趣,该方式融合了生成式与判别式任务的各自特征。类似的范式并不新鲜,但可能大家范式的规模化能力估计不足,在LLM盛行并没有成为持续迭代的主流,这次以全新的认知重新做系统性建设。LUM模型的规模化潜力主要源于下一项预测的任务设计,因为项目集合非常大,模型学习空间稀疏之前只有1bit信息量的是否点击的CTR任务更大,可以容纳更多的样本与模型参数。实践证明,确实该模式下模型层数可以加深到几十层,结合对应的该阶段设立的技术指标如回忆等均能持续提升,并与下游CTR任务结合,可以体现推理能力不断提升。LUM模型的优化核心要解决两个高效的语义信息与高效的语义如何融合。前面的问题,涉及到Item规模对应LLM的Token词表过于庞大,另外如果参考文献文献直接文本化的做法对于长序列表达是个灾难,所以将语义信息压缩至小规模的Token非常有必要。目前的Token化方法在百花齐放中,包括语义ID、LLM总结、多模态表征等;晚上,虽然良好的信息和语义信息的建模思路大同小异,都在相互间刻画Token之间的“共现”概率,背后的模式仍然存在很大差异。为此解耦可以司其职权,架构分层是理想方案,底层Token化聚焦语义信息的编码,上层Transformer结构聚焦和谐信息的预处理。如上,用户行为建模可以增强兴趣推理能力,并开启新的尺度化路径。【LUM】基于三步范式的大用户模型解锁工业推荐系统中的缩放定律
论文链接:https://arxiv.org/abs/2502.08309
【UQABench】UQABench:评估用户嵌入在个性化问答中提示 LLM 的效果
论文链接:https://arxiv.org/abs/2502.19178
大模型的出现对搜索推广业务影响即将到来,短期来看可以通过AI能力升级重构现有系统,长远来看必将孕育出新的产品形态和商业模式。重点介绍一下我们如何利用大模型的能力全货架仓库现有的搜索广告系统。主要体现在两个方面的优势:1)传统搜索系统依赖于ID特征体系,大模型在语义理解和逻辑推理上的推理能力可以真正读懂用户的搜索需求,各环节的匹配效率必然会提升;2)大模型升级下来的Pre-train和Post-train的迭代范式,能够更加标准化地优化全渠道,并进一步打开规模化的空间。继2023年的效果初探,2024年我们在全渠道上有更全面的落地,包括改写、召回、相关性和创意等模块,累计提效约CTR+10%、RPM+5%,接下来的几个相关工作介绍做。改写是搜索场景广告业务特色的技术模块,用户输入搜索词高效表达搜索需求,广告主通过广告平台设置和自己产品相关的竞买词Bidword表达想要达到更高的流量,改写的目标是对Query和Bidword匹配。匹配效率体现在两个方面,分别是相关性和流量,前期是基础,后期是在前期的基础上流量变现价值主要的Bidword。核心挑战有两个:1)精准价值查询背后的真实购物需求,尤其是手机文本输入成本高,用户和广告主的表达习惯千差万别,Query和Bidword之间的语义鸿沟对于相关性挑战很大;2)相关性和高价值的平衡。经典方案需要有两类模型相配合,深度语义模型解决相关性问题,基于和谐过滤的深度价值模型解决流量价值问题。该方案有两方面问题,涉及到存在老生常谈的问题即对长尾查询理解和改写融合能力,而两段式目标往往会顾及此失彼。大模型LLM的出现可以极大改善出现长尾流量上的相关性问题,LLM含世界知识对于文本理解和推理能力非常强大,我们在2023年年初就开始推进LLM在改写方向的落地,探索生成式改写的提效潜力。电商广告领域知识的SFT和在线动态RAG是迭代早期的常规优化手段,效果不错。生成式改写也是LLM在搜索广告业务中的第一个上线项目。但是简单将LLM改装成改写任务仍然会存在两个问题,一个是LLM的生成结果无法保证一定是在竞买词库中,导致生成结果不可用;另一个是生成结果虽然能够保证极大的相关性但是无法提供流量价值的判断。所以系统往往需要有一个第二段改写的模块,给上述两个问题进一步兜底或者改善。为了优化改写效果,我们提出基于带权Trie树的LLM生成式改写技术(VALUE)。一方面通过将全库竞买词构建成Trie树,使得LLM生成过程在Trie树约束搜索下进行,确保生成结果一定是在竞买词库中;另一方面离线阶段构建高低价值的反馈判断效率更高(哪个词的变写效率更高)进行DPO训练,在线环节将Trie树树升级为带权(权重价值即变现效率的层层聚合)且实时更新的模式,两相结合使得时段式生成过程兼顾了高决策。如上,基于LLM的生成式改写方向,两年时间总共上线4期,提效显着。电商场景下,用户的搜索需求除搜索词查询的主动性延伸到外部,还有背后的个性化需求,包括价格、品牌、款式等偏好。同时,商品广告库的丰富相关性意味着,即使满足基本的相关性需求,系统仍需在队列符合条件的商品中做出偏好选择。所以深度挖掘用户兴趣偏好,才能更全面地了解用户的搜索需求。在此基础上,召回模块的核心目标就是在确保高召回率的前提下,检索出与后续排序阶段价值判断一致的最优广告集合子集,从而同时满足相关性和个性化的搜索需求。记忆模块的核心技术挑战是在计算性能有限的情况下实现全库打分检索,从而在准确率和记忆率之间达到最优化平衡。记忆化检索是深度学习时期应用广泛的技术方案,其中索引结构是关键,通过LSH、PQ或HNSW等方法设计合理的数据结构,对索引进行分片或分层处理,可以减少大量冗余的计算,达到近似最近邻ANN的计算效果。不过电商搜索有别于传统的文本搜索,查询、用户主要体现在两个方面,一方面基于紧迫的索引构建与搜索模型相分离会导致优化目标不统一,另一方面基于性能考虑实体间的计算只能在简单的线性计算模式下进行。大模型LLM的建模范式给生成式认知带来新的思路,生成式认知可以从本质上统一索引构建和检索打分两个过程,此时模型参数即索引,模型的离线训练和在线推理的优化目标是一致的,并且自然地可以引入复杂的非线性计算,这样最终的最优子集生成过程有更高的优化。生成式认知有两类探索方向:1)参考LLM的自回归建模思路,基于Transformer架构自行构建下一个项目预测;2)将用户行为和查询一样的文本化,直接借助LLM的世界知识和推理能力进行下一个Token预测。先前就是前文提到的LUM模型,该模型在召回和召回姿势涉及应用,这里不再赘述;晚上是LLM恢复推荐系统中的第一步和最直接的两类探索思路,因为召回对于打分精准度的要求不那么严苛,所以针对该思路我们优先选择在召回侧做详细尝试。其中最核心要解决的技术问题是如何让和谐的过滤信息转移到LLM模型中,我们分别做了几项工作:蕴含良好过滤信息的ID嵌入以特殊Token的方式引入、利用行为序列信息进行领域迁移的SFT、Next Token实际应用生成Next CPV(商品关键属性,格式化信息天然有声音式效果),实践表明该召回方式能够提升认知通道调用,带来明确的业务收益。当然,眼下关于生成的计算性能问题仍在逐步攻克中。在电商场景中,搜索广告结果通常以商品的复制形态呈现,因此搜索相关性对用户体验至关重要。相关性模型作为NLP技术搜索中的广告中的核心应用,主要用于判断用户搜索需求(查询)的文本表达与商品的图文信息是否匹配。该技术体系包括识别模型、关键属性识别模型,以及贯通认知与排序各阶段的相关性判断别模型等多个关键模块。同时,相关性模型的技术不断持续延续NLP随着大模型LLM的崛起,NLP技术范式正经历深刻变革。相关性模型有别于CTR等行为预测模型,它没有个性化信息,文本语义的深度理解是建模关键,所以我们认为具备LLM迁移最先落地的可能性。相关模型一直以来的核心技术挑战是如何在棘手的数据稀少且昂贵的情况下做模型规模化。技术发展路线主要经历两个阶段:1)行为挖掘数据弱标签,借助图回归学习和表征学习的能力做数据层面Scale up;2)数据BERT系列的文本类多任务预训练+下游任务后续的范式,进行模型层面Scale up。随着自模式的GPT架构的兴起,模型的进一步规模化仍能得出逻辑推理能力,而这正是相关性模型可以代际性进阶的突破。逻辑推理和可解释性对于相关性任务决策很重要,说明我们通过思维链CoT的实践动作慢推理的可以设计显着提升决策任务结果的准确性,反过来推理的过程信息对于模型的再次迭代以及业务应用都有助益。因此,我们设计了基于思维链模式的聚焦逻辑推理的相关性大模型,并升级了标注系统,设计机器标注和手动标注的良好,彻底改变标注数据稀疏且昂贵的标注境地。同时,考虑到相关性大模型无法在线即时级实时响应,我们设计了一系列电业务特色的细粒度调整手段,包括数据调整、隐层调整和流程补充等,大幅提升在线传统相关性模型的标志能力。驱动方法论践行,今年在相关经验上取得了过去三年之和的提效收益。欢迎讨论,【ELLM-rele】可解释的LLM驱动的电子商务相关性学习的多维蒸馏论文链接:https://arxiv.org/abs/2411.13045本文介绍了阿里妈妈实践广告在多模态和大语言模型方面的成功,虽然取得了不错的收益,但仍需关注当前LLM在线服务中的实际应用情况。主要作为增强手段提供辅助优化。因此,如何设计高性能推理架构,使大模型真正实现在线实时应用,将成为下一阶段的关键突破点。这不仅能带来更全面的业务收益,也意味着更大的效率提升空间。参与深度学习改造搜推广系统的同行对此颇有深度接触。在早期,DNN作为一种从CV和NLP领域搜集来的技术,能否顺利在搜推广系统中引发曾一度令人担忧的问题,整个落地过程充满挑战。然而,尽管现在DNN已经成为行业的标配,背后支撑这一变革的核心因素,是算力成本的指数级下降。大模型的发展趋势亦然。当前LLM迭代受算力上限的否定,但可以预见,在不远的未来,随着计算成本的降低和推理架构的升级,LLM也将全面在线化,成为搜刮推广系统的核心技术基础。[2] 预训练、提示和预测——自然语言处理中提示方法的系统综述[5] 多模态推荐系统分类、评估及未来方向综合综述[7] 预训练、提示和推荐——推荐系统中语言建模范式适应性的综合调查[8] 使用大型语言模型探索基于文本的协同过滤的上限 - 发现和见解[10] 面向下一代基于 LLM 的推荐系统:综述及展望