Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

FrankLearningMachine作者

顶会中深度学习用于CTR预估的论文及代码集锦 (3)

[1] Deep Interest Network for Click-Through Rate Prediction

Guorui Zhou, Chengru Song, Xiaoqiang Zhu Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, Kun Gai

Alibaba Group

KDD 2018

https://arxiv.org/pdf/1706.06978.pdf

点击率预估在工业应用中, 例如在线广告,是一项基本任务。最近,研究人员提出了基于深度学习的模型,这些模型遵循了嵌入+MLP范式。在这些方法中,大规模稀疏输入特征首先映射到低维嵌入向量,然后以分组方式转换为固定长度的矢量,最后将这些特征串联在一起,传入多层感知器 (MLP) 中,进而学习特征之间的非线性关系。

如此一来,无论候选广告是什么,用户特征都被压缩成固定长度的表示向量。在这里,使用固定长度的向量是一个瓶颈,这给嵌入&MLP方法从丰富的历史行为中有效地捕捉用户的多种兴趣带来了困难。本文提出了一种新的模型:深度兴趣网络(DIN),通过一个局部激活单元来适应从某一广告的历史行为中了解用户兴趣的表达,进而解决了上述难题。

该表示向量因广告不同而不同,这就大大提高了模型的表达能力。此外,作者们还提出了两种技术:微型批量感知正则化和数据自适应激活函数,这两种技巧有助于训练具有数亿个参数的工业界深度网络。

在两个公共数据集以及包含超过 20 亿个样本的阿里巴巴真实生产数据集上的实验表明了本文所提方法的有效性,与最先进的方法相比,该方法的性能更优。DIN现已成功部署在阿里巴巴的在线展示广告系统中,用于服务主要流量。

本文主要贡献如下

阿里的广告展示系统图示如下

几类特征情况统计如下

网络结构图示如下

控制函数图示如下

PReLU函数定义如下

Dice定义如下

数据集信息统计如下

不同正则化方法的效果对比如下

几种方法的效果对比如下

不同正则方法的auc对比如下

几种方法的效果对比如下

代码地址

https://github.com/zhougr1993/DeepInterestNetwork

[2] Deep Interest Evolution Network for Click-Through Rate Prediction

Guorui Zhou, Na Mou, Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, Kun Gai

Alibaba Inc

AAAI 2019

https://arxiv.org/pdf/1809.03672.pdf

点击率 (CTR) 预估的目标是估计用户点击商品的概率,这是广告系统中的核心任务之一。在CTR预估模型中,需要捕获用户行为数据背后的潜在用户兴趣。另外,考虑到外部环境的变化以及内部认知,用户兴趣随时间的变化而变化。

至今已有多种CTR预测方法用于兴趣建模,然而大多数方法将行为表示直接视为兴趣,这就无法对具体行为背后的潜在兴趣进行建模。此外,这些方法很少考虑兴趣的变化趋势。

本文提出了一种用于CTR预估的新模型,深层兴趣演化网络,DIEN。具体来说,作者们提出了兴趣提取层,用于从历史行为序列中捕获随时间变化的兴趣。在此层中,通过引入辅助损失函数用于监督每步提取的兴趣。

由于用户兴趣多种多样,特别是在电子商务系统中,作者们利用兴趣演化层来捕捉相对于目标项目的兴趣演变过程。在兴趣演化层中,将注意力机制嵌入序列结构中,如此一来在兴趣演化过程中强化了相对兴趣的影响。

在公共数据集和工业数据集的实验中,DIEN 的效果显著优于最先进的解决方案。值得注意的是,DIEN已部署在淘宝的广告展示系统中,CTR提高了20.7%。

本文主要贡献如下

本文网络结构图示如下

数据集信息统计如下

几种模型在两个公开数据集上的auc对比如下

几种模型在工业数据集上的auc对比如下

AUGRU及辅助损失的效果如下

其中AUGRU为GRU with attentional update gate

不同损失函数学习曲线对比如下

不同模型的AB测试结果如下

代码地址

https://github.com/mouna99/dien

[3] Deep Session Interest Network for Click-Through Rate Prediction

Yufei Feng, Fuyu Lv, Weichen Shen, Menghan Wang, Fei Sun, Yu Zhu, Keping Yang

Alibaba Group, Zhejiang University

IJCAI 2019

https://arxiv.org/pdf/1905.06482.pdf

点击率 (CTR) 预估在许多工业应用中扮演着重要的角色,其中包含在线广告和推荐系统等。

如何从用户行为序列中获取用户的动态和不断变化的兴趣,在CTR预估中是一个持续的研究课题。然而,目前大多数研究人员都忽视了序列的内在结构,即序列是由会话组成的,而会话由发生时间分隔的用户行为构成。

作者们观察到,用户行为在每个会话中都是高度同质的,并且不同的会话中用户行为是异构的。基于此,作者们提出一种新CTR 模型,深度会话兴趣网络 (DSIN),该模型利用用户的行为序列中的多个历史会话。

该模型首先使用带有偏置编码的自我注意机制来提取用户在每个会话中的兴趣。然后,利用Bi-LSTM 对用户的兴趣如何演变和会话之间的交互进行建模。最后,利用局部激活单元自适应地学习各种会话兴趣对目标项的影响。

在广告和生产推荐数据集上的实验表明,DSIN 优于其他最先进的模型。

几个会话的示例如下

本文的主要贡献如下

本文网络结构如下

几种方法在广告和推荐数据集上的AUC对比如下

注意力机制图示如下

代码地址

https://github.com/shenweichen/DSIN

机器学习blog
机器学习blog

本专栏专注于机器学习(主要包含但不限于深度学习)相关知识分享,其中涉及自然语言处理以及图像处理前沿论文等,欢迎大家关注交流

理论深度学习CTR
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

学习曲线技术

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
推荐文章
暂无评论
暂无评论~