[1] Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction
ECIR 2016
Weinan Zhang, Tianming Du, Jun Wang
University College London, RayCloud Inc.
https://arxiv.org/pdf/1601.02376.pdf
预测用户响应,比如点击率和转化率,在很多 Web 应用程序中非常重要,这些的web应用程序包括 Web 搜索、个性化推荐和在线广告等。跟图像和音频域中的连续特征不同,Web 空间中的输入特征通常包含多个域,并且大多是离散和类别型特征,而这些特征之间的依赖性并不显而易见。
大部分用户响应预测模型通常是线性模型,或者需要手动构建高阶组合特征。线性模型无法探索特征之间的交互,如果构建高阶组合特征则会导致计算量非常大。
为解决这个问题,作者提出两种使用深度神经网络(DNN)的新模型,进而可以从类别型特征的交互中自动学习有效的模式,进而预测用户的广告点击量。
为使本文所提出的DNN比较高效,作者们利用三种特征转换方法,即分解机 (FM)、受限玻尔兹曼机器(RBM) 和去噪自编码 (DAE)。本文不仅介绍了所提模型的结构及其有效的训练算法。
在真实数据上的大量实验表明,本文所提方法比主要的先进模型效果更好。
本文提出的FNN结构示例如下,其中FNN为Factorisation Machine supported Neural Network
本文提出的SNN结构及预训练方法示例如下,其中SNN为Sampling-based Neural Network
几种方法的AUC对比如下
不同网络结构的AUC对比如下
不同的正则方法AUC对比如下
代码地址
https://github.com/wnzhang/deep-ctr
[2] Product-based Neural Networks for User Response Prediction
ICDM 2016
Yanru Qu, Han Cai, Kan Ren, Weinan Zhang, Yong Yu, Ying Wen, Jun Wang
Shanghai Jiao Tong University, University College London
https://arxiv.org/pdf/1611.00144.pdf
预测用户响应,比如点击和转化等,非常重要。在许多 Web 应用程序中,包括推荐系统、Web 搜索和在线广告等领域中都需要预测用户响应。这些应用中的数据大部分是类别型数据,并且包含多个域,针对类别型数据,通常的做法是通过one-hot编码将其转换为高维表示,该表示是稀疏的,而且是二进制的。
针对极端的稀疏性,传统模型从数据中挖掘浅层模式的能力比较有限,这里的浅层模式即为低阶特征组合;深层神经网络等深度模型由于特征空间较大,不能直接应用于高维输入。
本文提出内积神经网络(PNN),该网络带有一个嵌入层,用于学习类别型数据的分布式表示,一个用于提取各个域之间类别型特征交互模式的内积层,还有多个完全连接层用于探索高阶特征交互。
在两个大型真实广告点击数据集上的实验结果表明,PNN 在各种指标上都优于最先进的模型。
基于内积的神经网络结构图示如下
在两个数据集(Criteo 和 iPinYou)上多种方法的效果比较如下
FNN对应的论文为
Deep learning over multi-field categorical data: A case study on user response prediction, ecir 2016
代码地址
https://github.com/wnzhang/deep-ctr
CCPM对应的论文为
A convolutional click prediction model, cikm 2015
不同的dropout影响如下
几种方法在数据集iPinYou上的学习曲线对比如下
网络深度对模型的效果影响图示如下
不同的激活函数类型(sigmoid,tanh以及relu)对模型的影响如下
代码地址
https://github.com/Atomu2014/product-nets
[3] Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks
IJCAI 2017
Jun Xiao, Hao Ye, Xiangnan He, Hanwang Zhang, Fei Wu, Tat-Seng Chua
Zhejiang University, National University of Singapore
https://arxiv.org/pdf/1708.04617.pdf
分解机 (FM) 是一种有监督的学习方法,该方法能够通过加入二阶特征交互来增强线性回归模型。虽然FM的效果显著,但它会因为对具有相同权重的所有特征交互进行建模而有所限制,因为并非所有特征交互都同样有用,而且并非所有特征交互都具有预测性。例如,无用特征的交互可能会引入噪声并降低模型的性能。
本论文通过区分不同特征交互的重要性来改进 FM。作者们提出了注意力分解机(AFM),这种模型通过神经注意力网络从数据中学习每个特征交互的重要性。
在两个真实数据集上的广泛实验表明了 AFM 的有效性。在回归问题中, AFM相对FM有8.6%的提升,并优于最先进的深度学习方法 Wide & Deep和 DeepCross,另外,AFM的结构和模型参数更少。
AFM的结构图示如下
不同的dropout对模型的效果影响如下
不同程度的正则对模型的效果影响如下
不同程度的注意力因子对应的效果对比如下
训练和测试误差随迭代次数的变化趋势对比如下
不同方法的参数和测试误差对比如下
HOFM对应的论文为
Higher-order factorization machines, nips 2016
代码地址
https://github.com/geffy/tffm
代码地址
https://github.com/hexiangnan/attentional_factorization_machine