2018/06/21 17:50

Yi Jin作者Joni编辑

使用嵌入改善客户生命周期价值预测：帮助提升网络零售效益

在电子商务领域，CLTV 预测是一个非常重要的问题，能帮助零售商更好地调整营销宣传策略，保留高价值客户。研究表明特征学习能帮助 CLTV 建模达到更好的效果。本文解读了在线服装购物网站 ASOS.com 的相关研究《Customer Lifetime Value Prediction Using Embeddings》。

论文地址：https://arxiv.org/abs/1703.02596

引言

该论文是在 RE·WORK 零售与广告深度学习峰会（伦敦）期间发布的。其描述了在线服装购物网站 ASOS.com 部署的客户生命周期价值（CLTV）预测系统。对于电子商务公司来说，能够更好地预测 CLTV 具有非常大的商业价值。这篇论文详细解释了使用嵌入的特征学习的相关研究成果、系统架构和模型表明提升。

CLTV 是什么？

CLTV，即客户生命周期价值（Customer Life Time Value），是指与一个客户的整体未来关系所带来的净利润预测。换句话说，它表示的是用金钱衡量的每个客户的价值。这个信息可被用于判断获取客户的适当成本以及对现有客户的保留开支。

CLTV 的概念可以根据不同的需求按不同的方式定义。在 ASOS，CLTV 的定义是一年中销售额减去回报的净支出。提供这一年期间的预测 CLTV 能为企业提供可据此采取行动的见解。由此，CLTV 预测的问题得到了定义。CLTV 的训练和预测时间尺度被设定为：

图 1：CLTV 的训练和预测时间尺度。该模型每天都使用来自过去两年的客户数据进行再训练。标签是过去一年的净客户支出。模型参数在训练期间学习得到，并会在实时系统中被用于根据新特征预测 CLTV。

如图 1 所示，训练的标签是 CLTV，定义为过去一年（过去 12 个月）的净支出。训练特征来自过去一年（-12 个月）到过去两年（-24 个月）期间，这个阶段与标签无交集。过去一年（过去 12 个月）的特征被用于得到预测。

CLTV 建模相关研究

对客户行为的研究几十年前就已经开始。由于缺乏数据，早期的模型能力有限，而且往往需要使用严格的假设来拟合简单的参数统计模型。直到世纪之交，有了大规模电子商务平台提供的数据，基于真实数据的新方法才被开发出来并得到测试。

分布拟合方法

已知的第一个 CLTV 统计模型是“购物至死（BTYD：Buy 'Til You Die）”模型。其使用了参数分布来建模 CLTV。众所周知的 Pareto/NBD [1] 则假设了指数式分布的活动持续时间和泊松分布的购买频率。为了让这种方法更有用，研究者还提出了两项改进 [2,3]。

“最近消费-消费频率-消费金额（RFM：Recency-Frequecy-Monetary）”价值模型 [4] 是 BTYD 的一种扩展方法。其根据最近一次购买情况（最近消费）、购买次数（消费频率）和购买价值（消费金额）来执行 CLTV 估计。尽管如此，它在最近消费和消费频率上是基于 Pareto/NBD 的，消费金额则遵循一个独立的 gamma/gamma 分布。

机器学习方法

尽管在分布拟合上很成功，但却难以将现代电子商务平台上大量可用的客户数据（比如网络浏览数据）整合进 RFM/BYTD 中。因此，我们向面向机器学习的方法前进。

ASOS 的当前模型和架构

目前，ASOS 部署了一个来自 Apache Spark 的随机森林模型。其已经收集了客户的人口统计信息、购物情况、退货、产品信息并使用了人工创造的特征。其中的机器学习流程训练了两个模型：客户流失分类和 CLTV 回归。在经过调节校准后，整个系统能为企业相关者提供预测。

ASOS 最近的开发成果是使用嵌入来获取来自网页/应用会话的信息作为当前模型中的特征。这部分之后再讨论。

下图是 CLTV 系统的示意图：

在当前的随机森林模型中，该论文作者提到了特征的重要性。通过这种方式，他们发现了很多有趣的让人惊讶的见解：

订单和会话日期的标准偏差
从新集合中购买的商品的数量

即使没有嵌入实现的特征，ASOS 的 CLTV 系统已经能给出很好的结果了：

对于 CLTV 模型，斯皮尔曼等级相关系数 [5] 为 0.56，其评估的是预测值和实际值之间的单调关系（越高越好，+1 表示完美的单调关系）。
流失预测的 AUC 是 0.795

使用特征学习改进 CLTV 模型

其目标是补充当前的人工设计的特征。深度学习和降维等自动特征学习有助于克服人工设计的特征的某些局限性。因此 ASOS 尝试了两种方法：

他们在客户产品评论上应用了无监督神经嵌入来生成隐含特征，然后将它们用于补充随机森林模型的特征集。
他们在人工设计的特征上训练了一个深度神经网络（DNN）来学习更高阶的特征表征。

使用会话的客户嵌入

该方法延展了一种自然语言处理（NLP）神经嵌入方法：SGNS（使用负采样的 SkipGram）。word2vec 就使用了这种方法。也能找到其在几个相关领域内的应用，比如 item2vec、prod2vec、 bagged-prod2vec。

这样做背后的直觉理解是：高价值客户往往会浏览更高价值的产品、更少的流行产品以及市场上可能不是最低价的产品；相对而言，低价值客户往往会集中在促销期间的产品或定价低于市场的产品上。这就是使用 NLP 的 SGNS 的原因，它会试图获取特定的语境以及接下来的（相关的）词应该是什么。

在实践中，需要做出三个关键的设计决定：

如何定义语境
如何从语境中生成客户对
如何生成负样本

看看上图，我们就知道了答案：语境是客户在每款产品上的购买序列。客户对会在语境窗口中生成。另外，这里还绘出了负客户样本。然后，可以学习到一个加权的矩阵。

ASOS 遇到了一个问题：由于随机性，所学习到的嵌入在训练和预测上不匹配。为了解决这一问题，ASOS 使用了不同的矩阵初始化方式：

对于在训练阶段给出的客户：使用训练嵌入完成初始化。
对于新客户：通过在一个相比于训练嵌入相对小规模的嵌入中取出的均匀的随机值完成初始化。

下面的图表展示了嵌入在随机森林模型上的提升：

图 2：具有不同数量隐藏层神经元的深度前馈神经网络和混合模型在 50000 个客户的测试集上得到的受试者工作特征曲线下最大区域。误差线表示样本均值的 95% 置信区间。隐藏层神经元的数量的记录方式为：神经网络 [x,y] 中 x 和 y 分别表示第一和第二个隐藏层中的神经元数量；神经网络 [x,y,z] 中 x、y 和 z 分别表示第一、第二、第三个隐藏层中的神经元数量

人工设计的特征的嵌入

使用深度神经网络替代随机森林的原因是 DNN 近来在视觉、语音识别和推荐系统上取得了成功。但是，虽然结果表明 DNN 也许能提升表现，但训练模型的资金成本超过其带来的效益增益。
图3：具有不同数量隐藏层神经元的混合模型在 50000 个客户的测试集上得到的受试者工作特征曲线（AUC）下最大区域（对数坐标）。误差线表示样本均值的 95% 置信区间。下面（绿色）和上面（红色）的横线分别表示最简单的 logistic 回归模型（LR）和我们的随机森林模型（RF）在同一个客户集上得到的最大 AUC。阴影部分的虚线表示对更大架构的不同预测情况。

图 2 展示了 DNN（2 个隐藏层）相比于 LR（logistic 回归）和 RF（随机森林）的基准（AUC）。当神经元数量更多时，DNN 有可能会优于 RF。

图 4：在 100 000 个客户的训练集上训练混合模型时，平均资金成本相对隐藏层中神经元数量的变化情况（均为对数坐标）。这里给出的训练成本是相对于训练我们的随机森林（RF）模型的成本。这里我们仅考虑有两个隐藏层的混合模型，其中每一层都有同等数量的神经元。下面（绿色）和上面（红色）的横线分别表示最简单的 logistic 回归模型（LR）和我们的随机森林模型（RF）在同一个客户集上平均训练成本。

但不幸的是，随着神经元数量的增长，训练 DNN 的成本增长速度非常快，如上图所示。

分析师简评

CLTV 建模能为决策者提供非常有用的见解。ASOS 仅通过预测下一年的 CLTV，就让企业（利息相关）能够做到这一点。使用机器学习的现代方法提供了无需任何假设来衡量 CLTV 的方式（相比于分布拟合方法）。它也能适应大量数据并得到更加准确的结果。此外，它也对来自 NLP 的嵌入模型（word2vec）思想进行了延展，可用于通过浏览会话数据来了解客户的行为。对于网络零售公司的数据科学团队来说，这是一篇非常有意思的论文。

参考文献

[1] David C. Schmi lein, Donald G. Morrison, and Richard Colombo. 1987. Counting Your Customers: Who Are They and What Will They Do Next? Management Science 33, 1 (1987), 1–24. DOI:h p://dx.doi.org/10.1287/mnsc.33.1.1

[2] Albert C. Bemmaor and Nicolas Glady. 2012. Modeling Purchasing Behavior with Sudden ”Death”: A Flexible Customer Lifetime Model. Management Science 58, 5 (5 2012), 1012–1021. DOI: http://dx.doi.org/10.1287/mnsc.1110.1461

[3] Peter S. Fader, Bruce G. S. Hardie, and Ka Lok Lee. 2005. Counting Your Cus- tomers? the Easy Way: An Alternative to the Pareto/NBD Model. Marketing Science 24, 2 (2005), 275–284. DOI: http://dx.doi.org/10.1287/mksc.1040.0098

[4] Peter S. Fader, Bruce G. S. Hardie, and Ka Lok Lee. 2005. RFM and CLV: Using Iso-Value Curves for Customer Base Analysis. Journal of Marketing Research XLII, November (2005), 415–430. DOI: http://dx.doi.org/10.1509/jmkr.2005.42.4.415

[5] Spearman's rank correlation coefficient: https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient

理论