2019/04/12 12:03

Suqiang Song (Mastercard) , Yang, Yuhao (Intel)， Jiao Wang (Intel)作者

Analytic Zoo的深度学习对MasterCard的推荐AI服务的优化

本文介绍在构建通用推荐人工智能服务的用户商品倾向模型方面MasterCard和Intel的合作项目。Analytics Zoo¹是Intel开源的一个统一的Analytics + AI平台，它无缝地将Spark、TensorFlow、Keras和BigDL²程序集成到一个整合的流水线中，可以透明地扩展到大型Apache Hadoop/Spark集群中，用于分布式训练或预测，而无需额外的GPU基础设施。

在金融行业中，用户商品倾向模型可以用来计算消费者在特定行业内从商家或零售商处购买的概率。该模型可以用于展示市场研究前景，或为相关金融产品或商业交易提供个性化建议。利用建立在Spark基础上的基于深度学习的神经推荐模型，推荐系统可以在改善消费者体验、活动绩效和目标营销产品/计划的准确性方面发挥重要作用，并提供相关信息以鼓励忠诚度和奖励。本文使用一个个性化的市场营销业务用例作为示例，阐述从格式化的信用卡交易中预测用户的购买商品的倾向：

通过优惠匹配和链接不断提高投资回报（ROI）是形成营销活动设计和营销管理的策略。
对于每个目标商品（如商家、类别、地理位置），估算所有消费者在未来几天/几周内进行购买的倾向，并提供一份作为候选人的消费者排名表。同样，该模型还可以为每个消费者推荐一个商品的排名列表。
数据工程和深度学习流水线能够在限定时间内运行在现有企业Apache Hadoop集群（带有Spark服务）之上，以生成用户商品倾向模型。
模型服务作为人工智能的服务：一种通用推荐人工智能服务，可以在不同的服务环境（如实时、流式和批处理）下与现有应用程序/服务集成。

背景

MasterCard作为全球领先的支付解决方案提供商，正在将人工智能（AI）集成到其平台中，以更好地为客户服务。Analytic Zoo，通过支持在大型Intel® Xeon®可扩展处理器集群上运行基于Spark的BigDL，是满足企业深度学习需求的理想解决方案，因为它允许用户直接在现有的大数据（Apache Hadoop/Spark）基础设施上开发和运行深度学习应用程序。相比之下，在企业中部署基于GPU的解决方案存在许多挑战（例如，错误的工具集成，昂贵的数据复制和移动，耗时和工程人员资源密集，监控较少，学习曲线陡峭等），因为它们与现有数据分析基础设施不兼容。

深度学习可以通过营销活动的有效性来推动更高的投资回报率。因此，着重于对消费者行为的敏锐洞察，根据客户的兴趣和喜好与客户进行连接。例如，如果商家提供优惠给购买潜力最高的消费者，那么商家的优惠是最有效的。传统的机器学习算法在以前的解决方案中起着至关重要的作用。然而，业界正在寻求一种更健壮的简化流程的解决方案，用于处理模型的复杂性，劳动密集的特征工程过程，以及更高的精度。近年来，人们提出了许多基于深度学习的神经推荐模型，以进一步提高营销活动的有效性。

传统机器学习和深度学习的基准测试

基准概述

作为一个在Spark上本地运行的集成分析和人工智能平台，Analytic Zoo满足企业深度学习应用程序的标准要求。

分析存储在同一大数据集群上的大量数据（Hadoop分布式文件系统（HDFS）、Apache HBase和Apache Hive等），而不是移动或复制数据。
将深度学习功能添加到现有的分析应用程序和机器学习流水线中，而不是重建它们。
利用现有的大数据集群和基础设施（资源分配，负载管理和企业级的监控）
减少特征工程工作量。在训练阶段进行交叉验证时，深度学习算法会产生指数性增长的隐藏嵌入特征，并自动执行内部特征选择和优化。在构建模型时，算法只关注一些预先定义的滑动特征和自定义重叠特征，删除大部分loan-to-value（LTV）预计算工作，节省大量时间和资源。
自动模型优化。传统的机器学习（ML）方法严重依赖于人机学习专家来优化模型。Analytics Zoo提供了更多选项来找到一个最佳的稳健的执行配置。
由于Analytic Zoo作为Intel Xeon处理器上的标准Spark程序运行，因此部署或操作成本为零。
高层流水线API支持，如DataFrames、ML管道、autograd、迁移学习、KERS/KERAS2等。

考虑到MasterCard已经为类似的模型运行了几十年的传统机器学习，并且在Spark ML生态系统（如Spark MLlib）上花费了资源，业务利益相关者希望对这两种方法进行基准测试，并确定其差异。因此，在Spark机器学习和Analytics Zoo的BigDL模型进行了基准测试。

选择数据集：

数据来自过去三年中从特定渠道收集的数据集。

不同的合格消费者：675,000
用于基准的目标商家（优惠或广告系列）：2000
已知交易：14亿（原始数据53 GB）消费时间：12 - 24个月作为训练和1 - 2个月作为验证

生产环境Hadoop集群：

9个节点集群（3个主机主节点（HMN）节点，6个Hortonworks数据平台（HDP）节点），每个节点放在一个物理盒中
24个超级内核，384 GB内存，21 TB磁盘
Hadoop发行版本：Cloudera Distributed Hadoop（CDH）5.12.1
Spark版本：2.2
Java *平台，标准版开发工具包（JDK *）1.8

基准库：

Analytics Zoo- bigdl_0.6.0-spark_2.2.0
Spark MLlib 2.2.0

对于传统的机器学习方法，选择Spark MLlib方法的交替最小二乘（ALS）模型⁶。

对于深度学习方法，基于最新的研究和行业实践，选择了神经协同过滤（NCF）和宽深（WAD）模型作为推荐的两个候选模型。来自Analytics Zoo的Keras风格API也被用于用python和scala构建深度学习模型。

图1.将深度学习模型与ALS模型进行比较

深度学习模型阐述

神经协同过滤（NCF）模型

Xiangnan He⁷首先提出的简单通用的NCF模型，旨在作为开发推荐服务深度学习方法的指导，以捕捉用户和物品之间的非线性关系。由于存在大量未观察到的实例，NCF采用负抽样来减小训练数据量，显著提高了学习效率。传统的矩阵分解可以看作是NCF的一个特例。使用Analytics Zoo，用户可以轻松构建NCF模型，如下图所示。

图2.神经协同过滤（NCF）模型的示例

宽深（WAD）模型

2016年，Heng Tze Cheng⁸为Google Play商店提出了一个应用推荐系统，该系统采用了宽深（wad）模式。宽分量是一个单层感知器，它是一个广义线性模型。深部分量是类似于NCF的多层感知器。结合这两种学习技术，推荐系统可以捕获记忆和泛化。在这种情况下，Merchant ID和其他特性用于生成宽模型的交叉列。

图3.宽深模型图

WAD模型使用了SparseTensor，以及为稀疏数据计算明确设计的一些的层，例如SparseLinear, SparseJoinTable等。Analytics Zoo支持DataFrame和弹性分布式数据集（RDD）两种接口，用于数据准备和训练，为不同场景提供灵活性，允许Spark 1.5兼容到最新版本。

模型评估

利用Spark MLlib ALS的评价工具，NCF和WAD实现的推荐器用下列指标进行测量。

ROC曲线下面积（ROC AUG）
精确度与召回率曲线下面积（PR AUC）
精准度与召回率 ( https://en.wikipedia.org/wiki/Precision_and_recall )
每位客户排名前20位的精准度

为了与传统的矩阵分解算法相比，在SARS2.2.0上的ALS训练采用了相同的数据和优化参数。相比之下，深度学习模型比ALS模型有显著的改进，如下表所示。

	NCF 模型	WAD模型
对比ALS召回率改进	29%	26%
对比ALS精准度提升	18%	21%
对比ALS前20个精准度增长	14%	16%

模型服务

服务方式

通过使用Plain Old Java Object（POJO），本地Java API或Scala / Python模型加载API，Analytic Zoo模型可以无缝集成到Web服务（如Spark Streaming，Kafka 等）中。

MasterCard使用数据流水线框架Apache NiFi⁹构建企业数据流水线平台。它开发了相关的定制处理器，通过利用Analytic Zoo的服务API，将深度学习和模型服务流程嵌入到现有的企业数据流水线中。

通过将模型导出到评分/预测/推荐服务和集成点来构建模型服务功能。
在业务数据流水线中集成服务模型。例如，将它们嵌入到离线的Spark作业，流式处理的Spark Streaming作业，或与通过Kafka消息系统的实时“对话”等等。

摘要

本文介绍了我们使用Analytic Zoo深度学习建立基于消费者交易历史的推荐AI服务的经验，为满足企业的深度学习需求提供了一个很好的解决方案。开发并评估了两种深度学习模型（NCF，WAD）。与传统的机器学习算法（如LR或ALS）相比，深度学习模型可以显着提高推荐的质量并简化模型训练程序。作为端到端的行业用例，我们展示了如何利用Analytic Zoo的深度学习来构建一个出色的推荐系统，以帮助加强MasterCard的营销和个性化能力的重要组成部分。

参考

Analytics Zoo
BigDL
Carlos A Gomez-Uribe and Neil Hunt. 2016. Netflix推荐系统：算法、商业价值和创新。管理信息系统的ACM事务(TMIS) 6, 4 (2016), 13.
James Davidson, Benjamin Liebald, Junning Liu, Palash Nandy, Taylor Van Vleet, Ullas Gargi, Sujoy Gupta, Yu He, Mike Lambert, Blake Livingston, and Dasarathi Sampath. 2010. The YouTube Video Recommendation System. 第四届ACM推荐系统会议录第29页至第29页(RecSys ‘10).
Shuai Zhang, Lina Yao, and Aixin Sun. Deep learning-based Recommender System: A Survey and New Perspectives. arXiv preprint arXiv:1707.07435, 2017.
Robert M. Bell and Yehuda Koren. Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights
Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua. 2017. Neural Collaborative Filtering. In Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 173–182.
Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, et al. 2016. Wide and Deep Learning for Recommender Systems. In Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. ACM, 7–10.
Apache NiFi

Analytics Zoo

Analytics Zoo是一个统一的大数据分析+AI平台，它无缝地将Spark、TensorFlow、Keras和BigDL程序集成到一个整合的流水线中，可以透明地扩展到大型Apache Hadoop/Spark集群，用于分布式训练或预测，方便用户构建深度学习端到端的应用。通过该专栏希望和大家一起探讨AI在实际生活中各个领域的创新。

工程深度学习推荐系统机器学习

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

协同过滤技术

协同过滤（英语：Collaborative Filtering），简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比（rating）或者群体过滤（social filtering）。其后成为电子商务当中很重要的一环，即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”，也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外，近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据，也许不是百分之百完全准确，但由于加入了强弱的评比让这个概念的应用更为广泛，除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

学习曲线技术

在机器学习领域，学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

来源：Wikipedia

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征，使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用，实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事，应用机器学习其实基本上是在做特征工程。”

来源：Wikipedia

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

ROC曲线下面积技术

在比较不同的分类模型时，可以将每个模型的ROC曲线都画出来，比较曲线下面积做为模型优劣的指标。若随机抽取一个阳性样本和一个阴性样本，分类器正确判断阳性样本的值高于阴性样本之机率=AUC。简单说：AUC是一种会考虑所有可能分类阈值的评估指标，值越大的分类器，正确率越高。

来源：Tom Fawcett, An introduction to ROC analysis. Pattern Recognition Letters. 2006.维基百科

广义线性模型技术

在统计学上，广义线性模型 (Generalized linear model) 是一种应用灵活的线性回归模型，简称GLM。该模型允许因变量的偏差分布有除了正态分布之外的其它分布。此模型假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由一链接函数(link function)建立起可资解释其相关性的函数。

来源：维基百科

特征选择技术

在机器学习和统计学中，特征选择（英语：feature selection）也被称为变量选择、属性选择或变量子集选择。它是指：为了构建模型而选择相关特征（即属性、指标）子集的过程。

来源：维基百科

交叉验证技术

交叉验证，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段，以便减少像过拟合的问题，得到该模型将如何衍生到一个独立的数据集的提示。

来源：维基百科

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络，是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法，常用的有感知机学习、最小二乘法和梯度下降法。

来源：维基百科

Apache Hadoop技术

Apache Hadoop是一套用于在大型集群上（由通用硬件构建）运行应用程序的框架。它实现了Map/Reduce编程范型，计算任务会被分割成小块（多次）运行在不同的节点上。除此之外，它还提供了一款分布式文件系统（HDFS），数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。

矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算，这些运算可以在分解的矩阵上执行，而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

来源：矩阵分解