随着京东电商业务的不断发展,线上在售商品数量早已远远超出10亿量级,并且每天都存在数百万的商品上新,特别是在618和双11前夕更是高达千万级。因为第三方POP商品上新没有人工审核环节,商会有意、无意地将商品发布到错误类目,更有甚者,部分商家采用批量上新和批量搬家工具,导致大规模错挂商品的出现,不断冲击着商品生态防线,影响用户购物体验,并带来了诸如食品、药品和成人用品等相关的一系列监管风险。
--类目魔方,让商品错挂治理更高效--
如何在数十亿的商品池中发现错挂商品,过去业务人员通常采用人工排查的方法,不仅需要投入大量的人力、物力,而且治理效率极为低下。
面对海量级的商品数据和高达上千个类目的商品层级分类体系,如何才能有效判别商品类目挂靠的正确与否,实现全方位和高效的监控。类目魔方应运而生,它采用深度学习文本分类模型,将类目转化为分类目标,以商品标题作为输入,通过分类模型,得到商品预测类目,辅之以商品原始的类目挂靠信息进行错挂判别,支持每天全量、增量扫描商城主要类目全部上柜在售商品,按不同的错挂等级统计类目和店铺的错挂情况,标签化明细,并对商家提供挂靠信息反馈。
系统今年5月上线以来,已在清源计划、滤镜商品清理和乱发成人用品等多个商品基础信息治理和监管项目中得到应用,辅助业务部门累计清理错挂商品SPU高达650万+,涉及6900万+SKU,处罚5000+商家,使商品错挂治理告别人工进入智能阶段,治理效率有了质的飞跃。图1为京东商城技术架构(TIG)-类目魔方系统。
图1 类目魔方系统
--策略创新,多算法融合并用--
在商品类目预测这个问题上,很多电商公司在过去的10年里一直在不断探索和改进,公开资料显示,电商巨头eBay先后采用了传统的规则和统计等模型、如KNN、KNN+SLM和DNN几种方法,准确率从最初的50%一步步提高到了90%+。同时,国内友商在这个问题上,也有采用类似深度学习模型解决商品类目预测问题的尝试。
根据一段商品标题文字预测商品类目,难点在于商品分布极不平衡、分类层级复杂且商品类目繁多、短文本建模以及产品词、品牌词堆砌、重复等。为了克服以上难题,我们制定了如下模型策略:在文本表达方面,将训练数据、测试数据合并一起训练并构建词向量,得到低维、稠密的潜在语义空间表示;在商品类目标签数据不平衡方面,尝试升降采样、数据增强等策略;在处理商品分类层级混杂问题时,首先根据训练集数据标签抽取出类目树,按照类目层级构建N份样本数据集,用多种分类算法各自训练出对应不同层级的分类模型并结合现有类目体系进行路径搜索,图2是基于树搜索的商品标题分类深度层次模型。
图2 基于树搜索的深度分类模型
每个模型在召回率和准确率方面都各自的优缺点,为了保证模型结果的准确率,在允许牺牲小部分召回的情况下,我们采用了多模型融合策略。最终的实验结果表明,相比于单纯采用FastText模型,多层级模型融合得到的F1评分值可以从0.82提升至0.84,提升了近2个百分点,图3为多模型融合的训练和预测计算流程。
图3 多模型融合的训练和预测计算流程
基于以上应用实践,京东商城技术架构-知识计算部参加了信息检索顶级会议SIGIR的2018全球电商商品分类竞赛,通过对算法和方案的改进,获得了top3的名次。相关论文(Multi-level Deep Learning based E-commerce Product Categorization),被SIGIR 2018同步接受并在网上公示。
--追求卓越,类目魔方一直在前进--
在实际应用中,我们也发现了基于算法的模型暴露出的种种不足,主要为:
1. 模型训练需要收集大量标注样本;
2. 样本收集不是一件轻松事,样本的覆盖范围有限;
3. 每隔一段时间类目都有变化,少则几个,多则几十上百个。每次类目的变化,都需要重新采集样本,训练模型,时间周期较长,成本相对高昂;
4. 模型优化较为复杂,优化特定的bad case,可能会在其他分类器上带来连锁反应,常常是优化了老问题又产生了新问题。
如何克服上述种种问题,打造一套能够适应类目频繁变化,更加灵活高效,准确率更高的方法,不仅是学术界和工业界不断研究的课题,也是我们不断探索的方向。近期,我们正在以知识计算平台的商品知识图谱为依托,着力进行类目魔方底层的知识库建设,挖掘类目、产品词、品牌词等关系,尝试以标准化的知识库作为推理媒介,并尝试对抗模型(Generative Adversarial Networks)等前沿的深度学习方法,验证并开发一套全新的分类策略,不断追求“更灵活、更精准、更高效“。
了解更多详情,请联系:京东商城技术架构部-知识计算小组,tig_kc@jd.com
京东商城技术架构部在北京、南京、硅谷均设有技术团队,长期寻觅一流人才,你的加入,将会给我们带来更多精彩。简历投递:sunshanshan3@jd.com