作为世界最顶尖的机器学习和神经网络学术会议,NIPS(神经信息处理系统进展大会)在过去的两年敞开大门,邀请工业界的巨头们搭设展台,展示他们在人工智能上的研究和商业成果。今年是阿里巴巴第二次参加 NIPS。相比去年,今年的阿里巴巴显得底气十足。
过去一年,阿里巴巴在人工智能商业化道路上硕果累累。7 月,阿里巴巴发布了首款智能语音音箱天猫精灵,在双 11 当天售出了 100 万台;10 月,阿里巴巴在杭州云栖大会上推出了 AliGenie 语音开放平台,以及 AR 开放平台;11 月,刚刚从乌镇参加完世界互联网大会的马云,在上海的申通地铁上用语音交互的方式购买了一张地铁票,向其构想的城市大脑近了一步。
在学术研究上,阿里巴巴也交了份不错的答题卷。ACM MM2020 会议主办权落户阿里巴巴,使其成为首个获得主办权的中国企业。城市大脑成为首批入选国家新一代人工智能开放创新平台的人工智能技术服务。在此前的 IJCAI 会议上,阿里巴巴有 11 篇论文入选,CVPR 会议入选 4 篇、KDD 会议入选 5 篇,ACM MM 会议入选 3 篇。此次 NIPS 大会上,阿里巴巴有两篇论文入选 Workshop 并进行 Oral 和 Poster 形式报告。
阿里巴巴在人工智能上的光鲜,归功于其底层技术。在乌镇、在上海,你看不到的研究人员和科学家们,来到了洛杉矶长滩的 NIPS 大会上,展示了这些技术孵化的全过程。阿里巴巴 iDST 院长金榕、阿里巴巴人工智能实验室的高级专家张硕、阿里巴巴搜索事业部的研究员李欣博士分别开设了迷你研讨会,介绍阿里巴巴在人工智能领域的创新。
iDST:多媒体信息检索和模型压缩
如今的阿里巴巴不再只是定位于一家电子商务公司,在除了包括淘宝、天猫等电子商务业务以外,阿里巴巴更着眼于生态系统的建设,囊括数字营销(阿里妈妈)、视频(优酷)、金融科技(蚂蚁金服)、社交媒体(微博)、地图(高德)、物流(菜鸟)等不同的业务。
这就需要阿里巴巴 iDST(数据科学与技术研究院)的人工智能技术赋能。在 NIPS 阿里巴巴的展区,iDST 院长金榕展示了今年在计算机视觉和深度学习模型优化方面的技术成果。
阿里巴巴 iDST 院长金榕
在计算机视觉领域,金榕提到了 2014 年上线移动端淘宝的拍立淘。简单而言就是通过搜索图片找到相应的产品。拍立淘刚上线时还无人问津,但现在已经成为移动端淘宝最重要的商品搜索功能之一,拥有超过千万级日活跃用户,几十亿商品图片的离线索引构和在线查询。
拍立淘主要通过深度学习对商品进行排序。模型通过输入用户记录的三元组数据(查询图片、点击图片和未点击图片)来训练模型的排序损失函数,按照从高到底的顺序列出最有可能匹配的商品。
拍立淘的技术也被应用到跨媒介的信息检索,比如通过文字来搜索相应的图片。下图中,你可以输入不同的文字描述,从裙子到红色 V 领短裙,输出的结果也更加精准。
另一个展示成果是模型压缩。深度学习模型的层级数动辄成百上千,拥有几十亿个参数,这对存储和预测时间都带来困难。
iDST 研究员采用了低比特量化的方法,所有的权值不用浮点数表示,而是用+1,0,-1 表示。原来一个 32bit 权值现在只需要三个 bit 就可以表示,可以极大地减小模型尺寸。
同时,为了解决低比特量化所带来的不稳定性,iDST 引入了交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。这是一种最优化算法,主要针对带约束的凸优化问题。此外为了更有效地运行 ADMM,iDST 开发了额外梯度下架方法(extra gradient descent method)来解决优化问题。
试验结果显示,三比特(-1、0、1)方法相比全精确度几乎没有明显的损失。
人工智能实验室:AliGenie 语音助手和 AR 开放平台
在 2016 年低调成立的阿里巴巴人工智能实验室,目前已经拥有了 200 多位科学家和研究员。相比于 iDST 偏向深度学习领域的研发,人工智能实验室的定位是研究消费级产品。
据人工智能实验室的高级专家张硕介绍,人工智能实验室的主要任务是打造下一代的人机交互平台,并且在三个方面带来人性化的机器:感知和推理能力(语音识别、语言理解和计算机视觉);知识数据库(包括知识图谱和用户配置文件);按需行为(服务和流动性)。
张硕在介绍阿里巴巴人工智能实验室
随后,张硕介绍了实验室在今年推出的三个主要产品:智能音箱、语音开放平台 AliGenie、和 AR 开放平台。
天猫精灵 X1 是阿里巴巴推出的首款智能音箱。搭载了 AliGenie 人机交互系统,类似于亚马逊的 Alexa。除了继承了大部分智能音箱的特点外,天猫精灵 X1 采用了声纹识别技术,能够直接识别用户声音,直接进入用户账号实现语音购物。
天猫精灵 X1 智能音箱
天猫精灵 X1 背后的交互系统 AliGenie 也在云栖大会上实现了升级,成为了可以让普通智能硬件搭载的语音开放平台。目前,AliGenie 平台面向硬件品牌商和方案商提供语音交互技术、自然语言处理能力、云服务系统、开发工具包和软硬件及量化标准。针对个人和行业应用开发者,AliGenie 平台提供包括语音唤醒、语音识别、声纹识别、语意理解、语音合成的开发者套件。
同时与 AliGenie 推出的 AR 开放平台意味着阿里巴巴发力机器视觉。AR 开放平台将面向开发者开放 2D 识别追踪、3D 识别追踪、内容制作平台、高质量渲染引擎等核心能力。开发者通过接入套件,即可快速创建 AR 内容,无需担心开发算法,使用传感器,GPU 优化等难题。
搜索事业部:用户个性化搜索引擎
从电商起步的阿里巴巴,重视在商品搜索的提升。来自阿里巴巴搜索事业部的研究员李欣博士在 NIPS 大会第三天带来了有关深度学习优化商品搜索的演讲。
李欣博士在介绍深度学习优化商品搜索
阿里巴巴的商品搜索技术从 2013 至今经历过五次重大的迭代。如今,阿里巴巴的搜索平台都依赖于深度学习技术。
商品搜索的基础架构主要分三层:最底层是数据平台,实时处理用户需求和用户标签,同时做线下预测和线下模型训练;中间层主要负责关键词索引和个性化索引;最上层是做搜索平台、个性化引擎和图像引擎。
目前,阿里巴巴的商品搜索团队的发展方向主要有三个:构建更大规模的排序系统的机器学习平台;提升排序系统对用户行为的快速反应能力;提高算法的效率。
搜索团队使用了一种叫做深度用户个性化网络(Deep User Perception Network,DUPN),通过输入用户信息和商品信息,实现多个不同的任务,比如预测用户的商品点击率、预测用户对商品的价格偏好、以及最终的商品排序。
「这个网络最大的特点的是基于环境变化的注意力机制。个性化搜索会基于当前时段的热门商品和用户兴趣而改变,比如在双 11 的时候,超过 100 万的用户购买了阿里巴巴最新推出的智能语音音箱天猫精灵 X1,商品价格和用户兴趣都因为双 11 这一天而发生改变。」李欣博士表示。
正是基于这一点,DUPN 增加了 Attention 用于线上模型捕捉环境变化,然后调整参数。
在表示商品特征时,DUPN 采用了多模态的表征,比如商品 ID、文字描述、图片描述、统计描述。从结果看,基于多模态的模型能够比单一模态的模型在学习等级信息检索(LETOR),用户点击率(CTR)和价格预测上取得更好的准确率。
相比于 DNN,CNN 和 LSTM,训练后的 DUPN 有着更好的效果,而 end-to-end DUPN 则基于 pre-DUPN 在价格预测上有着进一步的提升。
为了提升模型的效率。阿里巴巴团队采用了 Cascade Learning,将数据分成不同层级。如下图所示,一开始的数据只采用商品的几个特征,之后会逐步增加特征。
而在算法推理加速上,阿里巴巴团队加入了 Binary-Value Network,能够得到更小的模型、更快的速度,代价是损害一些准确率。从结果上看,相比于原始矩阵,采用 BNN 之后的信息吞吐量可以提升至三倍。
在购物搜索这个领域,李欣博士指出还存在很多挑战。比如:如何覆盖新用户和新物品;多模态交互则是一个有趣的话题,可以利用商品图片的特征来提升排序算法的质量;同时,阿里巴巴自己研发的虚拟语音机器人阿里小蜜也可以和搜索系统相结合,用基于语音或者文字的交互来推荐商品。
近两年,阿里巴巴一直在加大技术研究,以实现在基础科学和颠覆性技术上取得进展。在今年杭州云栖大会上,阿里巴巴成立全球性技术研究机构「达摩院」,未来三年在技术上总投入将超过 1000 亿人民币,并公布涵盖机器智能、智联网、金融科技等多个产业领域的技术研究内容。
阿里巴巴表示,明年乃至于之后的每年,阿里巴巴都将会是 NIPS 的常客,并在这个舞台展示其人工智能的创新。