2019/10/22 14:08

思原创

AI碰撞短视频，从推荐到直播，快手探索了这些ML新思路

机器之心原创

除了各种特效，想不到快手短视频从推荐、直播视频分发、视频码率调整等方面都在探索基于 ML 的新方法，他们希望用更强大与智能的深度模型优化传统的视频处理流。这三项研究都已被 ACM MM 2019 所接收。本文将带你一览这三项前沿探索。

在打开手机看短视频的过程中，你知道中间会有多少机器学习模型在做优化吗？点开 APP 后我们想要看到最感兴趣的视频，观看的视频的时候我们想要最流畅与清晰的体验，参与直播中我们希望有更流畅且不卡顿的视频体验。

所有这些，都可以借助机器学习方法做进一步优化。通过大规模数据，这些模型能学习到用户对什么样的短视频感兴趣，感兴趣的理由又是什么；学习到如何更高效地调用 CDN 提供商分发视频，从而提供更流畅的直播体验；学习到规划更贴近人类主观评价较好的视频流，使得在线播放更加清晰与流畅。

这些方法或许不同于 BERT 或 BigGAN 那样声名远扬，但重要的是，这些方法能创造很多实际价值，它们能从各方面降低成本，提高观看体验。

本文将介绍快手等研究者在这一方向的探索，他们用深度学习等更加高效的方法重构经典媒体任务，并极大地提升了这些任务的性能与效率。

快手在 ACM MM

ACM MM 是计算机图形学与多媒体领域的顶会，其今年于当地时间 10 月 21 日在法国开幕。根据官网统计，今年 ACM MM 在多媒体体验、系统和融合等六个子领域共吸引里全球范围内 936 篇论文投递，共接收了 248 篇论文，接收率约为 26.5%。

快手也有三项研究被接收为大会论文，它们从上述视频推荐、内容分发优化、视频码率优化这三方面探索提升快手视频体验的新方案。

论文：Explainable Interaction-driven User Modeling over Knowledge Graph for Sequential Recommendation
论文地址：https://dl.acm.org/citation.cfm?id=3350893

论文：Livesmart: a QoS-Guaranteed Cost-Minimum Framework of Viewer Scheduling for Crowdsourced Live Streaming
论文地址：https://dl.acm.org/citation.cfm?id=3351013

论文：Comyco: Quality-aware Adaptive Video Streaming via Imitation Learning
论文地址：https://dl.acm.org/citation.cfm?id=3351014

EIUM：讲究根源的快手短视频推荐

短视频推荐是一种序列推荐系统，它致力于分析用户的历史行为序列，并满足用户的当前需求。因为我们的兴趣会随着时间的变化而变化，因此序列推荐模型需要捕捉这种动态变化的过程，并给出合理的解释，这样推荐的视频才是我们希望看到的。

注意上面有两个重点，即用户的动态兴趣迁移和可解释的推荐。动态兴趣迁移很好理解，一般 Transformer 序列模型都能捕捉这种变化过程。但可解释性又是什么，为什么推荐视频还要带有可解释性属性？首先，如果我们知道用户选择视频的原因，那么根据额外的知识图谱可以推荐更精准的视频；其次，可解释性也能令用户明白为什么系统推荐某个视频，这种推荐更可信。

用户与短视频间的交互通常可以归结为很多原因，例如下图所示用户喜欢视频 m_5，那么有可能是由于导演、演员或者续集的原因。其中从用户到 m_5 的每一条路径都表示一种高级语义信息，例如最右边表示之前关注过视频 m_3，而 m_5 是它的续集，因此用户也会对它感兴趣。如果每一条路径都有一个分数，那么模型就能知道用户选择某个视频最大的原因是什么。

用户、视频交互示例，它展示了在推荐系统中，用户与视频间语义路径的重要性。

基于知识图谱的可解释性推荐系统

前面已经展示了可解释性的重要，虽然目前基于 self-attention 的方法取得了较高的准确率，但疏于考虑推荐系统的可解释性。为了解决上述挑战，快手的研究者提出了一种交互驱动的基于知识图谱的可解释性用户建模和序列推荐方法（EIUM），在序列推荐系统中引入语义路径来捕捉用户动态偏好，并提供准确的可解释性推荐。

EIUM 算法可以捕捉交互级别的用户动态兴趣，这是一种包含丰富语义信息的高层表示。算法采用联合学习的方式，通过引入文本、图像特征及知识图谱中的结构特征，从而构建一种多模态融合的模型。当然这些多模态特征都需要满足知识图谱中实体与关系的结构化信息约束，它们都统一在知识图谱这个框架之下。

如下所示为 EIUM 算法的结构图，它主要由多模态融合模块、交互表征模块、序列交互建模模块组成。

多模态融合模块：它会结合知识图谱的结构化信息，并针对用户和条目实现更好的高层级表征学习，从而通过联合学习构建更好的推荐系统。
交互表征模块：它会学习「用户-条目」交互的语义表征，这主要是通过编码一组对应用户和条目间的语义路径而实现的。
序列交互建模：它会序列地编码每一个「用户-条目」交互，并期待捕捉到用户兴趣的动态变化。

EIUM 到底怎样做推荐

如上算法结构图所示，EIUM 首先需要经过一个端到端的训练过程。它会将用户历史观看的短视频序列作为训练集，并分别计算用户与历史视频间的语义路径。这样可以得到用户与相应视频的交互表征 p_emb，相当于编码了用户选择视频的原因。

因为不同时期有不同的短视频选择原因，所以编码的交互表征 p_emb 需要建立一种动态的交互行为，这交给自注意力模块这种序列模型就行。此外，这种用户与视频的交互可以视为一种用户偏好，表明了它可能的行为是什么。根据偏好预测出的视频可以与标注的短视频进行对比，从而进一步指导模型更新权重。

等模型完成训练，我们就能看看它如何做推荐了。首先快手会有一个图网络，其包括用户、视频、视频的各类属性，以及用户的各类属性等。通过对用户的短视频观看序列建模，模型可以建立用户的视频偏好表征，例如上图的 B_emb。借助视频偏好表征，模型能匹配候选的短视频，并给出推荐选项。

此外值得注意的是，相比一般推荐系统，EIUM 能可视化注意力分数，确定用户历史行为相关性与语义路径相关性，从而在展示过程中向用户提供「为什么推荐该视频」的解释。

以上是快手和中科院自动化所徐常胜研究员团队的合作成果。

更清晰更流畅的快手直播

Comyco：基于质量感知的码率自适应策略

清晰与流畅的视频体验是快手音视频团队追求的目标。在实际系统中，视频内容的差异性，用户网络的多样性等都给视频体验的优化带来巨大的挑战。多码率策略是解决该问题的一种常用手段，即给不同网络的用户分发不同质量版本的内容，这类方案称为多码率自适应，即 ABR。

传统的 ABR 一般是基于码率选择的，即通过实时网速，考虑缓存、用户设备等特性，为用户选择最佳的视频码率档位。然而，视频的质量与视频码率不是简单的线性关系，他们之间存在复杂的 RD 曲线，且不同视频其 RD 特性也各不一样。单纯的依赖码率调整，极大可能造成浪费或造成不必要的播放卡顿。

基于这些考虑，快手与清华大学孙立峰团队共同提出了 Comyco，充分考虑了网络的特性、视频质量与码率的特性，实现质量感知的 ABR。同时，Comyco 采用了模仿学习来优化模型的架构，大大提升了效率。

实验证明，Comyco 所需采集的样本数量较原来方案减少 1700 倍，同时训练时间减少了 16 倍。此外，Comyco 明显优于之前提出的方法，平均 QoE 提高了 7.5%-16.79%。尤其是在相同的缓冲时间下，Comyco 的平均视频质量较此前经典的 ABR 策略 Pensive 提升了 7.37%。

如下所示为 Comyco 的基本系统工作流，其主要由待训练的神经网络、ABR 虚拟播放器、即时结算器，以及经验回放池（replay buffer）组成。研究者在第四章中具体介绍了 Comyco 的各个模块与训练过程，读者可查阅原论文了解更多细节。

与之前工作不同的是，Comyco 的目标是选择具有更高感知质量的视频块，而非选择更高视频比特率块。此外，在训练过程中，Comyco 创新地通过模仿即时解算器给出的专家轨迹来训练策略，这不仅可以避免重复探索，而且可以更好地利用采集到的样本。

详细地说，Comyco 将及时求解当前探索到的状态下的最佳策略，并加入经验回放池中，在训练过程中边采样边优化神经网络。至此，Comyco 拥有了快速生成策略的能力。

Comyco 的基本系统工作流。

Comyco 的神经网络架构概览，它会利用门控循环单元将过去的网络特征、视频内容特征、以及视频回放特征联系起来，并预测下一个视频块的比特率。

Livesmart：智能 CDN 调度

在快手，主播会将视频流通过快手私有传输协议 KTP 传输至快手自建源站，CDN 厂商来快手源站回源获取视频流，并分发给终端用户，如下图所示。

快手分发框架

快手源站通过控制各 CDN 的流量比例，在质量和成本间取得最好的折衷。然而，快手体量庞大，需要同时使用多家 CDN，而各家 CDN 的质量、价格参差不齐，以及经常有一些不可预知的突发状况，因此，通过人工调度的方式，显然是无法接受的。

对于经典的 CDN 调度策略，它大大简化了 CDN 和用户的动态性，并不能适应各种场景。为了解决这个问题，快手与清华大学孙立峰团队共同提出了 Livesmart，能精确捕捉 CDN 与用户的动态变化，从而更合理地利用 CDN 资源，并大大降低成本。

研究者在真实的直播数据集上做了定量和定性的实验，结果表明 Livesmart 明显优于传统方法，它不仅能提供更流畅与稳定的视频流，同时还能大幅度降低成本。具体而言，Livesmart 显著地降低了 CDN 带宽成本（24.97%-63.45%），并提升了平均服务质量（5.79%-7.63%）。

Livesmart 的基本系统工作流。

整体而言，Livesmart 由三个模块组成，分别是刻画直播用户流量动态性的流量预测模块，刻画 QoS 动态性的 QoS 预测模块，以及决定下一个时刻各家 CDN 流量比例的策略模块。

流量预测模块：研究者首先提出了一种用户动态迁移模型来区分不可调度用户（也被称为留存用户）。其次，他们采用神经网络来预测新用户的产生。通过这种方法，模型可以做到对未来全网用户量的精准刻画。
QoS 预测模块：研究者采用神经网络对 CDN 的动态性进行建模，利用神经网络优秀的状态表征能力，模型可以准确预测出不同负载输入下，各家 CDN 未来的性能好坏。
策略模块：研究者使用基于采用模型预测控制的算法进行在线求解。

最后，这三项研究都在探索着多媒体领域的更广阔的可能性，虽然短视频处理只是一部分，但它确实代表着一种研究趋势。也许我们以后看快手或其它多媒体平台，它们背后都会有着更多的机器学习技术，我们也能有更完美的视听享受。

产业快手经典媒体任务

相关数据

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源，如线程、进程或数据流；也可以指硬件资源，如处理器、网络连接或扩展卡。进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态，允许多位用户有效地同时共享系统资源，或达到指定的服务质量。 see planning for more details

来源：维基百科

自注意力技术

自注意力（Self-attention），有时也称为内部注意力，它是一种涉及单序列不同位置的注意力机制，并能计算序列的表征。自注意力在多种任务中都有非常成功的应用，例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系，这种内部关系对于翻译以及序列任务的性能非常重要。

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

门控循环单元技术

门控循环单元（GRU）是循环神经网络（RNN）中的一种门控机制，与其他门控机制相似，其旨在解决标准RNN中的梯度消失／爆炸问题并同时保留序列的长期信息。GRU在许多诸如语音识别的序列任务上与LSTM同样出色，不过它的参数比LSTM少，仅包含一个重置门（reset gate）和一个更新门（update gate）。

来源：Understanding GRU networks, Medium

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

图网络技术

2018年6月，由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》，该研究提出了一个基于关系归纳偏置的 AI 概念：图网络（Graph Networks）。研究人员称，该方法推广并扩展了各种神经网络方法，并为操作结构化知识和生成结构化行为提供了新的思路。

来源：机器之心