其中表示Hadamard的结果。我们现在可以将我们的目标重写为公式 1 中的最小化D。同时对于每个模态m也最小化
。我们注意到方程的一个平凡的解。1 是选择一个阈值 0≤τ≤T,然后从 Xm 中最具代表性的顶级 τ 的高亮分数为 1,对所有其他帧的高亮分数为 0。然而,选择 τ 并不简单,在实践中需要从数据中学习。因此,我们训练了一个基于自动编码器的深度神经网络来学习广泛数据的高亮分数。我们还允许高亮分数在[0,1]中是连续的,以保持我们的网络的可微性。此外,使高亮分数连续也有助于我们理解每一帧的相对代表性,这是现代高亮检测系统[53,42]的一个内置组件。
3.3. 网络架构
的 Hadamard 积来产生加权潜在特征
3.4. 训练损失函数
,我们构建我们的损失函数 L来训练我们的网络
4. 实施和测试
4.1. 实施
我们使用M = 2的模式、姿态和人脸,这是我们在所有数据集中测试我们方法最容易观察到的两种模式。其他模式,如手势和眼球运动,要么很少可见,要么有噪声检测。我们根据CMU泛视模型[21,37]建立姿态图,并根据Geitgey[12]的面部地标模型建立面部地标图。
为了给每个模态构建图,我们考虑了每一帧中最多P = 20的人,并考虑了结合过去和未来的时间边到30f的时间相邻帧,f是处理视频的帧率。当可用时,我们在过去和未来使用相同数量的帧来进行时间邻接。我们已经观察到了在2到5帧率的准确性和内存需求方面的有效性能,在我们的实验中使用帧率f=5。
我们使用Adam优化器[27]训练200轮,批处理尺寸大小为2,初始学习率为10-3,动量为0.9,权重衰减为10^-4。在每轮训练之后,我们的学习率都会降低0.999倍。在英伟达GeForce GTX 1080Ti GPU上大约需要40分钟,总训练时间约为4.6个GPU天数。
4.2. 测试
5. 实验
5.1. 数据集
DSH数据集[47]由YouTube上横跨六个特定领域类别的视频组成:狗的表演、体操、跑酷、滑冰、滑雪和冲浪。每个域中大约有 100个视频,总时长约为 1,430 分钟,大约有 600个视频。PHD2数据集[11]的测试集由总共约10万个YouTube视频组成,总计约55800分钟,由850名用户根据其偏好标注的高光片段组成。更小一些的TVSum数据集[46]有50个YouTube视频,总计约210分钟,横跨10个领域:养蜂(BK)、自行车技巧(BT)、狗展(DS)、闪耀(FM)、梳理动物(GA)、制作三明治(MS)、游行(PR)、跑酷(PK)、车辆轮胎(VT)和车辆松开(VU)。SumMe数据集[15]只有25个个人视频,总计约66分钟。
5.2. 评估指标
5.3. 基线方法
在DSH数据集上,我们与Sun等人的潜在基于SVM的高亮排序方法(LSVM) [47]、使用具有完全连接层学习的C3D特征进行高亮排序的Video2GIF方法[17]、Yang等人基于无监督鲁棒循环自动编码器的方法(RRAE) [57]和Xiong等人的方法(越少越多)[53]进行了比较。Xiong等人的方法通过使用视频的持续时间作为弱监督标签来学习对高光进行排序,并认为较短的视频更有可能被编辑,从而更容易曝光。
在数据集PHD2上,我们再次与方法Video2GIF [17]进行比较,使用GoogLeNet的完全卷积序列网络(FCSN)来学习基于图像的特征来高亮检测[44],以及自适应FCSN方法(ADFCSN)[42],它还包括一个历史编码器来适应用户的历史重点偏好来检测个性化的亮点。我们还依据[42]使用一个完全随机的高亮检测器作为最低基线方法。
在TVSum数据集上,我们再次与基于持续时间的高光检测方法(LessisMore)[53]、Chu等人基于视觉相关的使用最大双峰发现(MBF)来获得与原始视频相关并发镜头的方法[7]、Potapov等人基于内核在语义一致的片段上训练SVM的视频总结方法(KVS)[41]、Panda等人的使用共识正则化器来检测满足稀疏性、多样性和代表性的突出显示片段的协作视频总结方法(CVS) [40] 以及马哈塞尼等人的使用具有对抗性损失的LSTM(Adv-LSTM)无监督视频总结方法[36]进行比较。
在SumMe数据集上,我们再次比较了Gygli等人[15] 基于兴趣度总结的(Int.)自适应FCSN(Ad-FCSN)[42]、Gygli等人[16]基于子模块化的总结方法(Sub.)、Zhang等人[63]采用行列式点过程(DPP-LSTM)的LSTM网络、基于 GAN 和额外监督 (GAN-S)的方法[35],Zhou 等人基于深度强化学习的具有额外监督的方法(DRL-S) [67]以及使用编码器-解码器体系结构从序列数据中检测具有高度相关性片段的检测方法(S2N)[52]。
5.4. 结果
5.5. 消融研究
我们观察到与使用这两种模式相比,仅使用姿势而不使用人脸的方法在数据集中平均 mAP 的绝对值下降了 5%-7%,平均 F 得分下降了 3%-8%。然而,我们观察到只使用面孔而不使用姿势的方法,造成更严重的下降,平均mAP的绝对值下降4%-13%,平均F分数下降2%-13%。这是因为姿势在以人为中心的视频中更为丰富,而且比面部地标更容易被检测到。例如,即使人类被部分遮挡,在黑暗环境中或被不清晰聚焦时,姿势也可以被检测到,而检测到面部标志需要面部有良好的光线和聚焦。因此,不检测姿势造成大量的摘录损失。这一趋势只在PHD2中发生逆转,因为在那里面孔比姿势更容易被检测到。
5.6. 突出显示分数阈值的效果
6. 结论、局限性及未来的工作
