2020/02/13 23:24

巡检「局部抄袭」，阿里服饰版权算法入选AAAI 2020

A品牌推出了一件连衣裙原创爆款，B品牌趁机推出了“同款”，B还很"机智"地修改了连衣裙的裙长、领型或袖型，以此规避知识产权纠纷，不过，这种做法已经行不通了。近日，由阿里安全和浙江大学合作研发的创新AI算法提出了一种面向服饰版权保护的属性感知细粒度相似度学习方法，从传统关注整体相似度细化到能够关注于局部区域的特定属性的相似度，从而进一步提升了甄别“局部抄袭”的准确率，为服饰版权保护提供更强大的技术支持。

也就是说，设计师做了一件原创设计，原来评判系统从整体对比原创者和抄袭者的图样，现在AI能迅速采集这件设计上的各个设计点，与抄袭者的设计图样比对，如果后者在多个点上与前者达到了某个相似度，系统可立刻判定抄袭成立，并知道哪些设计元素的相似度高。

解读上述算法的论文《Fine-Grained Fashion Similarity Learning by Attribute-Specific Embedding Network》（《面向服饰版权保护的属性感知的细粒度相似度学习》）被全球人工智能顶级会议AAAI2020收录，2 月 7 日至 12 日，AAAI 2020 在美国纽约召开。

更灵活的服饰版权保护度量方法

从视觉角度如何对原创设计进行保护是“服饰理解”面临的一个重要问题，也是长久以来的一个巨大挑战。

服饰图像通常伴随着严重的变形，在风格、纹理、背景上也存在巨大的差异。现有的服饰理解方法在in-shop clothes retrieval [1, 2]，cross-domain fashion retrieval [3, 4] 以及fashion compatibilityprediction [5, 6] 等任务上进行了广泛的研究。

这些方法倾向于考虑图像整体的特征，为各种服饰学习单一的特征空间。随着时尚产业的发展，服饰倾向于具有更加丰富的属性，单单从整体特征考虑已无法满足需求，并且，抄袭通常也不是整体的抄袭，可能仅模仿某种局部设计；再者，对服饰理解的进一步细化能够提高推荐系统的性能。

因此，浙江大学和阿里安全的研究者从服饰版权保护出发，基于专业定义的服饰属性，探索一种灵活有效的细粒度服饰相似度度量方法。

图1 全局嵌入空间（左）特定属性的嵌入空间（右）如图1所示，现有方法通常将两张图像映射到全局嵌入空间中度量相似性，而研究者提出的方法则根据不同的属性（比如领型设计、袖长）选择不同的嵌入空间，从而在相应的空间中计算在指定属性下服饰的相似性。比如，可以在领型设计空间度量两件服饰的领型设计是否相似，如果同为圆领，如何使得模型能够灵活地进行任务切换，根据不同的属性有不同的输出？

据上述算法的研究者之一、阿里安全图灵实验室高级算法专家华棠介绍，结合服饰属性具有“局部性”的固有特点，他们利用视觉注意力机制将图像从全局特征空间映射到不同的特征子空间中，在子空间中度量具体角度下的图像相似度。

这种方法具有两个优点，第一，不同属性映射到不同子空间中，在不同子空间中度量细粒度的相似关系；第二，模型能够端到端学习，不同相似性角度下的度量关系互相不影响，可以同时训练。

模型解析

研究者提出了一个 Attribute-Specific Embedding Network (ASEN) 模型来学习多个特定属性的嵌入空间。

ASEN 模型的整体结构模型由三部分组成：特征提取、属性感知的空间注意力（ASA）和感知的通道注意力（ACA）。

图2 ASEN架构图

考虑到特定属性的特征通常与图像的特定区域有关，只需要关注某些相关区域。因此，研究者设计了 ASA 模块，该模块在特定属性的引导下定位图像中与给定属性相关的服饰部位。

尽管属性感知的空间注意力能够自适应地聚焦于图像中的特定区域，但是相同区域仍可能与多个属性相关，例如，领型设计属性和领型颜色属性都与领型周围的区域相关联。因此，研究者在ASA的基础上进一步设计了ACA 模块，同样在属性的指导下捕捉与属性相关的特征元素。

特征提取模块通过卷积神经网络（convolutional neural network, CNN）提取图像特征，ASA和ACA处于旁路，顺序对CNN提取到的特征进行条件化映射。注意力模块以额外的属性输入为引导，融合条件和图像特征，使得最终的图像特征满足需要。

ASA 采用attention map的方式，通过融合图像特征和属性嵌入，产生注意力权重。首先属性经过编码，通过嵌入（Embed）和复制（Duplicate）操作被映射到公共度量空间中，图像特征同样经过一步变换（1x1 conv）映射到同样的空间中。属性嵌入和图像特征经过内积运算在不同的空间位置上产生不同的相似度比较值，对不同通道上的相似度比较结果进行聚合（1x1 conv）将得到一个attention map用来调整原图像特征在空间域上的分布。

虽然 ACA 模块能够关注到相关的图像部位，但是对于由服饰属性定义的high-level的服饰概念而言，同样的部位仍然可能和多种属性相关，比如属性领型设计和领型颜色都和衣领部位相关。出于这样的考虑，研究者采用属性感知的通道注意力模块进一步在通道维度上捕捉关键的图像特征。首先属性同样被嵌入到高维空间中，其次和图像特征连接输入到连续的两个非线性的全连接层，分别进行维度缩减和维度增加 [8]，产生的注意力权重对图像特征进行调整。

实验成果

研究者以在服饰场景下的细粒度相似度学习为目标，提出了ASEN网络和两种不同维度的注意力模块。ASEN能够同时学习多种特定属性的嵌入空间，因而能够在相应的空间中度量细粒度的服饰图像相似度，是一种简洁有效的端到端模型。大量的定量定性实验证实了模型的有效性和可解释性。

研究者在 FashionAI、DARN、DeepFashion数据集上进行了特定属性的服饰检索实验，在Zappos50k数据集上进行了三元组关联预测实验。

两种实验形式不同，但本质相同，即均要求相对于某种属性，相似服饰的距离近，不相似服饰的距离远，而属性特异的服饰检索实验对检索返回序列的要求更高。结果表明ASEN相对于不同的对比模型，在各种属性上均能够取得一致显著的性能提升。在属性特异的服饰检索实验中，对不同的query样本，设置不同的属性条件，检索出的结果计算mean AP。表1-3展示了三个数据集上每个属性下的性能和平均性能。在Zappos50k数据集，研究者采用 [7] 的测试方式，也取得了更高的性能。

表格1 FashionAI数据集检索性能

表格2 DARN数据集检索性能表格3 DeepFashion attribute prediction benchmark检索性能表格4 Zappos50k数据集Triplet Prediction

研究者还展示了一些定性实验结果，包括在FashionAI数据集上的检索结果，空间注意力机制可视化结果以及属性子空间可视化结果；在DeepFashion数据集还进行了in-shop clothes retrieval的reranking结果，显示了ASEN的潜在应用价值。

下图3展示了FashionAI数据集上的Top-8检索结果，对属性相关部位放大展示，可以看到V领服饰能够检索出V领服饰（第一行），无袖服饰能够检索出无袖服装（第二行），而除了目标属性之外，其他特征表现出明显的多样性，例如返回服饰款式、色调、种类、背景各不相同。图4展示了对ASA模块进行可

视化的结果模型能够定位属性所关联的部位，对于复杂的背景、模特姿势等变化具有较强的鲁棒性，最后一组图像展示了对于无法从图像中识别的属性的注意力结果。图3 FashionAI数据集检索结果图4 空间注意力模块可视化结果研究者还对FashionAI数据集上的八种属性子空间进行了可视化，相同颜色的点表示图像具有相同的属性值，比如同为圆领衣服，在特定属性的嵌入空间中，具有不同颜色的点可以很好地分离而具有相同颜色的点可以更加聚集。

换句话说，具有相同属性值的图像距离较近，而具有不同属性值的图像距离较远，这说明通过ASEN学习的特定属性嵌入空间对于单一属性具有良好的判别性。图5 特定属性空间的可视化结果华棠还介绍，为了通过细粒度的服饰相似度度量提升其检索性能，最后，他们将细粒度的服饰相似度模型应用到传统的in-shop clothes检索任务上来，。

首先，使用一般的检索模型产生初始的检索返回序列；接着利用ASEN模型在某种属性上的细粒度相似性对初始序列进行重排，图5展示了部分实验结果。对于第一个例子，研究者通过袖子长度属性对初步结果进行重新排序，短袖的图片排在了前面。很显然，在重排之后，检索的结果变得更合理。图6 Fashion Reranking论文链接：https://arxiv.org/abs/2002.02814

Github: https://github.com/maryeon/asen

参考文献

1. Liu, Z.; Luo, P.; Qiu, S.; Wang, X.; and Tang, X. 2016. Deepfashion: Powering robustclothes recognition and retrieval with rich annotations. In CVPR, 1096–1104.

2. Ak, K. E.; Lim, J. H.; Tham, J. Y.; and Kassim, A. A. 2018b. Efficient multi-attributesimilarity learning towards attribute-based fashion search. In WACV, 1671–1679.

3. Huang, J.; Feris, R. S.; Chen, Q.; and Yan, S. 2015. Cross-domain image retrieval with adual attribute-aware ranking network. In ICCV, 1062–1070.

4. Ji, X.; Wang, W.; Zhang, M.; and Yang, Y. 2017. Cross-domain image retrieval withattention modeling. In ACM Multimedia, 1654–1662.

5. He, R.; Packer, C.; and McAuley, J. 2016. Learning compatibility across categories forheterogeneous item recommendation. In ICDM, 937–942.

6. Vasileva, M. I.; Plummer, B. A.; Dusad, K.; Rajpal, S.; Kumar, R.; and Forsyth, D. 2018.Learning type-aware embeddings for fashion compatibility. In ECCV, 390–405.

7. Veit, A.; Belongie, S. J.; and Karaletsos, T. 2017. Conditional similarity networks. In CVPR,830–838.

8. Hu, J.; Shen, L.; and Sun, G. 2018. Squeeze-and-excitation networks. In CVPR, 7132–7141.

产业阿里巴巴AAAI 2020

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia