A品牌推出了一件连衣裙原创爆款,B品牌趁机推出了“同款”,B还很"机智"地修改了连衣裙的裙长、领型或袖型,以此规避知识产权纠纷,不过,这种做法已经行不通了。近日,由阿里安全和浙江大学合作研发的创新AI算法提出了一种面向服饰版权保护的属性感知细粒度相似度学习方法,从传统关注整体相似度细化到能够关注于局部区域的特定属性的相似度,从而进一步提升了甄别“局部抄袭”的准确率,为服饰版权保护提供更强大的技术支持。
也就是说,设计师做了一件原创设计,原来评判系统从整体对比原创者和抄袭者的图样,现在AI能迅速采集这件设计上的各个设计点,与抄袭者的设计图样比对,如果后者在多个点上与前者达到了某个相似度,系统可立刻判定抄袭成立,并知道哪些设计元素的相似度高。
解读上述算法的论文《Fine-Grained Fashion Similarity Learning by Attribute-Specific Embedding Network》(《面向服饰版权保护的属性感知的细粒度相似度学习》)被全球人工智能顶级会议AAAI2020收录,2 月 7 日至 12 日,AAAI 2020 在美国纽约召开。
更灵活的服饰版权保护度量方法
从视觉角度如何对原创设计进行保护是“服饰理解”面临的一个重要问题,也是长久以来的一个巨大挑战。
服饰图像通常伴随着严重的变形,在风格、纹理、背景上也存在巨大的差异。现有的服饰理解方法在in-shop clothes retrieval [1, 2],cross-domain fashion retrieval [3, 4] 以及fashion compatibilityprediction [5, 6] 等任务上进行了广泛的研究。
这些方法倾向于考虑图像整体的特征,为各种服饰学习单一的特征空间。随着时尚产业的发展,服饰倾向于具有更加丰富的属性,单单从整体特征考虑已无法满足需求,并且,抄袭通常也不是整体的抄袭,可能仅模仿某种局部设计;再者,对服饰理解的进一步细化能够提高推荐系统的性能。
因此,浙江大学和阿里安全的研究者从服饰版权保护出发,基于专业定义的服饰属性,探索一种灵活有效的细粒度服饰相似度度量方法。
如图1所示,现有方法通常将两张图像映射到全局嵌入空间中度量相似性,而研究者提出的方法则根据不同的属性(比如领型设计、袖长)选择不同的嵌入空间,从而在相应的空间中计算在指定属性下服饰的相似性。比如,可以在领型设计空间度量两件服饰的领型设计是否相似,如果同为圆领,如何使得模型能够灵活地进行任务切换,根据不同的属性有不同的输出?
据上述算法的研究者之一、阿里安全图灵实验室高级算法专家华棠介绍,结合服饰属性具有“局部性”的固有特点,他们利用视觉注意力机制将图像从全局特征空间映射到不同的特征子空间中,在子空间中度量具体角度下的图像相似度。
这种方法具有两个优点,第一,不同属性映射到不同子空间中,在不同子空间中度量细粒度的相似关系;第二,模型能够端到端学习,不同相似性角度下的度量关系互相不影响,可以同时训练。
模型解析
研究者提出了一个 Attribute-Specific Embedding Network (ASEN) 模型来学习多个特定属性的嵌入空间。
ASEN 模型的整体结构模型由三部分组成:特征提取、属性感知的空间注意力(ASA)和感知的通道注意力(ACA)。
考虑到特定属性的特征通常与图像的特定区域有关,只需要关注某些相关区域。因此,研究者设计了 ASA 模块,该模块在特定属性的引导下定位图像中与给定属性相关的服饰部位。
尽管属性感知的空间注意力能够自适应地聚焦于图像中的特定区域,但是相同区域仍可能与多个属性相关,例如,领型设计属性和领型颜色属性都与领型周围的区域相关联。因此,研究者在ASA的基础上进一步设计了ACA 模块,同样在属性的指导下捕捉与属性相关的特征元素。
特征提取模块通过卷积神经网络(convolutional neural network, CNN)提取图像特征,ASA和ACA处于旁路,顺序对CNN提取到的特征进行条件化映射。注意力模块以额外的属性输入为引导,融合条件和图像特征,使得最终的图像特征满足需要。
ASA 采用attention map的方式,通过融合图像特征和属性嵌入,产生注意力权重。首先属性经过编码,通过嵌入(Embed)和复制(Duplicate)操作被映射到公共度量空间中,图像特征同样经过一步变换(1x1 conv)映射到同样的空间中。属性嵌入和图像特征经过内积运算在不同的空间位置上产生不同的相似度比较值,对不同通道上的相似度比较结果进行聚合(1x1 conv)将得到一个attention map用来调整原图像特征在空间域上的分布。
虽然 ACA 模块能够关注到相关的图像部位,但是对于由服饰属性定义的high-level的服饰概念而言,同样的部位仍然可能和多种属性相关,比如属性领型设计和领型颜色都和衣领部位相关。出于这样的考虑,研究者采用属性感知的通道注意力模块进一步在通道维度上捕捉关键的图像特征。首先属性同样被嵌入到高维空间中,其次和图像特征连接输入到连续的两个非线性的全连接层,分别进行维度缩减和维度增加 [8],产生的注意力权重对图像特征进行调整。
实验成果
研究者以在服饰场景下的细粒度相似度学习为目标,提出了ASEN网络和两种不同维度的注意力模块。ASEN能够同时学习多种特定属性的嵌入空间,因而能够在相应的空间中度量细粒度的服饰图像相似度,是一种简洁有效的端到端模型。大量的定量定性实验证实了模型的有效性和可解释性。
研究者在 FashionAI、DARN、DeepFashion数据集上进行了特定属性的服饰检索实验,在Zappos50k数据集上进行了三元组关联预测实验。
两种实验形式不同,但本质相同,即均要求相对于某种属性,相似服饰的距离近,不相似服饰的距离远,而属性特异的服饰检索实验对检索返回序列的要求更高。结果表明ASEN相对于不同的对比模型,在各种属性上均能够取得一致显著的性能提升。在属性特异的服饰检索实验中,对不同的query样本,设置不同的属性条件,检索出的结果计算mean AP。表1-3展示了三个数据集上每个属性下的性能和平均性能。在Zappos50k数据集,研究者采用 [7] 的测试方式,也取得了更高的性能。
研究者还展示了一些定性实验结果,包括在FashionAI数据集上的检索结果,空间注意力机制可视化结果以及属性子空间可视化结果;在DeepFashion数据集还进行了in-shop clothes retrieval的reranking结果,显示了ASEN的潜在应用价值。
下图3展示了FashionAI数据集上的Top-8检索结果,对属性相关部位放大展示,可以看到V领服饰能够检索出V领服饰(第一行),无袖服饰能够检索出无袖服装(第二行),而除了目标属性之外,其他特征表现出明显的多样性,例如返回服饰款式、色调、种类、背景各不相同。图4展示了对ASA模块进行可
视化的结果模型能够定位属性所关联的部位,对于复杂的背景、模特姿势等变化具有较强的鲁棒性,最后一组图像展示了对于无法从图像中识别的属性的注意力结果。
研究者还对FashionAI数据集上的八种属性子空间进行了可视化,相同颜色的点表示图像具有相同的属性值,比如同为圆领衣服,在特定属性的嵌入空间中,具有不同颜色的点可以很好地分离而具有相同颜色的点可以更加聚集。换句话说,具有相同属性值的图像距离较近,而具有不同属性值的图像距离较远,这说明通过ASEN学习的特定属性嵌入空间对于单一属性具有良好的判别性。
华棠还介绍,为了通过细粒度的服饰相似度度量提升其检索性能,最后,他们将细粒度的服饰相似度模型应用到传统的in-shop clothes检索任务上来,。首先,使用一般的检索模型产生初始的检索返回序列;接着利用ASEN模型在某种属性上的细粒度相似性对初始序列进行重排,图5展示了部分实验结果。对于第一个例子,研究者通过袖子长度属性对初步结果进行重新排序,短袖的图片排在了前面。很显然,在重排之后,检索的结果变得更合理。
论文链接:https://arxiv.org/abs/2002.02814Github: https://github.com/maryeon/asen
参考文献
1. Liu, Z.; Luo, P.; Qiu, S.; Wang, X.; and Tang, X. 2016. Deepfashion: Powering robustclothes recognition and retrieval with rich annotations. In CVPR, 1096–1104.
2. Ak, K. E.; Lim, J. H.; Tham, J. Y.; and Kassim, A. A. 2018b. Efficient multi-attributesimilarity learning towards attribute-based fashion search. In WACV, 1671–1679.
3. Huang, J.; Feris, R. S.; Chen, Q.; and Yan, S. 2015. Cross-domain image retrieval with adual attribute-aware ranking network. In ICCV, 1062–1070.
4. Ji, X.; Wang, W.; Zhang, M.; and Yang, Y. 2017. Cross-domain image retrieval withattention modeling. In ACM Multimedia, 1654–1662.
5. He, R.; Packer, C.; and McAuley, J. 2016. Learning compatibility across categories forheterogeneous item recommendation. In ICDM, 937–942.
6. Vasileva, M. I.; Plummer, B. A.; Dusad, K.; Rajpal, S.; Kumar, R.; and Forsyth, D. 2018.Learning type-aware embeddings for fashion compatibility. In ECCV, 390–405.
7. Veit, A.; Belongie, S. J.; and Karaletsos, T. 2017. Conditional similarity networks. In CVPR,830–838.
8. Hu, J.; Shen, L.; and Sun, G. 2018. Squeeze-and-excitation networks. In CVPR, 7132–7141.