Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

AI一眼识别这是什么鸟,「我们来找茬」十级选手诞生

浙大与阿里细粒度图像识别AI取得最优效果 鸟类判识率达91.3%

话说,你能看出这三只鹦鹉有什么不一样吗?脸盲如我,要使出玩“我们来找茬”的十级能力。

AWSL,鹦鹉鹦鹉,傻傻分不清楚。

结果,AI一顿操作猛如虎,进行了判断:左边的是桃面牡丹鹦鹉,右边的是国家保护动物费氏牡丹鹦鹉,二者区别仅在于喙的颜色以及白色眼圈。

小鸟并不孤单,猫猫狗狗和花花草草也在被“找茬”。最近,浙江大学和阿里安全在AI细粒度图像识别技术上取得了新进展,利用RAMS-Trans相关技术先后在公开数据集CUB(鸟类识别)、Standford Dogs(狗类识别)、iNaturalist(动植物识别)的识别上准确率达到91.3%、68.5%、92.4%的行业最优效果,研究成果被多媒体国际顶会ACM MM 2021 收录。

论文链接:https://arxiv.org/pdf/2107.08192.pdf

怎么“找茬”

细粒度图像识别是计算机视觉领域的一个经典问题,属于图像分类任务的细分支任务,难点主要在于类别之间的差异较细微,难以区分。举几个看起来简单实际并不简单的例子:

以上都是松鸦,搞起区别对待并不容易,最右那只松鸦因为颜色完全不同暂且可以退出比赛行列,左边两只“小朋友”就要考验AI对图片细节的把控,俗称“考眼力”了。

AI的“眼力”可不同于人类的“眼力”。

在细粒度图像识别领域,区域注意力的定位和放大是一个重要因素,基于卷积神经网络(CNN)的方法对此进行了大量探索。然而,CNN的感受野有限,且缺乏全局依赖关系的建模能力。最近视觉Transformer(ViT)在计算机视觉领域取得了非常多的研究进展。研究者认为,与CNN相比,图像序列化是一种全新的方式。

浙江大学和阿里安全的研究者起初引入ViT中的自注意力机制,提取图像中的长距离依赖关系。然而,ViT的感受野大小相对固定,对图像中的每个patch的关注程度没有产生区分,对细粒度图像识别带来了性能的局限。

也就是说,这种方法并不能让AI找准“重点”。

为了学习局部判别性的区域注意力,研究者使用注意力权重的强度来衡量对应于原始图像的patch重要性,提出了多尺度循环注意力的Transformer(RAMS-Trans),它利用Transformer的自注意力机制,以多尺度的方式循环地学习判别性区域注意力。

“我们方法的核心是动态patch建议模块(DPPM)引导区域放大,以完成多尺度图像patch块的集成。DPPM从全局图像开始,迭代放大区域注意力,以每个尺度上产生的注意力权重的强度为指标,从全局到局部生成新的patch块。”阿里安全图灵实验室算法专家炫谦介绍。

具体来说,研究者首先提取ViT每层的自注意力机制,并且进行归一化,然后采取累乘的方式对自注意力整合。

然后,研究者得到了整合后的自注意力均值分布矩阵,由于细粒度图像识别任务的关键因素在于局部注意力,往往存在于图像的局部区域,如鸟的尾部、喙和蛙类的头部等,因此研究者通过设定阈值的方式来“过滤”不需要的部位,增强对局部判别性区域的识别能力。

最后,研究者通过插值算法将选定的patch块放大到原图像的尺寸,通过共享参数的模型,重新进行训练,整体结构对应于文章所提的多尺度循环机制。

RAMS只需要ViT本身附带的注意力权重,可以很容易地进行端到端的训练。广泛的实验表明,除了高效的CNN模型外,RAMS-Trans的表现比同期进行的工作更好,分别在CUB-200-2011、Stanford Dogs、iNaturalist2017获得SOTA。

同时,研究者在三个数据集合上可视化了Focus的区域,在不同种类动植物的细粒度判别时,RAMS可以聚焦到类别的独特特征区域,从而帮助细粒度分类。

可用于内容治理和知产保护

今年5月,国家林业和草原局下发《关于妥善解决人工繁育鹦鹉有关问题的函》,要求河南省林业局对包括费氏牡丹鹦鹉在内的多种人工养殖鹦鹉进行标识管理试点,对符合条件的养殖户尽快核发管理证件,同时,对合法人工繁育来源、依法允许出售的鹦鹉,停止执行禁止交易措施,在政府规定的场所进行销售活动。原来,1月初,河南商丘近1000家养殖户因不了解费氏牡丹鹦鹉属于国家保护动物,直到外地公安部门多次来商丘调查,他们才后知后觉。“鹦鹉案”困境终于有了解法。

怎么才能避免因“不懂法”“不认识”而触碰野生动植物保护的红线?

“帮他们辨别,帮他们认识。”在淘宝、闲鱼等商品平台上,阿里安全风控的做法是,依靠通过人工智能对商家挂出商品进行初筛,再交给人工审核来精细判断处理,并对禁限售商品的搜索弹出科普引导。

一万多种受保护的动植物,每种又有繁杂的细分种类,对人来说,光记名字远远不够,必须结合实物图片和各种背景资料综合学习,比如鹦鹉里的牡丹鹦鹉(也叫爱情鸟),除了桃脸牡丹鹦鹉、虎皮鹦鹉等大部分都被纳入《华盛顿公约》附录二,个人不可随意饲养。其中的费氏牡丹鹦鹉属于保护物种,都是牡丹鹦鹉,费氏牡丹俗称“头类”,桃脸牡丹俗称“面类”。一般可以依靠眼圈和嘴的颜色进行区别,“头类”眼睛四周有一圈眼白,通常嘴偏红,而“面类”没有这些特征。

风控专家把市面上非法交易频繁的动植物作为重点研究,买百科全书,网上查阅相关科普资料,然后上专业网站和一些动物知识APP,向动物保护领域研究者请教,与算法人员一起打造算法模型。

浙江大学和阿里安全研发的细粒度图像识别技术就可用在上述场景。算法的下游是风控运营,对他们而言,在万能的橙色软件上“买(看)不到什么”是一种合法合规,也是构建健康网络环境的主动选择。当然,这个技术也可用于山寨商标的识别,区分正版与山寨商标,以及未成人年不良图片治理和恶心图治理等,如抽烟、酗酒、竖中指、赌博、密集恐惧等。

又到可怕的“我们来找茬”环节了,这也是炫谦等人给AI的一次测试,猜猜它找到正品logo了吗?

研究者介绍

胡云青:浙江大学计算机学院DMAC实验室博士在读,阿里安全图灵实验室实习生,师从浙江大学教授张寅,研究方向和感兴趣方向包括图像识别,目标检测和多模态等。在ACMMM、ACL等发表过多篇论文。

炫谦:在中国科学院大学获得硕士学位,阿里巴巴图灵实验室算法专家,主要负责图片内容安全业务,拥有多篇发明专利,并在NIPS、ACM MM、ICASSP等发表多篇论文。

张寅:浙江大学计算机科学与技术学院副教授,博士生导师,数字图书馆教育部工程研究中心副主任,中国工程科技知识中心建设总师团队成员,美国加州大学圣塔芭芭拉分校(UCSB)访问学者,浙江大学“求是青年学者”。

阿里安全图灵实验室是阿里巴巴从事安全领域机器学习研发的顶级团队,专注于 CV、NLP 及 ML 领域,所研发的 AI 技术被广泛用于阿里巴巴经济体的全球业务网络安全、数据安全、知识产权、新零售安全以及风控反作弊等业务场景。2021年7月13日,阿里巴巴宣布成立人工智能治理与可持续发展实验室(Alibaba Artificial Intelligence Governance Laboratory,简称AAIG, https://s.alibaba.com/cn/aaig)。该实验室将着力于可持续发展、可靠、可信、可用的人工智能技术和应用,通过构建数字经济的信任机制,惩治危害商家和用户利益的行为,保护和激励创新,促进平台经济的持续健康发展。未来,实验室以多模态融合分析、对抗学习、因果网络、多智能体强化学习等技术研发及算法公平性与可解释性研究等为重点方向,推动可信、可靠的AI技术规模化服务于各项关键应用,建设核心技术的风险评估体系与识别体系,以适应社会真实的业务场景。

理论细粒度图像识别AI找茬
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

长距离依赖技术

也作“长距离调序”问题,在机器翻译中,比如中英文翻译,其语言结构差异比较大,词语顺序存在全局变化,不容易被捕捉

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

暂无评论
暂无评论~