人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办,AAAI 2020 最终收到 8800 篇提交论文,评审了 7737 篇,接收了 1591 篇,接收率 20.6%。
常识问题是人工智能领域最难的问题之一。在 NLP 领域,BERT 模型虽然已经表现出色,但是在常识知识问答数据集上的性能仍旧远低于人类。在计算机视觉领域,结合视觉场景的常识知识问答问题仍然具有较大难度。促进人工智能发展,使得机器具有「常识思维」,对于常识知识、常识推理的研究是值得关注的未来发展方向。本次 AAAI 2020 学术会议论文提前看,笔者挑选了常识知识、常识推理相关的 3 篇论文为大家作以解读。
Joint Commonsense and Relation Reasoning for Image and Video Captioning(联合常识和关系推理用于图像和视频描述)论文链接:https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf这篇论文是北京理工大学和阿里合作的一篇关于利用对象之间的关系进行图像和视频描述 (image caption/video caption) 的论文。大多数现有方法严重依赖于预训练的对象及其关系的检测器,因此在面临诸如遮挡,微小物体和长尾类别等检测挑战时可能效果不佳。在本文中,作者提出了一种联合常识和关系推理的方法 (C-R Reasoning),该方法利用先验知识进行图像和视频描述,而无需依赖任何目标检测器。先验知识提供对象之间的语义关系和约束,作为指导以建立概括对象关系的语义图,其中一些对象之间的关系是不能直接从图像或视频中获得。特别是,本文的方法是通过常识推理和关系推理的迭代学习算法交替实现的,常识推理将视觉区域嵌入语义空间以构建语义图,关系推理用于编码语义图以生成句子。作者在几个基准数据集上的实验验证了该方法的有效性。为了让大家更直观的感受,图 1.1 率先为大家展示了本文的方法在 MSVD 英文视频数据集和 Youku-vc 中文视频数据集上的定性结果。图 1.1 本文方法在 MSVD 视频数据集合 Youku-vc 中文视频数据集上的效果示例黄色和蓝色的框分别表示对象和关系的候选,『o-r-o』表示的是语义图中的『对象-关系-对象』,『o-r-a』表示的是『对象-关系-属性』。Ours 指的是作者的方法生成的描述,GT 是真实的描述语句。三张图片表示的是从视频中随机采样的帧。专业用户独享
本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证