阿里AI打破视觉对话识别纪录,机器看图说话能力比肩人类

近日,在第二届视觉对话竞赛 Visual Dialogue Challenge 中,阿里 AI 击败了微软、首尔大学等十支参赛队伍,获得冠军。竞赛结果显示,阿里 AI 以 74.57% 的准确率获得冠军,将上一届比赛的纪录提高了 16.82%。在相同的数据集中,人类的准确率仅为 64.27%。阿里 AI 的突破在于提出了「递归探索对话模型」,综合集成了图像识别、关系推理与自然语言理解三大能力,它通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式,能够有效识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,理解人类提出的问题及真实意图,给出自然准确的回复。