编者按:
《书李世南所画秋景》
--苏轼
“野水参差落涨痕,疏林欹倒出霜根。
扁舟一棹归何处?家在江南黄叶村。”
宋代诗人张舜民在《跋百之诗画》中,曾经写道:“画是无形诗,诗是无形画”。这句诗展现了古代语言与视觉之间的融合,而在如今的人工智能领域,这句诗亦可用来表现,自然语言理解与计算机视觉两个领域的交融。
因此,当我们来读苏轼的《书李世南所画秋景》,第一句的“野水参差落涨痕,疏林欹倒出霜根”,是从秋景中提取信息来生成自然语言描述的过程,即Image Captioning,而第二句的“扁舟一棹归何处?家在江南黄叶村”,则是从视觉内容结合“黄叶村”这一背景信息来生成问答的过程,即融合了external knowledge的Visual Question Answering。
在从视觉到语言这一问题上,人类通过对周围世界不间断的感知和学习,能达到如诗中融会贯通的效果。然而相比而言,机器却只能达到人类三四岁小朋友的水平,其间还有很大的差距需要我们科研人员来填补。
今天,来自澳大利亚阿德莱德大学的沈春华教授,将为大家介绍,从视觉到语言,如何利用深度学习来填补机器与人之间的落差。
文末提供文中提到参考文献、代码及数据库的下载链接。
data:image/s3,"s3://crabby-images/e854d/e854d000bc84b3de8af4528859aa0d9cf37f30b9" alt=""
本次报告给大家分享一下过去差不多两年的时间里我们做的Natural Language Processing,NLP和Computer vision,CV的交叉的工作,主要是Image Captioning和Visual Question Answering。
data:image/s3,"s3://crabby-images/8794b/8794b740e4f1639c41ae61c74588dbbb557b740f" alt=""
我下面介绍的工作主要是之前组里两个非常优秀的博士后做的:王鹏,现在是西北工业大学的教授;以及吴琦,现在是我们阿德莱德大学的讲师。
data:image/s3,"s3://crabby-images/de804/de8046d02455f1340cc90265f395a86e0684c798" alt=""
data:image/s3,"s3://crabby-images/25bf2/25bf29adfac7b56ded25dfd81a7d4fcbdbeafbfe" alt=""
data:image/s3,"s3://crabby-images/c2ade/c2ade1e7ca74d0c58878055197b1aafd6b3b47ff" alt=""
data:image/s3,"s3://crabby-images/509c2/509c26de31938f9b93dc227c4f3e126c69b3f417" alt=""
data:image/s3,"s3://crabby-images/7d5bd/7d5bd141cf2b34f5328fb9dd592113f92d6d7e93" alt=""
data:image/s3,"s3://crabby-images/1f6c3/1f6c33c09cfba1d0a3c4a5248d69abfdd9433216" alt=""
data:image/s3,"s3://crabby-images/9bb12/9bb128c0e8179d81cbc7d5ed461ef70226c11481" alt=""
data:image/s3,"s3://crabby-images/bdd63/bdd6376933c7153e96328c19e815ccec24fba2ec" alt=""
data:image/s3,"s3://crabby-images/a8957/a895735a523c9bd27be08eccb388e886dfd0eecc" alt=""
提到VQA,其实如果要真正彻底解决VQA,一定要解决QA,在自然语言处理(NLP)里面,所有的研究问题,最终都可以转成QA的问题。如果把QA解决了, 其实也就是解决了自然语言处理,大家知道NLP远远没有解决,还有很多研究的问题。那么Question Answering问题,和其他传统的计算机视觉问题相比是一个非常大的挑战。 要正确回答这个问题,你可能要依赖很多的知识(knowledge), 这个知识不一定在图像里面。
data:image/s3,"s3://crabby-images/272a5/272a5d959f9bdd24d7cf82b089620d07764ac5d5" alt=""
data:image/s3,"s3://crabby-images/b789b/b789b911c8821383300e571438b8d04e3f29dfa9" alt=""
data:image/s3,"s3://crabby-images/5c31b/5c31bf7b20306b35da33e518c6262e394edcddaf" alt=""
在CVPR 2016的论文里,我们做了一个工作,怎么样把相关的知识找出来,主要使用的External knowledge是维基百科。维基百科拥有几十万的英文文章. 基本是思想是给你一张图片,可以根据图像相关的属性得到标签,然后再用SPARQL(SPARQL是一个数据库搜索的语言),去搜DBpedia,DBpedia是Google做的基于维基百科的结构化数据库。得到之后,我们再去找到相关的维基百科里面的英文文章,得到相关的描述。最后要让文本参与计算,我们用了Doc2vec,把它转换成一个向量,然后再输入给LSTM,然后再做神经网络的训练。用这样的方法把相关知识利用起来。这可能是当时第一个把External knowledge利用起来,应用在VQA领域的工作. 这个工作只是往前走了一小步,还远远不够。
data:image/s3,"s3://crabby-images/1883e/1883e62a03c4a9c2faccf6336cd39431cd167d94" alt=""
data:image/s3,"s3://crabby-images/dfb20/dfb2065f2dfec2a1fef828c5e35cbe5116ae621c" alt=""
如果要正确的利用这样的结果,这里有几个研究问题要解决,其中一个是,首先这些off the shelf的算法的结果不一定百分之百是正确的,有可能是错的。怎么样把错的结果给过滤掉?第二个问题是因为我们产生这些结果的时候,我们并不知道用户要问的问题是什么. 我们需要在给出一个问题的时候,去挑选那些相关的facts,把那些不相关的仍掉,这里面得有一个机制,去掉错的或者噪声,来选择正确的facts来回答我的问题。在去年的CVPR论文里,我们提出一个Co-attention Model来做这个事情。
data:image/s3,"s3://crabby-images/81aaf/81aafc616608124f72c0e3d3a0dace807bad1d10" alt=""
data:image/s3,"s3://crabby-images/82efa/82efa94fd5f85b73962fb2e9da4081149b1d5828" alt=""
data:image/s3,"s3://crabby-images/71a00/71a0072df8df1dd43d61541ae28a0040113b5463" alt=""
data:image/s3,"s3://crabby-images/462e8/462e85c251b061e9e91728305d321f20f8625b5f" alt=""
data:image/s3,"s3://crabby-images/8da28/8da28372a1cb922d0f57f76a74c604f342081b1d" alt=""
data:image/s3,"s3://crabby-images/5aa9d/5aa9dd96a0b5253b5c48307b03dcb205598200f9" alt=""
data:image/s3,"s3://crabby-images/5b1ff/5b1ff094c36c7c19d1a3b6ef9250d9673913b362" alt=""
这些工作做完之后,我们在利用External knowledge上面,其实已经往前走了几步了,为了更好的做VQA这个问题,其实它还是有一些局限性的。第一个是可扩展性,它不够好,因为所有的知识都是从Questions and answers这样的问题和回答里面学出来的。 knowledge可以是非常大的。如果说要有一个编码解码这样的模型,一个递归神经网络,把所有的人类所知道的这些知识全部包含进去,全部学出来的话,可能是非常难的问题。
还有就是推导过程,目前我们只能rank一下它用到的Facts的重要性,它其实没有一个相关性,怎么显性的推理过程是没有的。第一个可扩展性非常重要,我们有没有可能把我们知道的那些knowledge base全部用上,来回答你的这个问题,把它用到这个VQA上面。其实这个在NLP里面有很多相关的工作,不过做视觉的很少关注到,这个肯定是有可能的,也需要把knowledge base这些技术跟视觉技术结合起来。
data:image/s3,"s3://crabby-images/52bb1/52bb12e6dc402b7e18fef248f290774dd1422d81" alt=""
data:image/s3,"s3://crabby-images/5e0c7/5e0c7adfbe823ce40a99f32560326caddef08aeb" alt=""
第一步,给你一个图片,我们去产生concept,这个其实是图片理解的过程,得到了图像信息之后,我们可以跟DBpedia对应起来。第二个模块其实是要理解输入的问题,因为你有个自然语言,NLP描述了一个问题,我们对这个问题做删选,然后做一个映射,得到这个映射之后,就得到了Query,去搜索这个knowledge base。
data:image/s3,"s3://crabby-images/d9aad/d9aad39da65046a7f8369a167e3fa112633f8900" alt=""
data:image/s3,"s3://crabby-images/d1075/d10751ca41d783c399c08517fbcf47899a08f1c2" alt=""
data:image/s3,"s3://crabby-images/4919d/4919d00919b2b6198ca922dd9c952c9bf1e0f3bb" alt=""
data:image/s3,"s3://crabby-images/90283/9028359a81d1dbfe0057786e258d608e920ef522" alt=""
data:image/s3,"s3://crabby-images/b2628/b2628e6feff13bbe4e2ad3382b708b4d5c88e1e9" alt=""
这里面有几个例子,为了去生成这个query,我们只能回答有限类型的问题。例如,像第一个,Is the image ...“这里面有没有”。
data:image/s3,"s3://crabby-images/af4bb/af4bb660cad04bf1c516b29020fa5534649645b4" alt=""
data:image/s3,"s3://crabby-images/4bae8/4bae8eb65e4e1d5688ccc4a35b231012b7f94ab9" alt=""
刚才说到的VQA,因为回答的问题有限,所以在这个基础上又更进了一步,我们希望把生成query,改用学习的方法得到,这样的话可以不局限于只能回答有限的问题。
data:image/s3,"s3://crabby-images/33013/33013f65e79b64de7ccad8286d0350918fd608c7" alt=""
最后提一下今年做的工作,是今年CVPR的一个oral paper,这个工作的背景是我们把GAN用到VQA上。让这个算法生成更像人说的这些自然语言,这里给大家看几个例子,这个人说的话,大概会比较长,会有更多的信息在里面,如果用机器来生成非常简短。
data:image/s3,"s3://crabby-images/2f970/2f970f6f734b69b0a8c650ce72503a3afc1cb5d9" alt=""
这个是我们提的框架,这里面加了鉴别器,这个鉴别器的任务就是来区分这是人说的话还是机器产生的,然后得到这个分数之后,再来指导这个generator,让它生成更像人说的话,这里面也会用到一个Co-attention model。在训练的时候,我们会固定一个训练好的判别器模型,把它当作一个reward function. 然后使用policy gradient,这样在训练生成器的时候,我们可以不提供ground truth,只通过sampling的方式,然后将sampling好的结果送入判别器,再通过reward计算policy gradient,来调节生成器,期望得到更好的sampling。
data:image/s3,"s3://crabby-images/0831e/0831ebdcef75aeb89e0783a0e7a14069eb0c86a8" alt=""
data:image/s3,"s3://crabby-images/7ca14/7ca14f22d84b6a3bd64d74ef5afc63defe818c0e" alt=""
data:image/s3,"s3://crabby-images/e6e9b/e6e9b648d7a63bb7d0b863265452790701d75810" alt=""
文中提到参考文献下载链接:
https://pan.baidu.com/s/1hH9Z-WOXfIEpjQY_jIPYlw 密码: niw2
代码及数据集开放链接为:
DAQUAR数据集:
https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/vision-and-language/visual-turing-challenge/
COCO-QA数据集:
http://www.cs.toronto.edu/~mren/imageqa/data/cocoqa/
VQA数据集:
http://www.visualqa.org/download.html
Visual Genome数据集:
https://visualgenome.org/api/v0/api_home.html
FVQA 数据集:
https://www.dropbox.com/s/iyz6l7jhbt6jb7q/new_dataset_release.zip?dl=0
CO-attention code:
https://www.dropbox.com/s/siofu0gj6ocoirw/HieCoAttenVQA_v2_clean.zip?dl=0
Attributes captioning/VQA code:
https://www.dropbox.com/s/ur15xi828k2j4a9/ACK_Code.zip?dl=0