阿里妹导读:视觉想象力是人与生俱来的, AI 能否拥有类似的能力呢?比如:给出一段故事情节,如何让机器展开它的想象力,“脑补”出画面呢?看看阿里AI Labs 感知实验室的同学们如何解决这个问题。
1. 背景 —— 视觉想象力(Visual Imagination)
1.1 什么是视觉想象力?

1.2 AI拥有视觉想象力后的影响?


2. 选题 —— 站在巨人的肩膀上
2.1 领域的痛点在哪?



2.2 如何解决?—— 我们眼中的大框架

2.3 论文的关注点
3. 论文的动机及贡献
3.1 当前的问题
★ 3.1.1 最接近的工作与组合爆炸问题

★ 3.1.2 语义构图评价指标的缺失
3.2 Seq-SG2SL的动机


3.3 SLEU的动机
1)要想完成自动化评估,必须需要真值。 2)SLEU的设计目的就是要度量一个生成的语义构图与真值之间的差异。
3.4 论文的贡献
4. 方法要点简述
4.1 Seq-SG2SL框架

框架的主要思想就讲完了,细节的话感兴趣的读者可以去看论文。
4.2 SLEU指标
5. 实验结果预览

https://arxiv.org/abs/1908.06592
参考文献:
[1] Qiao et al., MirrorGAN: Learning Text-To-Image Generation by Redescription, CVPR 2019.
[3] https://github.com/SummitKwan/transparent_latent_gan
[4] Zhang et al., StackGan: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, ICCV 2017.
[5] Johnson et al., Image Generation from Scene Graphs, CVPR 2018.
[6] Krishna et al., Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations, IJCV 2017.