模型跨界成潮流?OpenAI用GPT-2做图像分类,实现SOTA性能
近日,OpenAI 发布了一项新研究,旨在探索在图像上训练 GPT-2 的性能以及无监督准确率表现。研究者表示,BERT 和 GPT-2 等 Transformer 模型是域不可知的,这意味着它们可以直接应用于任何形式的 1D 序列。OpenAI 研究者在图像上训练 GPT-2(这些图像被分解为长像素序列),他们称该模型称为 iGPT。结果发现这种模型似乎能够理解物体外观和类别等 2D 图像特征。iGPT 生成的各种一致性图像样本可以证明这一点,即使没有人为标签的指导。iGPT 缘何能够成功呢?这是因为,在下一像素预测(next pixel prediction)上训练的足够大的 transformer 模型最终可能学会生成具有清晰可识别物体的样本。一旦学会了生成此类样本,那么通过「合成分析」,iGPT 将知道目标类别。实验表明,iGPT 模型的特征在大量的分类数据集上实现了当前 SOTA 性能,以及在 ImageNet 数据集上实现了接近 SOTA 的无监督准确率。