最早的 YOLO 网络使用了一个经过修改的 GoogLeNet 作为骨干网络。之后,Redmond 又创建了一个名为 DarkNet-19 的新模型,其遵循了 3×3 过滤器的一般设计,而将每个池化步骤的通道数量翻了一倍;整个网络中也使用了 1×1 过滤器来周期性压缩特征表示。他最新的论文又引入了一个更大的新模型 DarkNet-53,具有更优的性能表现。
所有这些模型都首先是作为图像分类器而进行预训练,之后再针对检测任务进行调整。在 YOLO 模型的第二个迭代版本中,Redmond 发现在分类预训练结束时使用更高分辨率的图像能够提升检测表现,因此也就采用这一操作方法。
将分类网络调整为检测网络只需要移除网络的最后几层,然后添加一个带有 B(5+C) 个过滤器的卷积层,以得出 N×N×B 的边界框预测。