纽约大学以及 Facebook 人工智能实验室研究团队重建 MNIST,新增 5 万个训练样本
机器之心消息,如果研究人员在原始 MNIST 测试集测试超过固定次数,很有可能会发现测试模型已超过了测试集。尽管目前流行的 MNIST 数据集来自 NIST 数据库,但这种推导的精确处理步骤已经有些过时了。来自纽约大学以及 Facebook 人工智能实验室的研究人员提出了一种足够精确的可用于 MNIST 数据集的重建,并将其精确度大大提高。研究人员不仅将每个 MNIST 数字跟踪到其 NIST 源及其丰富的如作者标识符,分区标识符在内的元数据。此外,他们还重建了完整的包含了 60,000 个样本的 MNIST 测试集(通常样本数量为 10,000 个)。