使用深度生成模型改进缺失值填充
缺少数值的数据集在工业应用中很常见,并且会对机器学习模型造成负面影响。最近的研究介绍了在深度生成模型的基础上,通过输入缺失值的方法解决这一问题。先前有关生成对抗网络和变分自编码器的实验得出的结果很有趣,但并未弄清楚不同使用案例的更有效方法。本论文《Improving Missing Data Imputation with Deep Generative Models》的目的有两个:其一,对基于深度生成模型的缺失值补全解决方案进行比较;其二,对这些方法提出改进。我们在实验中使用已知的具有不同特征的真实数据集,随机删除数值,并利用几种补全技术重建数值。实验结果显示,分类变量的存在与否能够影响模型的选择,同时用不同随机数量的生成种子类似运行之后,一些模型较其他模型更为稳定。