假设你有一个二元分类器,你会如何处理生产中的不平衡数据集?
Reddit 论坛一网友在机器学习频道发帖提问自己求职面试中遇到的难题。该网友称,他参加了 17 次面试,数次被问及一个同样的问题,「假设你有一个二元分类器(逻辑回归,神经网络等......),你如何处理生产中的不平衡数据集?」众网友纷纷发表了自己的看法,其中一名曾担任面试官的网友给出了一个「标准答案」。他表示,自己也提出过很多次这个问题,他想要的是应聘者能够理解对精度的需求以及对准确性的回忆。应聘者有很多包括上下采样类似的选择来解决这个问题。在某些情况下,可以有数据扩充。但这通常只适用于某些图像数据集。最后应聘者可以提及损失函数,也可以使用轻微的不同损失功能,以便减少焦点。