如果能有一种理论告诉我们什么样的模型架构、运算方式能最好地表示某种数据,什么样的损失函数、迭代方式能最高效地学习到某种能力,什么样的设置又使这种能力能处理各种意外情况。那么,这样的深度学习,乃至机器学习,才是理论基础圆润的大学科。
令人惊喜的是,我们可以看到近来很多前沿研究都越来越系统,越来越有洞见。最明显的是近年举行的 AI 顶会,我们可以看到很多获奖论文都尝试从更基础、更深刻的角度为 DL 打下地基。本文将从 2019 年人工智能顶会的获奖论文出发,为你介绍深度学习的理论基础到底是什么样的,当前又有哪些新发现。
数学基础 ≠ 理论基础
在入门深度学习的过程中,我们经常会听到各种数学名词,线性代数和矩阵微分、概率论与随机过程,似乎要想理解各种模型,首先必须理解这些数学概念。那么这些数学描述不正是深度学习的「理论基础」吗?
这里我们需要明确的是,数学是一种语言、一种工具,使用它描述深度学习并不一定等于构建 DL 的理论基础。这是一种数学基础,而不是整理领域的理论基础。很多深度模型确实都是从数学推导出发,然后得出某些很好的性质,但这只能说明模型是有理论保证的,它们并不能组成深度学习的理论基础。
比如说图卷积网络或变分自编码器,它们最开始都是从数学的角度推导某些性质,后来才根据这样的性质构建整个模型。我们可以说这些模型的理论基础非常坚实,如果我们需要理解它们,同样也需要对应的数学基础。此外,在实际建模时,我们并不一定完全遵循理论推导,可以稍微修改以获得更强的计算效果。
在深度学习中,有很多模型的数学推导都非常优美。也有很多模型从实验与直观概念出发,描述整个学习过程的数学表达。它们都非常重要,但并不能解决深度学习最基本的疑问:为什么深度模型能够高效学习?为什么深度模型要比浅层模型的性质好?为什么深度学习泛化性也不错?