这篇文章将讨论机器学习的一大基本算法:线性回归。我们将创建一个模型,使其能根据一个区域的平均温度、降雨量和湿度(输入变量或特征)预测苹果和橙子的作物产量(目标变量)。训练数据如下:
在线性回归模型中,每个目标变量的估计方式都是作为输入变量的一个加权和,另外还会有某个常量偏移(也被称为偏置量):
yield_apple = w11 * temp + w12 * rainfall + w13 * humidity + b1
yield_orange = w21 * temp + w22 * rainfall + w23 * humidity + b2
可视化地看,这意味着苹果或橙子的产量是温度、降雨量或湿度的线性函数或平面函数:
因为我们只能展示三个维度,所以此处没有给出湿度
线性回归的「学习」部分是指通过检视训练数据找到一组权重(w11、w12…w23)和偏置 b1 和 b2),从而能根据新数据得到准确的预测结果(即使用一个新地区的平均温度、降雨量和湿度预测苹果和橙子的产量)。为了得到更好的结果,这个过程会对权重进行许多次调整,其中会用到一种名为「梯度下降」的优化技术。