在统计学中,多项式回归分析常用于探讨自变量和因变量之间的关系。这种关系以自变量的多项式形式被表示,但尽管它看似是非线性的,却依然被称为“线性”模型。这种看似矛盾的情况引起了许多数据科学家和统计学家的兴趣,究竟为什么多项式回归会被归类为“线性”模型呢?
多项式回归的历史可以追溯到1805年,当时法国数学家勒让德和高斯分别首次提出了最小二乘法,这是一种用于估计回归模型的常用方法。多项式回归随着回归分析领域的发展,在20世纪也引起了学术界的广泛注意。在很多情况下,多项式模型能够简化复杂的数据集,并提供更加精确的预测。
多项式回归旨在模型化因变量y的期望值,依赖于自变量x的值,模型形式为y = β0 + β1x + β2x²。
简单的线性回归中使用的模型是y = β0 + β1x + ε,这个模型中的随机误差ε其平均值条件于变数x等于零。在这种模型中,x的每单位增加会导致y的期望值增加β1单位。然而,很多时候线性关系并不成立,例如在化学合成的情境中,产量随温度增加可能以增量的方式上升。在这样的情况下,我们可以提出二次模型,比如y = β0 + β1x + β2x² + ε。这样的模型中,当温度提高时,对产量的影响取决于x的值,这就是为什么这种看似非线性的关系却仍可被视为“线性”的原因。
尽管多项式回归模型的形式是非线性的,根本的原因在于其估计的过程是线性的。具体来说,在多项式回归模型中,因变量y是基于一系列自变量的多项式形式进行预测的,但这些自变量(x、x²、x³等)在模型中实际上可以被视为不同的独立变量。在这种情况下,对参数β0、β1...的估计依然是线性的。这使得多项式回归可以采用处理多重线性回归的相同方法进行估计。
在多项式回归中,模型可以以矩阵形式表达为y = Xβ + ε,这为计算带来方便。
为了计算多项式回归的系统,首先需要建立设计矩阵X,将各个自变量的值整理在一起。此外,回应向量y和参数向量β也随着一个随机误差向量ε一同结合。这样的结构使得能够简单地表示成一组线性方程,便于后续计算参数的估计。估计的多项式回归系数可以利用普通最小平方法来获取,使得计算过程变得高效且精确。
多项式回归可以应用于许多场景中,尤其是在数据的实际表现和推测并不符合简单线性关系时。其能够捕捉到更加复杂的模式,像是生产过程的反应、经济学中的变数关系等。而且,该模型在建模的灵活性方面,提供了多种提升模型拟合度的机会。
尽管多项式回归通过非线性形式展现了自变量和因变量之间复杂的关系,但实际上它所运用的线性回归原理和参数估计的方式却让它属于“线性”模型。在资料分析中,我们经常可以利用这一工具来捕捉更多的信息,并作出更为精确的预测。然而,随着资料分析方法的演进,我们是否需要重新思考传统回归模型的分类及其应用?