在統計學中,多項式回歸分析常用於探討自變量和因變量之間的關係。這種關係以自變量的多項式形式被表示,但儘管它看似是非線性的,卻依然被稱為“線性”模型。這種看似矛盾的情況引起了許多數據科學家和統計學家的興趣,究竟為什麼多項式回歸會被歸類為“線性”模型呢?
多項式回歸的歷史可以追溯到1805年,當時法國數學家勒讓德和高斯分別首次提出了最小二乘法,這是一種用於估計回歸模型的常用方法。多項式回歸隨著回歸分析領域的發展,在20世紀也引起了學術界的廣泛注意。在很多情況下,多項式模型能夠簡化複雜的數據集,並提供更加精確的預測。
多項式回歸旨在模型化因變量y的期望值,依賴於自變量x的值,模型形式為y = β0 + β1x + β2x²。
簡單的線性回歸中使用的模型是y = β0 + β1x + ε,這個模型中的隨機誤差ε其平均值條件於變數x等於零。在這種模型中,x的每單位增加會導致y的期望值增加β1單位。然而,很多時候線性關係並不成立,例如在化學合成的情境中,產量隨溫度增加可能以增量的方式上升。在這樣的情況下,我們可以提出二次模型,比如y = β0 + β1x + β2x² + ε。這樣的模型中,當溫度提高時,對產量的影響取決於x的值,這就是為什麼這種看似非線性的關係卻仍可被視為“線性”的原因。
儘管多項式回歸模型的形式是非線性的,根本的原因在於其估計的過程是線性的。具體來說,在多項式回歸模型中,因變量y是基於一系列自變量的多項式形式進行預測的,但這些自變量(x、x²、x³等)在模型中實際上可以被視為不同的獨立變量。在這種情況下,對參數β0、β1...的估計依然是線性的。這使得多項式回歸可以採用處理多重線性回歸的相同方法進行估計。
在多項式回歸中,模型可以以矩陣形式表達為y = Xβ + ε,這為計算帶來方便。
為了計算多項式回歸的系統,首先需要建立設計矩陣X,將各個自變量的值整理在一起。此外,回應向量y和參數向量β也隨著一個隨機誤差向量ε一同結合。這樣的結構使得能夠簡單地表示成一組線性方程,便於後續計算參數的估計。估計的多項式回歸係數可以利用普通最小平方法來獲取,使得計算過程變得高效且精確。
多項式回歸可以應用於許多場景中,尤其是在數據的實際表現和推測並不符合簡單線性關係時。其能夠捕捉到更加複雜的模式,像是生產過程的反應、經濟學中的變數關係等。而且,該模型在建模的靈活性方面,提供了多種提升模型擬合度的機會。
儘管多項式回歸通過非線性形式展現了自變量和因變量之間複雜的關係,但實際上它所運用的線性回歸原理和參數估計的方式卻讓它屬於“線性”模型。在資料分析中,我們經常可以利用這一工具來捕捉更多的信息,並作出更為精確的預測。然而,隨著資料分析方法的演進,我們是否需要重新思考傳統回歸模型的分類及其應用?