在統計學中,普通最小二乘法(Ordinary Least Squares, OLS)是一種被廣泛應用的線性最小二乘法, 用於選擇線性回歸模型中的未知參數。其基本原理是通過最小化觀察到的因變量與回歸模型預測值之間的平方差之和, 來確定參數的最優估計。
OLS 方法提供了在特定條件下最小方差的無偏估計,這也是它被稱為線性回歸基石的原因之一。
OLS 的幾何意義是將觀察數據點與回歸平面之間的距離(這些距離是沿著因變量的坐標軸垂直方向)平方後求和, 當這些距離的平方和越小時,模型對數據的擬合程度就越好。尤其在簡單線性回歸的情況下,OLS 估計量 可以用簡單的公式表達,這使得它的理解與應用變得更加直觀。
在進一步探討 OLS 的優越性之前,我們首先需要了解其線性模型的基本結構。假設我們有 n 個觀察數據, 每一個觀察包含一個響應變量 y 和一組解釋變量 x 的向量。這些解釋變量可以有多個,且每個回歸係數的 意義在於,它們描述了每個變量對於響應變量的影響程度。這種模型可以簡潔地用矩陣形式表示, 使得計算和解析變得更加高效。
如果自變量之間可以存在完全共線性,那麼 OLS 的估計將無法得出唯一解,而是一系列無限解。
在這樣的線性回歸建模中,如何選擇這些回歸係數 β 才是關鍵。OLS 用於求解的目標是最小化觀察值 y 與模型預測值之間的偏差平方,可以視為求解一個二次最小化問題。這意味著在設計過程中,只要我們 確保設計矩陣的列向量是線性獨立的,我們就能得到唯一的解析解,這就是 OLS 的核心優勢之一。
另值得注意的是,當我們的誤差項被假設為同方差且不相關時,根據高斯-馬可夫定理,OLS 估計量是線性 無偏估計量中最優的。這表示,雖然存在很多種不同的回歸方法,OLS 在這些特定假設下持續表現出 卓越的預測能力和準確性。
透過滿足該模型的基本假設,OLS 把不確定性降到最低,因此成為理論與實務上推薦的回歸方法。
儘管 OLS 在許多情形下表現出色,但也並非沒有局限性。當面臨高維度或共線性的問題時,OLS 估計的穩健性會下降。 此時,研究者可能需要考慮使用正則化技術或其他回歸方法,如嶺回歸或套索回歸等,這些方法能更好地應對參數估計 中出現的多重共線性問題。
最後,當假設誤差服從正態分佈時,OLS 估計量成為極大似然估計量,並且其表現超過任何非線性的無偏估計量。 這樣的特性使 OLS 方法在經濟學、社會科學、自然科學等多個領域普遍被採用,幾乎成為數據分析的 標準工具之一。以至於今天的數據科學家和統計學家都無法忽視 OLS 的存在。
在理解了 OLS 方法的基本原理後,我們是否也應該考慮在我們的數據分析中,適時地挑選更為合適的模型和 方法?這個問題可能會引導我們思考,如何在多樣化的數據環境中做出最好的決策?