在統計學和優化中,誤差與殘差是兩個密切相關、容易混淆的指標,這兩者都與觀察值與其所謂的「真實值」之間的偏差有關。誤差是觀察值與某一重要量的真實值之間的偏差,而殘差則是觀察值與該量的估計值之間的差距。這種區別在回歸分析中特別重要,在該領域中,這些概念通常被稱為回歸誤差和回歸殘差,並引申出學生化殘差的概念。
假設我們從單變量分布中觀察到一系列數據,並希望估計該分布的均值。在這種情況下,誤差是觀察值與母體均值之間的偏差,而殘差則是觀察值與樣本均值之間的偏差。
統計誤差(或干擾)是觀察值與預期值之間的差異。
例如,假設21歲男性的人口平均身高為1.75米,而隨機選中的一名男性身高為1.80米,那麼該觀察的「誤差」是0.05米;如果隨機選中的男性身高為1.70米,則「誤差」為−0.05米。由於整個母體的平均值通常是不可觀察的,因此統計誤差也無法被觀察。
相比之下,殘差是對不可觀察統計誤差的可觀察估計。以男性身高的例子為例,假設我們有一個隨機樣本的n名男性,樣本均值可以作為母體均值的合理估計。在此情況下,每名男性的身高與不可觀察的母體均值之間的偏差即為統計誤差,而每名男性的身高與可觀察的樣本均值之間的偏差則為殘差。值得注意的是,由於樣本均值的定義,隨機樣本內的殘差之和必定為零,因此殘差並不是獨立的。
統計誤差是獨立的,而它們的和幾乎一定不為零。
在回歸分析中,誤差和殘差之間的區別尤為細微和重要。給定一個與自變量和因變量相關的不可觀察函數,因變量觀察值與這個函數之間的偏差為不可觀察的誤差。如果執行回歸分析,則因變量觀察值與擬合函數之間的偏差則為殘差。
回歸模型的殘差應隨機分佈在零上下,且不應展現出趨勢。
如果數據呈現出某種趨勢,則回歸模型可能是錯誤的,而如果殘差隨機分佈但呈現「扇形」現象,那麼這被稱為異方差性。如果所有殘差相等,或不呈現扇形,則表現為同方差性。
因此,在進行數據分析時,理解誤差與殘差之間的差異至關重要。不僅在建立和評估統計模型時需要考慮這些概念,還需要進一步探討這些差異如何影響實際應用及預測準確度。因此,您是否也在思考如何精確衡量觀察到的數據與真實值之間的差異呢?