在统计学和优化中,误差与残差是两个密切相关、容易混淆的指标,这两者都与观察值与其所谓的「真实值」之间的偏差有关。误差是观察值与某一重要量的真实值之间的偏差,而残差则是观察值与该量的估计值之间的差距。这种区别在回归分析中特别重要,在该领域中,这些概念通常被称为回归误差和回归残差,并引申出学生化残差的概念。
假设我们从单变量分布中观察到一系列数据,并希望估计该分布的均值。在这种情况下,误差是观察值与母体均值之间的偏差,而残差则是观察值与样本均值之间的偏差。
统计误差(或干扰)是观察值与预期值之间的差异。
例如,假设21岁男性的人口平均身高为1.75米,而随机选中的一名男性身高为1.80米,那么该观察的「误差」是0.05米;如果随机选中的男性身高为1.70米,则「误差」为−0.05米。由于整个母体的平均值通常是不可观察的,因此统计误差也无法被观察。
相比之下,残差是对不可观察统计误差的可观察估计。以男性身高的例子为例,假设我们有一个随机样本的n名男性,样本均值可以作为母体均值的合理估计。在此情况下,每名男性的身高与不可观察的母体均值之间的偏差即为统计误差,而每名男性的身高与可观察的样本均值之间的偏差则为残差。值得注意的是,由于样本均值的定义,随机样本内的残差之和必定为零,因此残差并不是独立的。
统计误差是独立的,而它们的和几乎一定不为零。
在回归分析中,误差和残差之间的区别尤为细微和重要。给定一个与自变量和因变量相关的不可观察函数,因变量观察值与这个函数之间的偏差为不可观察的误差。如果执行回归分析,则因变量观察值与拟合函数之间的偏差则为残差。
回归模型的残差应随机分布在零上下,且不应展现出趋势。
如果数据呈现出某种趋势,则回归模型可能是错误的,而如果残差随机分布但呈现「扇形」现象,那么这被称为异方差性。如果所有残差相等,或不呈现扇形,则表现为同方差性。
因此,在进行数据分析时,理解误差与残差之间的差异至关重要。不仅在建立和评估统计模型时需要考虑这些概念,还需要进一步探讨这些差异如何影响实际应用及预测准确度。因此,您是否也在思考如何精确衡量观察到的数据与真实值之间的差异呢?