在統計學中,皮爾森相關係數(PCC)是一種測量兩組數據之間線性相關性的相關係數。這個係數是兩個變量的協方差與其標準差的乘積之間的比值,實際上是一種協方差的標準化測量,使得結果始終在−1到1之間。這意味著它可以幫助我們理解變數之間的關聯,但只是局限於線性相關性。
“如果兩個變數的皮爾森相關係數為1,那麼它們之間將有一種完美的正相關性。”
舉例來說,假設我們考察一所小學的學生年齡和身高之間的關係。預期這兩個變量的皮爾森相關係數會大於0,而小於1,因為完全相同的年齡和身高是不現實的。
皮爾森相關係數是由卡爾·皮爾森(Karl Pearson)於1880年代發展而來,這一概念是基於弗朗西斯·高爾頓(Francis Galton)提出的相關理念。值得注意的是,這項發明的命名方式體現了斯提格勒法則(Stigler's Law),即“發明者的名字往往被忽略”。
“統計學的發展不僅是數字的演變,更是對於數據背後故事的探究。”
從幾何學的角度看,相關係數可以通過考慮表示兩組數據的點的角度的餘弦值來推導。這使得皮爾森相關係數可以用來量度特定數據集的相關性,並且其值在−1到1之間,當所有點均位於同一直線上時則為1。
皮爾森的相關係數被定義為兩個變量的協方差除以它們標準差的乘積。這个定義形式涉及一個“積量”,即均值(原點附近的第一個動量)和隨機變量的均值調整后的乘積;因此包含“積量”的修飾詞。
當應用於一個母體時,皮爾森相關係數通常用希臘字母ρ(rho)表示,並稱為母體相關係數或母體皮爾森相關係數。例如,考慮一對隨機變量(X, Y),其相關係數的公式可用變數的協方差與標準差的乘積來表示。然而,由於其定義的復雜性,這裡不便於展示具體的公式形式。
“協方差是理解變數之間相互作用的關鍵。”
當將皮爾森相關係數應用於樣本時,通常用符號r表示,並可稱為樣本相關係數或樣本皮爾森相關係數。這一數值是基於樣本中對協方差和方差的估計而得出的,可以反映兩個變量之間的關係。
儘管皮爾森相關係數被廣泛使用,但是它僅能反映線性關係,忽略了其他類型的關聯,這使得我們在使用它時需要特別小心。特定的結果或模式可能因為數據的選擇或分析方法的不同而有所變化,這不僅限於統計數據的直接計算,還包括解釋和應用。
“數據本身無法說話,而是透過正確的解釋來展現其潛在意義。”
最終,皮爾森相關係數提供了一種強有力的工具來理解變數之間的關係,但在使用過程中,我們應始終保持批判性的思維。你是否考慮過在你生活中,是否有其他影響因素可能影響了兩個變數之間的關係呢?