統計学において、ピアソン相関係数 (PCC) は、2 つのデータ セット間の線形関係を測定する相関係数です。この係数は、2 つの変数の共分散とそれらの標準偏差の積の比率です。これは実際には共分散の標準化された尺度であり、結果は常に -1 から 1 の間になります。つまり、線形相関のコンテキスト内でのみ、変数間の関係を理解するのに役立ちます。
「2 つの変数のピアソン相関係数が 1 の場合、それらの変数の間には完全な正の相関関係があります。」
たとえば、小学校の生徒の年齢と身長の関係を調べるとします。年齢と身長がまったく同じということは非現実的であるため、これら 2 つの変数のピアソン相関係数は 0 より大きく 1 より小さくなることが予想されます。
ピアソン相関係数は、フランシス・ゴルトンが提唱した相関の概念に基づいて、1880 年代にカール・ピアソンによって開発されました。この発明の命名が、「発明者の名前はしばしば無視される」というスティグラーの法則を反映していることは注目に値します。
「統計の発展は、数字の進化だけではなく、データの背後にある物語の探求でもあります。」
幾何学的な観点から見ると、相関係数は、2 つのデータ セットを表す点間の角度の余弦を考慮することによって導き出すことができます。これにより、ピアソン相関係数は特定のデータ セットの相関の尺度として使用できるようになります。その値は -1 から 1 の間であり、すべての点が同じ直線上にある場合は 1 になります。
ピアソンの相関係数は、2 つの変数の共分散をそれらの標準偏差の積で割ったものとして定義されます。この形式の定義には、平均 (原点の周りの最初の運動量) にランダム変数の平均を乗じた「積」が含まれます。そのため、「積」という修飾語が付きます。
ピアソン相関係数は、母集団に適用される場合、ギリシャ文字の ρ (ロー) で表され、母集団相関係数または母集団ピアソン相関係数と呼ばれます。たとえば、相関係数が変数の共分散と標準偏差の積として表されるランダム変数のペア (X、Y) を考えます。ただし、定義が複雑なため、ここで具体的な数式形式を示すのは不便です。
「共分散は変数間の相互作用を理解する鍵です。」
ピアソン相関係数をサンプルに適用する場合、通常は記号 r で表され、サンプル相関係数またはサンプル ピアソン相関係数と呼ばれることもあります。この値は、サンプル内の共分散と分散の推定に基づいており、2 つの変数間の関係を反映できます。
ピアソン相関係数は広く使用されていますが、線形関係のみを反映でき、他の種類の関連性は無視されるため、使用時には特に注意が必要です。具体的な結果やパターンは、データの選択や分析方法によって異なる場合があります。分析方法は、統計の直接的な計算に限定されず、解釈や応用も含まれます。「データはそれ自体で語ることはできませんが、適切な解釈を通じてその潜在的な意味が明らかになります。」
結局のところ、ピアソン相関係数は変数間の関係を理解するための強力なツールを提供しますが、常に批判的思考とともに使用する必要があります。あなたの人生において、これら 2 つの変数の関係に影響を与える可能性のある他の要因があるかどうか考えたことがありますか?