統計学における尤度比検定は、2 つの競合する統計モデルの適合を比較して、どちらが観測データとより一致しているかを判断する仮説検定方法です。 2つのモデルは、通常、グローバルパラメータ空間を最大化したモデルと、制約を課したモデルである。このプロセスでは、検定の目的は、尤度比を使用して、観察されたデータが単純なモデルと複雑なモデルの間の仮説をサポートしているかどうかを判断することです。つまり、このテストはデータ内の根本的なパターンを特定するのに役立ちます。
尤度比検定の中心的な考え方は、より単純なモデル (つまり、帰無仮説) が観察されたデータによってサポートされている場合、2 つのモデルの尤度にはサンプリング誤差以上の差があってはならないということです。
パラメータ空間 Θ
に統計モデルがあるとします。帰無仮説は通常、パラメータ θ
が特定のサブセット Θ₀
内にあることを意味し、対立仮説は θ
が Θ₀ 内にあることを意味します。
code> の補数、つまり Θ \ Θ₀
です。尤度比検定統計量は次のように計算できます。
λLR = -2 ln [ sup
θ∈Θ₀
L(θ
) / supθ∈Θ
L(θ
) ]
ここでの L(θ)
は、先ほど述べた尤度関数です。この式の重要な点は、帰無仮説が確立されると、計算結果がカイ 2 乗分布に近づき、この結果を仮説検定に使用できるようになることです。
尤度比検定を実行する場合、2 つのモデルをネストする必要があります。これは、パラメーターに制約を課すことで、より複雑なモデルをより単純なモデルに変換できることを意味します。 Z 検定、F 検定などの一般的な検定統計量の多くは、同様の概念を使用して表現できます。 2 つのモデルがネストされていない場合は、その一般化されたバージョンを検出に使用できます。
正規分布からのランダムなサンプルがあり、その平均が特定の値に等しいかどうかをテストしたいとします。たとえば、帰無仮説を H₀: μ = μ₀
、対立仮説を H₁: μ ≠ μ₀
とします。現時点では、尤度関数を使用して検定を実行し、最終的に関連する統計を取得して、その有意性を推定できます。
帰無仮説が棄却された場合、対立仮説の方がデータと一致していることを意味します。そうでない場合、帰無仮説は棄却できません。
ウィルクスの定理は、帰無仮説が真である場合、サンプル サイズが増加するにつれて、尤度比検定統計量はカイ二乗分布を持つ確率変数になる傾向があると述べています。これにより、近似的な統計検定スキームとして、尤度比を計算し、さまざまな仮説状況下で特定の有意水準に対応するカイ二乗値と比較することができます。
実生活では、尤度比検定は生物統計学、社会科学、心理学などのさまざまな分野で広く使用されています。具体的なアプリケーションシナリオには、患者の治療効果評価、環境データ分析、市場動向予測などが含まれます。それにもかかわらず、データ サイエンスと機械学習の発展に伴い、私たちはより複雑で不完全なデータ環境に直面する可能性があり、従来の統計的テスト手法の適用限界に挑戦します。
では、テクノロジーの進歩に伴い、尤度比検定はデータ分析の分野で重要な役割を果たし続けることができるのでしょうか?