In statistica, il test del rapporto di verosimiglianza è un metodo di verifica delle ipotesi che confronta l'adattamento di due modelli statistici concorrenti per determinare quale è più coerente con i dati osservati. I due modelli sono solitamente un modello ottenuto massimizzando lo spazio dei parametri globali e un modello su cui vengono imposti dei vincoli. In questo processo, lo scopo del test è utilizzare il loro rapporto di verosimiglianza per determinare se i dati osservati supportano l'ipotesi tra il modello più semplice e il modello complesso. In breve, questo test ci aiuta a identificare i modelli sottostanti nei dati.
L'idea centrale del test del rapporto di verosimiglianza è che se il modello più semplice (ovvero l'ipotesi nulla) è supportato dai dati osservati, la probabilità dei due modelli non dovrebbe differire più dell'errore di campionamento.
Supponiamo di avere un modello statistico nello spazio dei parametri Θ
. L'ipotesi nulla di solito significa che il parametro θ
è all'interno di un certo sottoinsieme Θ₀
, mentre l'ipotesi alternativa significa che θ
è all'interno di Θ₀
Il complemento di codice>, cioè Θ \ Θ₀
. La statistica del test del rapporto di verosimiglianza può essere calcolata come segue:
λLR = -2 ln [ sup
θ∈Θ₀
L(θ
) / supθ∈Θ
L(θ ) ]
Il L(θ)
qui è la funzione di verosimiglianza appena menzionata. Il significato di questa formula è che quando viene stabilita l'ipotesi nulla, il risultato calcolato si avvicinerà alla distribuzione di potenza del chi quadrato, consentendoci di utilizzare questo risultato per la verifica delle ipotesi.
Quando si esegue un test del rapporto di verosimiglianza, i due modelli devono essere annidati, il che significa che il modello più complesso può essere convertito in un modello più semplice imponendo vincoli sui parametri. Molte statistiche di test comuni, come il test Z, il test F, ecc., possono essere espresse utilizzando concetti simili. Se i due modelli non sono annidati, per il rilevamento è possibile utilizzare la loro versione generalizzata.
Supponiamo di avere un campione casuale da una distribuzione normale e di voler verificare se la sua media è uguale a un valore specifico. Ad esempio, supponiamo che l'ipotesi nulla sia H₀: μ = μ₀
e l'ipotesi alternativa sia H₁: μ ≠ μ₀
. A questo punto, possiamo utilizzare la funzione di verosimiglianza per condurre il test e infine ottenere le statistiche pertinenti e quindi stimarne la significatività.
Se l'ipotesi nulla viene rifiutata, significa che l'ipotesi alternativa è più coerente con i dati, altrimenti l'ipotesi nulla non può essere rifiutata.
Il teorema di Wilks afferma che se l'ipotesi nulla è vera, all'aumentare della dimensione del campione, la statistica del test del rapporto di verosimiglianza tenderà ad essere una variabile casuale con una distribuzione chi-quadrato. Ciò ci consente di calcolare il rapporto di verosimiglianza e confrontarlo con il valore chi quadrato corrispondente a uno specifico livello di significatività in una varietà di situazioni ipotetiche, come uno schema di test statistico approssimativo.
Nella vita reale, il test del rapporto di verosimiglianza è ampiamente utilizzato in vari campi, tra cui la biostatistica, le scienze sociali e la psicologia. Scenari applicativi specifici includono la valutazione degli effetti del trattamento sul paziente, l'analisi dei dati ambientali e la previsione delle tendenze del mercato. Tuttavia, con lo sviluppo della scienza dei dati e dell’apprendimento automatico, potremmo dover affrontare ambienti di dati più complessi e incompleti, che sfidano i limiti applicativi dei tradizionali metodi di test statistici.
Quindi, con il progresso della tecnologia, il test del rapporto di verosimiglianza può continuare a svolgere un ruolo chiave nel campo dell'analisi dei dati?