Nella statistica moderna, il concetto di modelli lineari consente ai ricercatori di comprendere e prevedere le relazioni tra le variabili. Tra questi, il modello lineare generale (GLM) è ampiamente utilizzato nell'analisi di regressione multivariata, mentre la regressione lineare multipla è un caso speciale di questa teoria. Quindi, qual è il collegamento tra i due?
Il modello lineare generale è un modo parsimonioso di rappresentare simultaneamente più modelli di regressione multivariata, il che significa che non è un modello lineare statistico indipendente. In breve, possiamo scrivere diversi modelli di regressione multivariata nella seguente forma:
Y = X * B + U
Qui, Y è una matrice contenente i dati di più variabili misurate, X è la matrice di osservazione delle variabili indipendenti, B è la matrice dei parametri e U è la matrice dell'incertezza o dell'errore. Vale la pena ricordare che di solito si ritiene che questi errori non siano correlati tra le osservazioni e seguano una distribuzione normale multivariata. Se questi errori non seguono una distribuzione normale multivariata, possiamo utilizzare un modello lineare generalizzato (GLM) per allentare le ipotesi su Y e U.
Il significato fondamentale del modello lineare generale è che combina una varietà di modelli statistici diversi, come ANOVA, ANCOVA, MANOVA, MANCOVA, ecc., che gli consentono di gestire più di una variabile dipendente e di fornire un'analisi più completa. In questo senso, la regressione lineare ordinaria è un caso speciale del modello lineare generale, cioè è limitata al caso di una variabile dipendente.
La regressione lineare ordinaria è un modello correlato alla regressione lineare semplice che si concentra sugli effetti di più variabili indipendenti su una singola variabile dipendente.
In particolare, il modello di base della regressione lineare ordinaria è: Yi = β0 + β1 * Xi1 + β2 * Xi2 + ... + βp * Xip + εi. Se consideriamo n osservazioni e p variabili indipendenti utilizzando questa formula, Yi è l'i-esima osservazione della variabile dipendente, mentre Xik rappresenta l'osservazione corrispondente della variabile indipendente, βj è il parametro da stimare e εi è l'i-esimo errore normale indipendente e identicamente distribuito.
Per il modello lineare generale, quando è presente più di una variabile dipendente, entriamo nel campo della regressione multivariata. In questo caso, per ogni variabile dipendente vengono stimati i parametri di regressione corrispondenti, quindi dal punto di vista computazionale si tratta in realtà di una serie di regressioni lineari multiple standard, tutte basate sulle stesse variabili esplicative.
Il modello lineare generale presuppone che i residui seguano una distribuzione normale condizionata, mentre il modello lineare generalizzato allenta questa ipotesi per consentire una serie di altre distribuzioni.
Guardando più a fondo, un'importante differenza tra i modelli lineari generali e i modelli lineari generalizzati (GLM) è che i GLM consentono una gamma più ampia di distribuzioni residue, scegliendo dalla famiglia di distribuzioni esponenziali, come la regressione logistica binaria, la regressione di Poisson, ecc. L'importanza di questa critica è che, quando si trovano di fronte a diversi tipi di variabili di esito, i ricercatori possono scegliere il modello appropriato per ottenere il miglior effetto predittivo.
Ad esempio, si può osservare l'applicazione di modelli lineari generali nell'analisi dei dati di scansioni cerebrali, dove Y potrebbe essere costituito dai dati delle scansioni cerebrali e X dalle variabili nel disegno sperimentale. Questi test vengono solitamente eseguiti in modo univariato, denominato in questo contesto analisi univariata di massa, e sono spesso utilizzati negli studi di mappatura statistica parametrica.
In sintesi, la regressione lineare ordinaria è correlata al modello lineare generale come famiglia e ai suoi casi speciali, concentrandosi su come passare da semplici osservazioni a complesse relazioni multivariate. Con il progresso delle tecniche di analisi statistica, comprendere i tesori nascosti in questi modelli diventerà parte integrante del lavoro di ricerca. Tuttavia, in un simile trend di sviluppo, dovremmo forse chiederci: hai sfruttato appieno questi strumenti statistici per influenzare la tua ricerca e il tuo processo decisionale?