Nel mondo della scienza dei dati esiste un flusso infinito di tecniche di analisi dei dati e uno strumento che sta guadagnando sempre più attenzione è quello dei minimi quadrati parziali (PLS). Questa tecnica non solo è in grado di rivelare correlazioni tra i dati, ma anche di gestire sfide quali il numero di variabili superiore alle osservazioni e la multicollinearità. A differenza dei metodi di regressione tradizionali, il PLS ricerca relazioni nascoste mappando le variabili predittive e le variabili dipendenti in un nuovo spazio.
Il metodo dei minimi quadrati parziali è un metodo statistico particolarmente adatto per risolvere problemi complessi nei dati.
L'idea alla base del PLS è quella di trovare la relazione sottostante tra due matrici, la matrice della variabile indipendente X e la matrice della variabile dipendente Y. Ad esempio, nella chemiometria, questa tecnica è ampiamente utilizzata per analizzare dati chimici allo scopo di stabilire correlazioni tra le caratteristiche dei composti chimici e le loro proprietà. Mappando questi dati in nuove dimensioni, PLS può migliorare il potere predittivo dei modelli di regressione e rivelare strutture nascoste nei dati.
PLS non solo è in grado di gestire dati altamente correlati, ma può anche migliorare le prestazioni del modello individuando la massima covarianza.
Lo sviluppo di questa tecnica può essere fatto risalire allo statistico svedese Herman O. A. Wold, che, insieme al figlio Svante Wold, sviluppò ulteriormente il PLS. Sebbene le sue applicazioni iniziali fossero concentrate principalmente nel campo delle scienze sociali, il suo campo di applicazione si è ormai esteso a molti campi quali la bioinformatica, le neuroscienze, la metrologia sensoriale, ecc.
Il principio di funzionamento del PLS consiste nel trovare la direzione nella matrice delle variabili indipendenti che massimizza la variazione della matrice delle variabili dipendenti. In questo processo, PLS cercherà iterativamente la migliore direzione di proiezione e infine formerà un modello di previsione. Quando vengono incluse più variabili, questo metodo può ridurre efficacemente la dimensione e scoprire relazioni nascoste nei dati.
Il metodo dei minimi quadrati parziali rivela non solo la correlazione superficiale dei dati, ma anche la struttura profonda che la sottende.
In molte applicazioni, il PLS viene utilizzato per prevedere risultati sconosciuti, come la previsione del comportamento dei consumatori, gli studi di associazione gene-malattia, ecc. In questi casi, PLS ottimizza le sue prestazioni predittive analizzando e massimizzando la covarianza tra dati correlati.
Con l'avanzamento della scienza dei dati e della tecnologia informatica, PLS ha anche subito molte espansioni, come l'introduzione di nuovi metodi come OPLS (Orthogonal Projection to Latent Structure) e L-PLS. Queste tecnologie sono molto utili nell'analisi delle relazioni dei dati e nel miglioramento interpretabilità del modello. Ha mostrato un potenziale maggiore.
Sebbene queste nuove tecniche siano progettate per migliorare l'interpretabilità, il loro obiettivo finale è quello di migliorare l'accuratezza predittiva del modello.
Nell'attuale era dei big data, il vantaggio del PLS risiede nella sua capacità di elaborare in modo efficiente dati ad alta dimensionalità, analizzare relazioni complesse come marcatori genetici e caratteristiche di imaging e trovare applicazioni in molteplici campi scientifici. Grazie a questa tecnologia, i ricercatori possono trovare spunti e modelli preziosi in enormi quantità di dati.
Con il continuo progresso della tecnologia e l'espansione delle sue applicazioni, il PLS continuerà a svolgere un ruolo importante nella ricerca futura e nelle decisioni aziendali. Di fronte alle sfide future in materia di dati, dovremmo chiederci quali potenziali relazioni non sono ancora state rivelate.