In statistica, R-quadrato (R²) è una metrica ampiamente utilizzata per valutare il potere predittivo di un modello di regressione. Il concetto di base di R² è spiegare quanto efficacemente la variabile spiega la variazione della variabile dipendente. Tuttavia, è sconcertante il fatto che spesso si verifichino casi in cui R² supera 1 o scende sotto 0, per cui è necessario approfondire la matematica che sta dietro a tutto questo.
R² è una misura della bontà di adattamento di un modello e idealmente dovrebbe essere compreso tra 0 e 1. Quando questa metrica non rientra in questo intervallo, di solito significa che c'è un problema con il modello.
Per definizione, R² è la proporzione di variazione spiegata. Quando l'adattamento del modello è molto buono, R² è vicino a 1, il che indica che il modello è in grado di prevedere molto bene i risultati del numero di deformazione. Se R² è 0, significa che il modello non riesce a spiegare la variazione e la prestazione di previsione è la stessa della media.
In alcuni casi, R² potrebbe essere inferiore a 0. Ciò accade solitamente quando i risultati previsti sono peggiori di quelli osservati. Ciò può verificarsi, ad esempio, quando il modello utilizzato non si adatta correttamente ai dati o non include un termine di intercettazione. In questo momento, R² è negativo, il che significa che i risultati della previsione dell'adattamento del modello non sono buoni quanto quelli che utilizzano il valore medio dei dati.
Quando R² è minore di 0, ciò indica che il modello scelto potrebbe essere inappropriato o che una previsione più semplice del modello, come l'utilizzo della media, potrebbe essere più predittiva.
È piuttosto raro che R² superi 1, ma può verificarsi in alcune applicazioni del modello. Ciò è dovuto principalmente al metodo di adattamento scelto e alla complessità del modello. Ad esempio, quando vengono utilizzati calcoli errati o le restrizioni vengono applicate in modo inappropriato, l'R² di un modello potrebbe risultare al di fuori dell'intervallo previsto. Spesso ciò è dovuto alla scelta di un modello matematico sbagliato o a ipotesi errate.
R² tende a non diminuire man mano che vengono incluse più variabili nel modello, il che rende probabile che molti modelli siano sovraadattati. Ecco perché R² può sembrare migliorare aggiungendo variabili, ma in realtà potrebbe non aumentare l'effettivo potere predittivo. Per evitare questo fenomeno, l'ideale è utilizzare l'R² aggiustato, che tiene conto del numero di variabili nel modello, rendendo la stima più rigorosa.
L'R² aggiustato tiene conto del numero di variabili e pertanto riflette meglio il vero potere predittivo del modello man mano che vengono aggiunte variabili in futuro.
R² può essere utilizzato per confrontare le prestazioni di diversi modelli, tuttavia, affidarsi esclusivamente a questa singola metrica per prendere decisioni non è sufficiente. Il contesto dei diversi modelli, la natura dei dati e altri test statistici dovrebbero essere tutti considerati in modo esaustivo. Ad esempio, anche se il valore R² è elevato, dobbiamo comunque correggere eventuali errori nelle ipotesi del modello per evitare conclusioni fuorvianti.
ConclusioneR² è uno strumento molto prezioso nella costruzione di modelli, ma il suo valore deve essere interpretato con cautela. In alcuni casi questo indicatore potrebbe essere al di fuori dell'intervallo normale, pertanto è necessaria un'ulteriore riflessione sulle ragioni sottostanti e sulle caratteristiche dei dati. Come possiamo utilizzare e comprendere correttamente questi indicatori statistici per costruire un modello più accurato?