In psicometria, la "validità di contenuto" (validità del contenuto), o validità logica, si riferisce alla misura in cui uno strumento di misurazione può coprire tutti gli aspetti di un costrutto specifico. Ad esempio, una scala della depressione che valuta solo la dimensione affettiva ma ignora quella comportamentale può essere considerata priva di validità di contenuto. Esiste una certa dose di soggettività nel giudicare la validità del contenuto, che richiede un certo grado di consenso su un particolare tratto della personalità (come l'estroversione). Se vi è disaccordo su un particolare tratto della personalità, non è possibile ottenere un'elevata validità di contenuto.
La validità del contenuto è diversa dalla validità apparente, che si riferisce a ciò che un test sembra misurare piuttosto che a ciò che il test misura effettivamente.
Nelle applicazioni di test, la validità apparente valuta se un test "sembra valido" ai partecipanti, agli amministratori e ad altri osservatori non esperti in materia tecnica. La validità del contenuto, d'altro canto, richiede la mobilitazione di esperti riconosciuti in materia per valutare se gli elementi del test valutano il contenuto definito, e questo processo di valutazione richiede test statistici più rigorosi rispetto alla validità apparente. La validità del contenuto si riscontra più comunemente nei test accademici e professionali, in cui gli elementi del test devono riflettere le reali conoscenze richieste per un'area disciplinare (ad esempio la storia) o un'abilità professionale (ad esempio la contabilità).
Nelle applicazioni cliniche, la validità del contenuto si riferisce alla corrispondenza tra gli elementi del test e il contenuto dei sintomi di una sindrome.
Un metodo ampiamente utilizzato per valutare la validità del contenuto è stato proposto da C. H. Lawshe. Si tratta essenzialmente di un modo per valutare la coerenza dell'importanza che i revisori o i valutatori attribuiscono a un elemento. Lawshe (1975) ha raccomandato che gli esperti in materia (SME) che partecipano alla revisione rispondano alla seguente domanda per ogni elemento: "L'abilità o la conoscenza misurata dall'elemento è 'essenziale' per l'esecuzione del lavoro, 'utile ma non essenziale' ', o 'utile ma non necessario' per l'esecuzione del lavoro?" Secondo Lawshe, se più della metà dei revisori afferma che un elemento è necessario, allora l'elemento ha almeno una certa validità di contenuto. Quando più revisori concordano sulla necessità di un elemento, il grado di validità del contenuto è più elevato.
Utilizzando queste ipotesi, Lawshe ha sviluppato una formula chiamata rapporto di validità del contenuto.
L'espressione di questa formula è:
CVR = (ne - N/2) / (N/2)
Dove CVR sta per rapporto di validità del contenuto, ne è il numero di esperti in materia contrassegnati come "necessari" e N è il numero totale di esperti in materia. Questa formula produce valori che vanno da +1 a -1, con valori positivi che indicano che almeno la metà degli esperti ha valutato l'elemento come necessario. Il CVR medio per gli elementi può essere utilizzato per indicare la validità del contenuto del test complessivo.
Lawshe (1975) ha fornito una tabella di soglie CVR che i valutatori dei test possono utilizzare per determinare la dimensione del CVR calcolato necessario per raggiungere la probabilità prevista di una svolta dato un dato numero di esperti in materia. Uno sguardo più attento a questa tabella pubblicata rivela un'anomalia. Nella tabella di Schipper, il valore critico del CVR aumenta monotonicamente da 40 esperti (minimo = 0,29) a 9 esperti (minimo = 0,78), ma diminuisce improvvisamente a 8 esperti (il valore minimo è 0,75) e il valore più alto viene raggiunto nel caso di 7 esperti (il valore minimo è 0,99). Tuttavia, quando la formula è stata applicata a 8 revisori, i dati di 7 revisori che l'hanno contrassegnata come necessaria e di 1 revisore che l'ha contrassegnata in modo diverso hanno prodotto un CVR di 0,75. Se 0,75 non è il valore critico, sarebbero necessarie 8 persone per contrassegnarli come necessari al fine di ricavare un CVR di 1,00. In questo caso, in ordine crescente di CVR, 8 revisori e il loro valore dovrebbero essere 1,00, il che violerebbe lo stesso principio, poiché il valore "perfetto" per 8 revisori non si applicherebbe ad altri numeri di revisori.
Non è chiaro se questa deviazione dal modello monotono crescente del resto della tabella sia dovuta a un errore di calcolo di Schipper o a un errore di battitura o di composizione. Wilson, Pan e Schumsky tentarono di correggere l'errore nel 2012, ma non riuscirono a trovare una spiegazione nel documento di Lawshe, né esisteva una pubblicazione di Schipper che spiegasse il processo di calcolo della tabella dei valori critici. I ricercatori ritengono che il valore di Schipper sia vicino all'approssimazione normale della distribuzione binomiale. Confrontando i valori di Schipper con i valori binomiali appena calcolati, hanno scoperto che Lawshe e Schipper avevano etichettato erroneamente le tabelle pubbliche come test unilaterali, quando in realtà i valori riflettevano i valori binomiali di un test bilaterale. Successivamente, Wilson e colleghi hanno pubblicato una tabella di valori critici ricalcolati per i rapporti di validità del contenuto, fornendo valori critici a più livelli di significatività.
La discussione approfondita sulla validità del contenuto non solo ha importanti implicazioni per la progettazione dei test, ma promuove anche l'emergere di nuovi modelli di pensiero nella psicometria. Nel frattempo, dovremmo riconsiderare il modo in cui misurare efficacemente l'efficacia dei test, in modo che possano essere applicati in modo più oculato in diverse situazioni della vita reale?