In der Psychometrie bezieht sich die Inhaltsvalidität (auch als logistische Validität bekannt) auf das Ausmaß, in dem ein Messinstrument alle Aspekte eines bestimmten Konstrukts darstellen kann. Wenn beispielsweise ein Depressionsbewertungstool nur die affektiven Aspekte einer Depression bewertet und die Verhaltensaspekte ignoriert, wird seine inhaltliche Gültigkeit in Frage gestellt.
Bei der Beurteilung der Gültigkeit von Inhalten besteht ein gewisses Maß an Subjektivität, was einen gewissen Konsens über ein bestimmtes Persönlichkeitsmerkmal, wie etwa Extraversion, erfordert.
Die Inhaltsvalidität unterscheidet sich von der Gesichtsvalidität, bei der es darum geht, ob ein Test auf den ersten Blick gültig erscheint, und nicht darum, was der Test tatsächlich misst. Die Gesichtsvalidität beurteilt, ob ein Test „zu funktionieren scheint“, in der Regel gegenüber den Testteilnehmern, die den Test absolvieren, den Administratoren, die sich für die Verwendung des Tests entscheiden, und anderen nichttechnischen Beobachtern.
Die Inhaltsvalidität erfordert den Einsatz anerkannter Experten auf dem Fachgebiet, um zu bewerten, ob die Testelemente den definierten Inhalt vollständig widerspiegeln können, und um strengere statistische Tests als die Gesichtsvalidität durchzuführen. Die Inhaltsvalidität wird üblicherweise in akademischen und beruflichen Tests angewendet, bei denen die Testaufgaben einen bestimmten Themenbereich, beispielsweise Geschichte, oder eine berufliche Fähigkeit, beispielsweise Buchhaltung, widerspiegeln müssen.
In einer klinischen Umgebung geht es bei der Inhaltsvalidität um die Übereinstimmung zwischen Testgegenständen und dem Inhalt eines Syndroms.
C.H. Lawshe schlug eine weit verbreitete Methode zur Messung der Inhaltsvalidität vor. Diese Methode wird im Wesentlichen verwendet, um den Grad der Übereinstimmung zwischen Bewertern oder Juroren zu einem bestimmten Punkt zu beurteilen. In einem Artikel über Einstellungstests empfahl Lawshe (1975), dass jeder Diskussionsteilnehmer für jedes Element die folgende Frage beantworten sollte: „Ist die durch das Element gemessene Fähigkeit oder das Wissen ‚wesentlich‘ für die Arbeitsleistung?“ oder „Nützlich, aber nicht notwendig“? 'unnötig'?"
Wenn mehr als die Hälfte der Mitglieder des Expertengremiums glauben, dass ein Artikel „notwendig“ ist, hat der Artikel laut Lawshes Hypothese zumindest eine gewisse inhaltliche Gültigkeit. Der Grad der Inhaltsvalidität steigt, je mehr Bewerter zustimmen, dass ein Element notwendig ist.
Basierend auf diesen Annahmen entwickelte Lawshe eine Formel namens Content Validity Ratio (CVR).
Die Berechnung dieser Formel lautet wie folgt: CVR = (ne - N/2) / (N/2)
, wobei CVR code> bedeutet Inhaltsvaliditätsverhältnis,
ne
ist die Anzahl der Experten, die das Element als „notwendig“ erachten, und N
ist die Gesamtzahl Experten im Gremium. Werte für diese Formel reichen von +1 bis -1, wobei positive Werte darauf hinweisen, dass mindestens die Hälfte der Experten das Projekt für notwendig hält. Der durchschnittliche CVR aller Items kann auch als Indikator für die inhaltliche Gesamtvalidität des Tests angesehen werden.
Lawshe (1975) stellt auch eine Tabelle mit kritischen Werten für CVR bereit, damit Testauswerter anhand der Anzahl der Expertengremien beurteilen können, ob der berechnete CVR-Wert die Zufallserwartungen übertrifft. Die Tabelle wurde von Lawshes Freund Lowell Schipper berechnet. Eine genaue Untersuchung dieses öffentlichen Tisches ergab eine Anomalie. In Schippers Tabelle steigt der kritische Wert der CVR allmählich an, wenn die Anzahl der Experten von 40 (Minimum = 0,29) auf 9 (Minimum = 0,78) reduziert wird, nimmt jedoch bei 8 Experten (Minimum = 0,75) unerwartet ab und erreicht dann den Wert seine Obergrenze (Minimum = .99) bei 7 Experten.
Wenn diese Formel jedoch auf 8 Bewerter angewendet wird, ergibt das Ergebnis von 7 „erforderlichen“ und 1 „anderen“ Bewertungen einen CVR-Wert von 0,75. Wenn 0,75 nicht der kritische Wert wäre, müssten alle acht Bewerter ihn als „wesentlich“ bewerten, was zu einem CVR von 1,00 führen würde. Um den CVR in aufsteigender Reihenfolge zu halten, müsste in diesem Fall sein Wert bei 8 Bewertern zwangsläufig 1,00 betragen, was gegen dasselbe Prinzip verstoßen würde, da man den „perfekten“ Wert hätte, der für 8 Bewerter erforderlich wäre, es aber keinen entsprechenden Wert gibt Werte für andere Bewertungen über oder unter 8 Bewertern.
Wilson, Pan und Schumsky (2012) versuchten, diesen Fehler zu korrigieren, fanden jedoch keine Erklärung in Lawshes Arbeit und keine Veröffentlichung von Schipper, die beschreibt, wie die Tabelle der kritischen Werte zu berechnen ist. Wilson und Kollegen stellten fest, dass der Schipper-Wert nahe an einer normalen Näherung der Binomialverteilung liegt. Durch den Vergleich von Schippers Werten mit neu berechneten Binomialwerten stellten sie fest, dass Lawshe und Schipper die von ihnen veröffentlichten Tabellen fälschlicherweise als einseitige Tests bezeichneten, obwohl die Werte tatsächlich die zweiseitigen Testwerte der Binomialverteilung widerspiegelten. Anschließend veröffentlichten Wilson und Kollegen eine Neuberechnung kritischer Werte für Inhaltsvaliditätsverhältnisse und stellten eine Tabelle mit kritischen Werten in Einheitsschritten auf mehreren Alpha-Ebenen bereit.
Die Inhaltsvalidität spielt bei psychologischen Tests eine entscheidende Rolle, da sie sicherstellt, dass der Test die Konstrukte genau bewertet, die zur Wiedergabe realer Situationen erforderlich sind. Da der Einsatz von Tests in einer Vielzahl von Umgebungen immer häufiger vorkommt, wird die Betonung der Inhaltsvalidität in der beruflichen und akademischen Welt immer deutlicher. Wenn wir über zukünftige Testdesigns nachdenken, sollten wir uns fragen: Wie kann die inhaltliche Validität psychologischer Tests effektiver verbessert werden, um genauere Bewertungen zu ermöglichen?