Dalam psikometrika, validitas isi (juga dikenal sebagai validitas logistik) mengacu pada sejauh mana alat ukur dapat mewakili semua aspek dari suatu konstruk tertentu. Misalnya, jika alat penilaian depresi hanya menilai aspek afektif depresi dan mengabaikan aspek perilaku, validitas isinya akan dipertanyakan.
Ada tingkat subjektivitas dalam menilai validitas isi, yang memerlukan konsensus tertentu pada ciri kepribadian tertentu, seperti ekstroversi.
Validitas isi berbeda dari validitas rupa, yang berkaitan dengan apakah suatu tes tampak valid pada rupa aslinya daripada apa yang sebenarnya diukur oleh tes tersebut. Validitas rupa menilai apakah suatu tes "tampaknya berhasil," biasanya bagi peserta tes yang mengikuti tes, administrator yang memutuskan untuk menggunakan tes, dan pengamat non-teknis lainnya.
Validitas isi memerlukan penggunaan pakar yang diakui di bidang profesional untuk mengevaluasi apakah butir-butir tes dapat sepenuhnya mencerminkan isi yang ditetapkan, dan melakukan uji statistik yang lebih ketat daripada validitas nominal. Validitas isi umumnya diterapkan dalam tes akademik dan kejuruan di mana butir-butir tes harus mencerminkan bidang subjek tertentu, seperti sejarah, atau keterampilan kejuruan, seperti akuntansi.
Dalam lingkungan klinis, validitas isi berkaitan dengan korespondensi antara butir-butir tes dan isi suatu sindrom.
C.H. Lawshe mengusulkan metode yang banyak digunakan untuk mengukur validitas isi. Metode ini pada dasarnya digunakan untuk menilai tingkat kesepakatan antara evaluator atau juri pada butir tertentu. Dalam sebuah artikel tentang pengujian pra-kerja, Lawshe (1975) merekomendasikan agar setiap panelis menjawab pertanyaan berikut untuk setiap butir: "Apakah keterampilan atau pengetahuan yang diukur dengan butir 'penting' untuk kinerja pekerjaan?" 'Berguna tetapi tidak perlu' atau 'tidak perlu'?"
Menurut hipotesis Lawshe, jika lebih dari separuh anggota panel ahli percaya bahwa suatu item "perlu," item tersebut setidaknya memiliki beberapa validitas konten. Tingkat validitas konten meningkat karena lebih banyak penilai yang setuju bahwa suatu item diperlukan.
Berdasarkan asumsi ini, Lawshe mengembangkan rumus yang disebut Rasio Validitas Konten (CVR).
Perhitungan rumus ini adalah sebagai berikut: CVR = (ne - N/2) / (N/2)
, di mana CVR
berarti Rasio validitas konten, ne
adalah jumlah ahli yang menganggap item tersebut "perlu", dan N
adalah jumlah total ahli di panel. Nilai untuk Rumus ini berkisar antara +1 sampai -1, dengan nilai positif yang menunjukkan bahwa setidaknya setengah dari para ahli menganggap proyek tersebut perlu. Rata-rata CVR dari semua item juga dapat dianggap sebagai indikator validitas isi keseluruhan dari tes tersebut.
Lawshe (1975) juga memberikan tabel nilai kritis untuk CVR sehingga teevaluator dapat menilai apakah nilai CVR yang dihitung melebihi ekspektasi peluang berdasarkan jumlah panel ahli. Tabel tersebut dihitung oleh teman Lawshe, Lowell Schipper. Pemeriksaan cermat terhadap tabel publik ini mengungkap sebuah anomali. Dalam tabel Schipper, nilai kritis CVR meningkat secara bertahap ketika jumlah ahli dikurangi dari 40 (minimum = .29) menjadi 9 (minimum = .78), tetapi tiba-tiba menurun pada 8 ahli (minimum = .75), kemudian mencapai batas atasnya (minimum = .99) dengan 7 ahli.
Namun, ketika rumus ini diterapkan pada 8 penilai, hasil dari 7 ulasan "wajib" dan 1 ulasan "lainnya" akan menghasilkan nilai CVR sebesar .75. Jika .75 bukan nilai kritis, maka semua 8 evaluator akan diminta untuk menilai "penting", yang akan menghasilkan CVR sebesar 1,00. Dalam kasus ini, untuk menjaga CVR dalam urutan menaik, nilainya tentu akan menjadi 1,00 dalam kasus 8 evaluator, yang akan melanggar prinsip yang sama karena Anda akan memiliki nilai "sempurna" yang diperlukan untuk 8 evaluator, tetapi tidak ada nilai yang sesuai untuk peringkat lain di atas atau di bawah 8 evaluator.
Wilson, Pan, dan Schumsky (2012) mencoba untuk mengoreksi kesalahan ini, tetapi tidak menemukan penjelasan dalam karya Lawshe, dan tidak ada publikasi oleh Schipper yang menjelaskan cara menghitung tabel nilai kritis. Wilson dan rekan-rekannya menentukan bahwa nilai Schipper mendekati perkiraan normal dari distribusi binomial. Dengan membandingkan nilai Schipper dengan nilai binomial yang baru dihitung, mereka menemukan bahwa Lawshe dan Schipper salah memberi label pada tabel yang mereka terbitkan sebagai uji satu sisi, padahal sebenarnya nilai tersebut mencerminkan nilai uji dua sisi dari distribusi binomial. Selanjutnya, Wilson dan rekan-rekannya menerbitkan perhitungan ulang nilai kritis untuk rasio validitas konten dan menyediakan tabel nilai kritis langkah-satu pada beberapa tingkat alfa.
Validitas konten memainkan peran penting dalam pengujian psikologis karena memastikan bahwa tes tersebut secara akurat menilai konstruk yang diperlukan untuk mencerminkan situasi kehidupan nyata. Karena penggunaan tes dalam berbagai latar menjadi lebih umum, penekanan pada validitas konten dalam dunia profesional dan akademis menjadi lebih jelas. Ketika mempertimbangkan desain tes di masa mendatang, kita harus bertanya pada diri sendiri: Bagaimana validitas konten tes psikologis dapat ditingkatkan secara lebih efektif untuk mendorong penilaian yang lebih akurat?