تركز صلاحية الوجه على ما إذا كان الاختبار يبدو "ناجحًا" بالنسبة للمتقدمين للاختبار، والمسؤولين، وغيرهم من المراقبين غير المتمرسين من الناحية التقنية. على سبيل المثال، عندما يرى المرشحون مادة ما، هل يعتقدون أنها تختبر معرفتهم أو مهاراتهم؟ في المقابل، تتطلب صلاحية المحتوى استخدام مراجعي محتوى محترفين لتقييم ما إذا كانت عناصر الاختبار تعكس المحتوى المحدد، وتتطلب أيضًا اختبارات إحصائية أكثر صرامة من صلاحية الوجه. غالبًا ما يتم الاستشهاد بصلاحية المحتوى في سياق الاختبارات الأكاديمية والمهنية لأن عناصر الاختبار يجب أن تعكس المعرفة المطلوبة لمجال مهني معين (على سبيل المثال، التاريخ) أو مهارة وظيفية (على سبيل المثال، المحاسبة). في البيئة السريرية، تشير صلاحية المحتوى إلى المراسلات بين عناصر الاختبار ومحتوى المرض.تختلف صحة المحتوى عن صحة الظاهر. تقوم صلاحية المظهر فقط بتقييم ما إذا كان الاختبار يبدو صالحًا أم لا، لكنها لا تعكس فعليًا ما يقيسه.
إن طريقة قياس صحة المحتوى التي اقترحها لاوشي تقوم بشكل أساسي على تقييم درجة الاتفاق بين المقيمين، ولا تزال هذه الطريقة مستخدمة على نطاق واسع حتى يومنا هذا.
طريقة شهيرة اقترحها لاوشي في عام 1975 لتقييم آراء المراجعين حول ما إذا كان المشروع "ضروريًا". وفقًا لـ Lawshe، يجيب كل مراجع خبير على السؤال الخاص بكل عنصر اختبار: "هل المهارة أو المعرفة التي يقيسها العنصر "أساسية"، أو "مفيدة ولكنها ليست أساسية"، أو "غير ضرورية"؟" إذا كان أكثر من نصف المراجعين يعتقدون أن العنصر ضروري، فهذا يعني أن العنصر يتمتع بدرجة معينة على الأقل من صحة المحتوى. وبما أن عدد المراجعين الذين يتفقون على ضرورة عنصر ما يزداد، فإن درجة صحة المحتوى تزداد تبعاً لذلك. وبناء على ذلك، قام لاوشي بتطوير صيغة أطلق عليها اسم نسبة صحة المحتوى.
يتم حساب نسبة صحة المحتوى بين +1 و -1، حيث تشير القيم الإيجابية إلى أن نصف المراجعين الخبراء على الأقل يعتبرون العنصر مطلوبًا.
وفي مزيد من الاستكشاف لطريقة لاوشي، وجد الباحثون بعض الاختلافات غير العادية في الحد الأدنى المطلوب لنسبة صلاحية المحتوى عند استخدام ثمانية مراجعين. وقد جذبت هذه الظاهرة انتباه علماء مثل ويلسون، وبان، وشومسكي، الذين اقترحوا إعادة تقييم هذه القيم في عام 2012. وبمقارنة قيم التوزيع الثنائي التي حسبوها مع قيم شيبر، وجد الباحثون أن الجدول الذي حدده لاوشي وشيبر كان في الواقع نتيجة اختبار ذي ذيلين، ولكن تم تسميته خطأً كاختبار ذي ذيل واحد، مما تسبب في حدوث ارتباك حول القيم الأصلية. مثل هذه الأخطاء تجعل القيم الحرجة لنسب صحة المحتوى غير متسقة عند حسابها باستخدام أعداد مختلفة من المراجعين.
ولذلك، فإن إعادة تقييم نسب صحة المحتوى أمر بالغ الأهمية. وتوفر عملية إعادة الحساب هذه معلومات قيمة تسمح لنا بفحص أهمية وتأثير صحة المحتوى ضمن إطار جديد من الفهم. لا تكشف هذه السلسلة من الدراسات عن التحيزات المحتملة في تصميم الاختبار وتقييمه فحسب، بل إنها تدفع المجتمع الأكاديمي أيضًا إلى التفكير في موثوقية وصلاحية قياس المحتوى.
من الناحية النظرية إلى التطبيق العملي، فإن نسبة صلاحية المحتوى الخاصة بـ Lawshe ليست مجرد مجموعة من الأرقام، بل هي أيضًا ضمان بأن الاختبار الذي نستخدمه يمكن أن يعكس حقًا سمات الشخصية أو المعايير السلوكية التي نهتم بها.
عند مناقشة قضية صحة المحتوى، لا يسعنا إلا أن نسأل، كيف يمكننا إيجاد التوازن بين الذاتية والموضوعية، وبالتالي تحسين ثقتنا في نتائج الاختبار؟