مع ظهور نماذج اللغات الكبيرة، زادت أهمية البيانات غير المسماة في التعلم الآلي بشكل كبير. ويسمى هذا النموذج بالتعلم الخاضع للإشراف الضعيف، أو التعلم شبه الخاضع للإشراف. جوهرها هو الجمع بين كمية صغيرة من البيانات التي يحمل علامة بشرية وكمية كبيرة من البيانات غير المسماة للتدريب. وهذا يعني أنه يتم تصنيف جزء فقط من قيم مخرجات البيانات، في حين أن البيانات المتبقية تكون غير مصنفة أو مصنفة بشكل غير دقيق. يوفر هذا الأسلوب حلاً فعالاً لتحقيق الاستفادة الكاملة من البيانات الغنية غير المسماة عندما يكون وضع العلامات مكلفًا ويستغرق وقتًا طويلاً. ص>
في مجال التعلم الآلي الحديث، غالبًا ما تكون تكلفة الحصول على البيانات المشروحة مرتفعة للغاية، مما يجعل من غير العملي الحصول على مجموعات بيانات مشروحة كاملة واسعة النطاق. ص>
عندما يتعلق الأمر بوضع العلامات على البيانات، يفكر العديد من الأكاديميين والمهندسين على الفور في التكلفة العالية التي تنطوي عليها عملية وضع العلامات. وقد تتطلب هذه العملية موظفين متخصصين، مثل نسخ المقاطع الصوتية أو إجراء تجارب فيزيائية للتعرف على ظواهر معينة. لذلك، فإن التعلم شبه الخاضع للإشراف ليس مثيرًا للاهتمام من الناحية النظرية فحسب، بل يوفر أيضًا حلولاً ممكنة لمختلف المشكلات. تصبح هذه أداة قوية للربط بين البيانات المصنفة وغير المسماة. ص>
تفترض تقنية التعلم شبه الخاضع للإشراف وجود علاقة معينة، مما يسمح لها باستخدام كميات كبيرة من البيانات غير المسماة لتحسين أداء التصنيف بشكل ملحوظ. ص>
تفترض تقنية التعلم شبه الخاضع للإشراف القدرة على استخلاص معلومات ذات معنى من التوزيع الأساسي للبيانات. تتضمن هذه التقنيات افتراضات الاستمرارية، وافتراضات التجميع، والافتراضات المتعددة. تساعد هذه الافتراضات على تعلم البنية من البيانات غير المسماة، على سبيل المثال، عندما تكون نقاط البيانات قريبة من بعضها البعض، فمن المرجح أن تحمل نفس التسمية. بالإضافة إلى ذلك، غالبًا ما تشكل البيانات مجموعات منفصلة، لذلك قد تتشارك النقاط الموجودة داخل نفس المجموعة في التسميات. وفي ظل هذا الافتراض، يمكن للتعلم شبه الخاضع للإشراف أن يتعلم الخصائص الجوهرية للبيانات بشكل أكثر كفاءة. ص>
تنص فرضية المتشعبات على أن البيانات غالبًا ما تكون موجودة في متشعبات منخفضة الأبعاد، وهذا الرأي يسمح لعملية التعلم بتجنب لعنة الأبعاد. ص>
يمكن إرجاع تاريخ التعلم شبه الخاضع للإشراف إلى أسلوب التدريب الذاتي في الستينيات. لاحقًا، في السبعينيات، قدم فلاديمير فابنيك رسميًا إطار التعلم التوصيلي وبدأ في استكشاف التعلم المستحث باستخدام النماذج التوليدية. بدأت هذه الأساليب تصبح نقطة ساخنة في البحث النظري وتعزز تطوير التعلم الآلي. ص>
في التطبيقات العملية، تتشابك الأساليب المختلفة لتشكل نظامًا بيئيًا معقدًا نسبيًا. يقوم النموذج التوليدي أولاً بتقدير توزيع البيانات ضمن فئات مختلفة، مما يمكّن النموذج من التعلم بفعالية حتى في حالة عدم وجود بيانات مشروحة كافية. وبالمثل، تحقق طرق الفصل منخفضة الكثافة غرض فصل البيانات المصنفة عن البيانات غير المسماة عن طريق رسم الحدود في المناطق التي تكون فيها نقاط البيانات متناثرة. ص>
في هذه السلسلة من التقنيات، يستخدم التنظيم اللابلاسي تمثيل الرسم البياني لإجراء تعلم البيانات. تربط هذه الرسوم البيانية كل عينة مصنفة وغير مصنفة من خلال التشابه، وتؤكد على الاتصال الداخلي للبيانات من خلال بنية الرسم البياني، وتستخدم أيضًا البيانات غير المسماة لدفع عملية التعلم. ص> <بلوككوت>
من الناحية النظرية، يعد التعلم شبه الخاضع للإشراف نموذجًا يحاكي عملية التعلم لدى الإنسان، مما يجعله جذابًا وعمليًا. ص>
لتلخيص ذلك، فإن ظهور التعلم ضعيف الإشراف يهدف على وجه التحديد إلى حل التحدي المتمثل في ندرة البيانات المصنفة ويوضح الإمكانات الهائلة للبيانات غير المصنفة. مع النمو السريع للبيانات والتطور المستمر لتكنولوجيا التعلم الآلي، قد نحتاج إلى إعادة التفكير: كيف يمكننا الاستفادة بشكل أفضل من إمكانات البيانات غير المسماة في الأبحاث المستقبلية؟ ص>