مع التطور السريع لتكنولوجيا الذكاء الاصطناعي، تم إطلاق Stable Diffusion، وهو نموذج التعلم العميق لتحويل النص إلى صورة، رسميًا في عام 2022 وجذب بسرعة اهتمامًا واسع النطاق في المجتمع. لا يستطيع هذا النموذج الثوري إنشاء صور مفصلة استنادًا إلى أوصاف نصية فحسب، بل يمكن أيضًا تطبيقه على مجموعة متنوعة من المهام الأخرى مثل الرسم الأولي والرسم الخارجي.
وراء الانتشار المستقر هو نتيجة تعاون مشترك بين فريق CompVis في جامعة لودفيج ماكسيميليان في ميونيخ، ألمانيا، والباحثين في Runway. تم تطوير النموذج بدعم من Stability AI ويستخدم كمية كبيرة من بيانات التدريب من المنظمات غير الربحية، مما يجعل هذا الابتكار يعمل على معظم الأجهزة الاستهلاكية، على عكس النماذج المهنية السابقة التي كانت متاحة فقط من خلال الخدمات السحابية. هناك نص إلى نماذج الصور مثل DALL-E و Midjourney في تناقض صارخ.
إن ظهور الانتشار المستقر يمثل ثورة جديدة في مجال الذكاء الاصطناعي، وقد يؤدي إلى طرق إبداعية أكثر ابتكارًا وراحة في المستقبل.
نشأ الانتشار المستقر من مشروع يسمى الانتشار الكامن، والذي طوره باحثون في جامعة لودفيج ماكسيميليان في ميونيخ وجامعة هايدلبيرج. انضم بعد ذلك المؤلفون الأربعة الأصليون للمشروع إلى Stability AI وأصدروا إصدارات لاحقة من Stable Diffusion. أصدر فريق CompVis ترخيصًا فنيًا للنموذج.
يتضمن الأعضاء الأساسيون لفريق التطوير باتريك إيسر من Runway وروبن رومباتش من CompVis، الذي اخترعا إطار عمل نموذج الانتشار الكامن المستخدم في الانتشار المستقر في الأيام الأولى. ويحظى المشروع أيضًا بدعم من EleutherAI وLAION، وهي منظمة ألمانية غير ربحية مسؤولة عن تنظيم بيانات تدريب الانتشار المستقرة.
يستخدم نموذج الانتشار المستقر بنية تسمى نموذج الانتشار الكامن (LDM)، والذي تم اقتراحه في عام 2015 لتدريب النموذج عن طريق إزالة الضوضاء الغاوسية تدريجيًا. تتضمن هذه العملية ضغط الصورة من مساحة البكسل إلى مساحة كامنة أصغر، وبالتالي التقاط المعنى الدلالي الأساسي للصورة.
يتكون الانتشار المستقر من ثلاثة أجزاء: مشفر ذاتي متغير (VAE)، وشبكة U، ومشفر نص اختياري.
يضغط مشفر VAE الصورة في مساحة كامنة، بينما يقوم U-Net بإزالة الضوضاء من التمثيل الكامن الناتج. وأخيرًا، يقوم فك تشفير VAE بتحويل التمثيل إلى مساحة البكسل مرة أخرى. يمكن تعديل خطوة إزالة الضوضاء في هذه العملية بشكل مرن استنادًا إلى النص أو الصور أو الوسائط الأخرى.
تم تدريب StableDiffusion على مجموعة البيانات LAION-5B، وهي مجموعة بيانات عامة مكونة من 5 مليارات زوج من الصور والنصوص تمت تصفيتها حسب اللغة. يمثل الإصدار الأحدث من التدريب، SD 3.0، إصلاحًا كاملاً للهندسة الأساسية، مع بنية تحليل محسّنة وتفاصيل توليد ودقة محسّنة.
يتيح نموذج الانتشار المستقر للمستخدمين إنشاء صور جديدة تمامًا وتعديل الصور الموجودة استنادًا إلى الإرشادات النصية. ومع ذلك، فإن استخدام هذه التكنولوجيا تسبب أيضًا في بعض الجدل فيما يتعلق بالملكية الفكرية والأخلاقيات، خاصة وأن بيانات التدريب الأولية للنموذج تحتوي على كمية كبيرة من المعلومات الخاصة والحساسة. بالإضافة إلى ذلك، نظرًا لأن النموذج يتم تدريبه بشكل أساسي باستخدام البيانات الإنجليزية، فقد تكون الصور الناتجة متحيزة في خلفيات ثقافية مختلفة.
هل ستكون القدرة على تحقيق التوازن بين الانتشار المستقر للتطبيق التكنولوجي والتأثير الاجتماعي قضية يتعين حلها، وهذا اختبار مهم للتنمية المستقبلية؟