في الأساس، التوزيع الثنائي هو توزيع عدد النجاحات في سلسلة من تجارب برنولي المستقلة. كل تجربة لها نتيجة ثنائية، إما النجاح (باحتمالية p) أو الفشل (باحتمالية q=1−p). إذا أردنا أن نعرف احتمال الحصول على k نجاح بالضبط من أصل n تجربة مستقلة، فيمكننا استخدام دالة الكتلة الاحتمالية الثنائية. وتجعل هذه الحقيقة التوزيع الثنائي أداة قوية لاختبار الفرضيات والتحليل الإحصائي.
بالنسبة للمتغير العشوائي X، إذا كان يتبع توزيعًا ثنائيًا B(n, p)، فإن احتمال الحصول على k نجاحات بالضبط يُعطى بالعلاقة التالية:
Pr(X = k) = (n اختر k) · p^k · (1 - p)^(n - k)
تظهر هذه الصيغة الاحتمالية التراكمية لجميع المواقف المحتملة التي يحدث فيها k نجاح، بينما يتم استخدام n choose k لحساب معلومات موضع النجاحات في n محاولة.
في هذه الحالة بالذات، يمكننا أن نستنتج أن:
Pr(X = 4) = (6 اختر 4) · 0.3^4 · 0.7^2 ≈ 0.0595.
من نتائج الحساب أعلاه، يمكننا أن نرى أنه على الرغم من أن الاحتمال ليس مرتفعًا، إلا أنه لا يزال من الممكن حسابه من خلال صيغة مناسبة. هذه هي الراحة التي يوفرها التوزيع الثنائي.
بالإضافة إلى دالة كتلة الاحتمال، فإن دالة التوزيع التراكمي للتوزيع الثنائي مفيدة أيضًا. تخبرنا هذه الوظيفة بالاحتمالية الإجمالية لعدم وجود أكثر من k نجاح.
يمكن التعبير عن دالة التوزيع التراكمية على النحو التالي:
F(k; n, p) = Σ (n choose i) · p^i · (1 - p)^(n - i)، حيث يتراوح i من 0 إلى k.
يعد هذا النوع من الحسابات أمرًا بالغ الأهمية للتنبؤ وتقييم المخاطر، وخاصة في سياق البيانات الضخمة والتجارب العشوائية.
إذا ذهبنا خطوة أبعد من ذلك، فإن التوزيع الثنائي لديه بعض الخصائص الإضافية، مثل القيمة المتوقعة والتباين. إذا كانت X ~ B(n, p)، فإن قيمتها المتوقعة E(X) = n · p، وتباينها Var(X) = n · p · (1 - p). تسمح لنا هذه الخصائص بإجراء تنبؤات إحصائية حول عدد النجاحات وتقييم عدم اليقين.
خاتمةومن خلال التحليل أعلاه، ليس من الصعب أن نجد أن احتمال النجاح الذي يعبر عنه التوزيع الثنائي له أهمية بعيدة المدى سواء من الناحية النظرية أو في التطبيق. مع تطور علم البيانات والتعلم الآلي، أصبح نموذج توزيع الاحتمالات هذا أداة يجب على كل من يريد إجراء تحليل البيانات أن يفهمها. هل تعتقد أنه مع توفر المزيد من البيانات، سيصبح التوزيع الثنائي أكثر أهمية؟