تحليل استكشافي لبيانات كارثة تيتانيك
تفاصيل العمل
إجراء تحليل استكشافي شامل لبيانات ركاب سفينة تيتانيك بهدف الكشف عن الأنماط والعوامل التي أثرت في نجاة الركاب أثناء الكارثة. يهدف المشروع إلى استخلاص رؤى ذات مغزى من البيانات باستخدام الرسوم البيانية والإحصائيات الوصفية. مجموعة البيانات: تم استخدام مجموعة بيانات تيتانيك المتاحة للعموم (من مستودع GitHub)، والتي تحتوي على معلومات عن 891 راكبًا، بما في ذلك السمات التالية: العمر، الجنس، درجة السفر، الأجرة، المقصورة، ميناء الصعود، وحالة النجاة. تُعد هذه المجموعة مرجعًا كلاسيكيًا لتعلم تحليل البيانات وتعلم الآلة. المنهجية: تحميل البيانات وفحصها الأولي: تم تحميل البيانات باستخدام مكتبة pandas، وفحص المعلومات الأساسية (أنواع البيانات، القيم المفقودة، الإحصائيات الموجزة) لفهم بنية البيانات. تنظيف البيانات: تحديد القيم المفقودة في الأعمدة الرئيسية (مثل العمر، المقصورة، ميناء الصعود). حذف الصفوف التي تحتوي على قيم مفقودة لضمان نقاء البيانات المستخدمة في التحليل. إزالة السجلات المكررة. التحليل الاستكشافي للبيانات: إجراء تحليل أحادي وثنائي المتغيرات لاستكشاف توزيع كل سمة وعلاقتها بالنجاة. استخدام الرسوم البيانية المتنوعة مثل المخططات الشريطية، مخططات العد، مخططات الكمان، المخططات النقطية، والرسوم الفرعية باستخدام مكتبتي Matplotlib و Seaborn. الرسوم البيانية: توزيع الناجين مقابل غير الناجين. معدل النجاة حسب الجنس، درجة السفر، وميناء الصعود. توزيع الأعمار مقسمًا حسب درجة السفر والنجاة. العلاقة بين العمر، الأجرة، والنجاة. استخلاص الرؤى: تم تلخيص الأنماط الرئيسية بناءً على الاستكشاف البصري والإحصائي. النتائج والرؤى: كان معدل النجاة الإجمالي منخفضًا (حوالي 38٪ فقط من الركاب نجوا). الجنس: كان معدل نجاة الإناث أعلى بكثير من الذكور. درجة السفر: نجا ركاب الدرجة الأولى بمعدل أعلى بكثير من ركاب الدرجتين الثانية والثالثة. العمر: كانت فرص نجاة الأطفال أفضل مقارنة بالبالغين. الأجرة: ارتبط ارتفاع الأجرة بزيادة احتمالية النجاة. ميناء الصعود: الركاب الذين صعدوا من ميناء شيربورج (C) كانت معدلات نجاةهم أعلى من أولئك الذين صعدوا من ساوثهامبتون (S) أو كوينزتاون (Q). الخلاصة: يؤكد التحليل أن النجاة في تيتانيك تأثرت بشدة بالوضع الاجتماعي والاقتصادي (الدرجة، الأجرة)، الجنس، والعمر. تتوافق هذه النتائج مع السرد التاريخي الذي يشير إلى أن النساء والأطفال وركاب الدرجة الأولى حظوا بالأولوية أثناء الإخلاء. يُظهر المشروع قوة التحليل الاستكشافي للبيانات في الكشف عن أنماط ذات مغزى من البيانات الأولية. التقنيات المستخدمة: Python (مكتبات pandas, numpy) Matplotlib و Seaborn (للرسوم البيانية) Jupyter Notebook (بيئة التطوير)
مهارات العمل
بطاقة العمل
طلب عمل مماثل