تحليل البيانات الاستكشافي لمجموعة بيانات تايتانيك
تفاصيل العمل
في هذا المشروع، قمت بإجراء تحليل بيانات استكشافي (EDA) لمجموعة بيانات Titanic باستخدام مكتبات pandas وNumPy، بهدف فهم العوامل المؤثرة على نجاة الركاب. شمل العمل الخطوات التالية: فهم البيانات: استعراض الأعمدة وأنواعها، وفحص القيم المفقودة والمتغيرات العددية والفئوية. تنظيف البيانات: معالجة القيم المفقودة، مثل تعويض العمر بالقيمة المتوسطة، وإزالة الأعمدة غير الضرورية مثل Cabin. التحليل الرقمي: حساب توزيعات المتغيرات، النسب المئوية للنجاة حسب الجنس ودرجة التذكرة، وفحص المتوسطات والانحرافات المعيارية للعمر وقيمة التذكرة. استنتاجات أولية: لوحظ أن الجنس ودرجة التذكرة والعمر وقيمة التذكرة تؤثر على فرص النجاة، وأن الإناث والأطفال لديهم معدل نجاة أعلى. التحضير لبناء النماذج: تحويل المتغيرات الفئوية إلى أرقام وتقسيم البيانات إلى ميزات وهدف. الهدف من هذا التحليل كان فهم البيانات واستخلاص insights رقمية دقيقة قبل تطبيق أي نموذج تعلم آلة، لتسهيل عملية اتخاذ القرارات وصنع النماذج بشكل أفضل.
مهارات العمل
بطاقة العمل
طلب عمل مماثل