في هذا المشروع قمتُ بإجراء تحليل استكشافي لمجموعة بيانات تاريخية تتضمّن معلومات عن الأشخاص وسنوات الميلاد والوفاة والمهن.
بدأتُ بتنظيف البيانات من القيم المفقودة والمكررة، ومعالجة الأعمدة غير المهمة، ثم قمتُ بملء القيم الخالية في الأعمدة الحساسة مثل المهنة والعمر والجنس اعتمادًا على الإحصاءات والوضع العام للبيانات.
بعد ذلك، تعاملتُ مع القيم الشاذة (Outliers) في عمر الوفاة باستخدام المدى بين الربعين (IQR)، ثم أنشأتُ مجموعة من الرسوم البيانية التوضيحية باستخدام مكتبات Matplotlib وSeaborn لعرض النتائج مثل:
توزيع الأعمار حسب الجنس
أكثر المهن شيوعًا
الدول الأكثر تمثيلًا في البيانات
متوسط عمر الوفاة حسب الجنس
التوزيع العام للوظائف حسب النوع
الهدف من التحليل كان تبسيط البيانات الخام وتحويلها إلى رؤى واضحة يمكن الاستفادة منها في فهم الأنماط العامة داخل مجموعة البيانات.