تحليل العوامل المؤثرة على الدخل المرتفع (>$50K)
المشروع يهدف إلى دراسة البيانات الديموغرافية للتنبؤ بما إذا كان دخل الفرد السنوي يتجاوز $50K.
نظرة عامة على البيانات
حجم البيانات: 32,561 سجل
توزيع الدخل: 75.9% من الأفراد يكسبون ≤ $50K، و24.1% يكسبون > $50K، ما يشير إلى وجود عدم توازن في فئة الهدف
جودة البيانات: لا توجد قيم مفقودة، وعدد التكرارات قليل جدًا (24 سجل)
أهم محددات الدخل المرتفع (>$50K)
التعليم (Education-num): الأقوى ارتباطًا بالدخل المرتفع (0.335)
أصحاب الشهادات العليا مثل Doctorate، Prof-school، وMasters لديهم أعلى نسب الدخل المرتفع
المهنة (Occupation): أعلى نسب الدخل المرتفع توجد في Exec-managerial وProf-specialty
الحالة الاجتماعية (Marital Status/Relationship): Married-civ-spouse تعتبر المؤشر الأقوى، وبالأخص دور Husband
عوامل إضافية:
السن الأكبر (0.234)
ساعات العمل الأسبوعية (0.229)
المكاسب أو الخسائر الرأسمالية (Capital-gain/loss)
أداء نموذج التعلم الآلي
النموذج المستخدم: RandomForest Classifier
دقة التدريب: 88%
دقة الاختبار: 87%
الاستنتاج: النموذج يمتلك قدرة تنبؤية جيدة على البيانات غير المرئية
الأدوات والتقنيات المستخدمة
التحليل والتنبؤ: Python، Machine Learning، Pandas، Seaborn، Matplotlib
الواجهة الخلفية (Backend): FastAPI لإنشاء API يربط الموديل بصفحة الويب
قاعدة البيانات: تخزين النتائج في ملف CSV
النشر (Deployment): Ngrok لإتاحة صفحة الويب والموديل للاستخدام العام