Demographic Analysis and Machine Learning
تفاصيل العمل
تعاملت مع بيانات تعداد سكاني تتكون من اكثر من 40000 صف و 15 عمود, وذلك من أجل التنبؤ بمستوى الدخل (أقل من أو يساوي 50 ألف دولار أو أكثر من 50 ألف دولار سنويًا) اعتمادًا على مجموعة من الخصائص الديموغرافية والاجتماعية والاقتصادية. قمت بتنظيف ومعالجة البيانات الناقصة, وعمل تحليل استكشافي EDA, feature engineering, data visualization using seaborn, matplotlib. وأخيرا تنفيذ Machine learning اكثر من نموذج مثل logistic regression, random forest, XGBoost, and neural network وذلك للمقارنة بينهم ورؤية أي نموذج يحقق أعلى دقة ممكنة, وكانت XGBoost أعلى دقة 85%, بينما تترواح النماذج الأخرى من 80% - 82%. مع اضافة SHAP ليبين أي feature عززت التبنؤ الصحيح بالدخل والذي اتضح انه العمر.
مهارات العمل
بطاقة العمل
طلب عمل مماثل