مت بتنفيذ مشروع تحليل بيانات طبي كامل على مجموعة بيانات حقيقية لأمراض القلب تضم أكثر من 18 متغيراً طبياً، بهدف فهم البيانات عمقياً قبل بناء أي نموذج تنبؤي.
ما تم تنفيذه بالتفصيل:
1 - فحص البيانات واستيعابها
تحديد الأنواع الحقيقية لكل متغير (هل هو رقمي حقاً أم يجب معاملته كفئوي؟)
رصد القيم المفقودة وتصنيف المتغيرات: ثنائية / فئوية اسمية / فئوية رتبية / رقمية مستمرة
2 - التحليل البصري الشامل data visualization
اختيار الرسم البياني الصحيح لكل نوع بيانات مع التبرير الكامل
تحليل التوزيع لكل متغير رقمي: BMI، PhysicalHealth، MentalHealth، SleepTime
كشف الـ Outliers والانحراف (Skewness) في البيانات
مقارنة كل متغير فئوي بالمتغير الهدف HeartDisease باستخدام Grouped/Stacked Bar Charts
تحليل توازن الفئات في المتغير الهدف وأثره على اختيار النموذج ومقاييس التقييم
3 - قرارات المعالجة والترميز Encoding
معالجة القيم المفقودة بأساليب مناسبة طبياً (Median/Mode بدلاً من Mean للبيانات المنحرفة)
ترميز ذكي لكل متغير:
المتغيرات الثنائية → Label Encoding
المتغيرات الاسمية (Race) → One-Hot Encoding
المتغيرات الرتبية (GenHealth، AgeCategory) → Manual Ordinal Encoding مع ترتيب منطقي طبي
4 - التقسيم والتوسيع ومنع تسرب البيانات
استخدام Stratified Split لضمان تمثيل كلا الفئتين في Train/Test مع بيانات غير متوازنة
تطبيق الترتيب الصحيح: Split → Encode → Scale (لتجنب Data Leakage)
اختيار RobustScaler للمتغيرات الرقمية بسبب وجود Outliers في البيانات الطبية
بناء Pipeline كامل باستخدام ColumnTransformer لضمان عدم تسرب البيانات
?️ الأدوات المستخدمة
Python | Pandas | Matplotlib | Seaborn | Scikit-learn | Jupyter Notebook
? ما يميز هذا المشروع
- كل قرار مبرر علمياً وليس تلقائياً
- مراعاة السياق الطبي في اختيار أسلوب المعالجة
- وعي كامل بمخاطر Data Leakage في بيئة Healthcare ML
- كود نظيف وموثق بالتعليقات التوضيحية