نفذت مشروع تعلم آلي في مجال اكتشاف الأدوية يهدف إلى التنبؤ بقدرة المركبات الكيميائية على اختراق الحاجز الدموي الدماغي (BBBP) اعتمادًا على بنيتها الجزيئية. تم الحصول على بيانات BBBP من منصة Therapeutics Data Commons (TDC)، ثم تحويل تمثيل الجزيئات بصيغة SMILES إلى Morgan fingerprints باستخدام مكتبة RDKit. بعد ذلك تم بناء pipeline منهجية باستخدام مكتبة imbalanced-learn تتضمن StandardScaler و SMOTE لمعالجة مشكلة عدم توازن الفئات مع تجنب تسرب البيانات، وتم تقييم النماذج عبر Stratified K-Fold Cross-Validation.
تم تدريب ومقارنة عدة نماذج من scikit-learn مثل Logistic Regression وSVM-RBF وRandom Forest وGradient Boosting، إضافة إلى نموذج تجميعي Soft Voting Ensemble يعتمد على احتمالات التنبؤ من عدة نماذج. جرى تقييم الأداء باستخدام مقاييس ROC-AUC وPR-AUC وF1-score وBalanced Accuracy، ثم حفظ أفضل نموذج باستخدام joblib لاستخدامه لاحقًا في التنبؤ. كما تم إنشاء مجموعة من الرسوم البيانية لعرض نتائج الأداء، بما في ذلك منحنى ROC، منحنى Precision-Recall، مصفوفة الالتباس، منحنى المعايرة (Calibration Curve)، منحنى التعلم (Learning Curve)، إضافة إلى مقارنة أداء النماذج عبر Cross-Validation.
الأدوات والتقنيات المستخدمة:
Python، scikit-learn، imbalanced-learn، RDKit، TDC، SMOTE، Machine Learning Pipelines، Cross-Validation، Matplotlib، joblib.