تحليل وتنظيف بيانات سوق الأسهم السعودي (Tadawul) وبناء نماذج تنبؤ | Python & Machine Learning
تفاصيل العمل
في هذا المشروع قمت بتحليل ومعالجة بيانات حقيقية لسوق الأسهم السعودي Saudi Stock Exchange (Tadawul) – TASI Stock Prices منذ عام 2000 تم الحصول على البيانات من منصة Kaggle، وتحتوي على أكثر من 60,000 صف من البيانات التاريخية لعدد كبير من الشركات والقطاعات. الهدف من المشروع كان بناء Pipeline متكاملة تشمل: • تنظيف وتجهيز البيانات (Preprocessing) • تحليل البيانات واستخراج مؤشرات قطاعية • بناء نماذج تعلم آلي للتنبؤ أولاً: مرحلة تنظيف البيانات (أهم وأصعب مرحلة): نظرًا لأن البيانات حقيقية وغير مجهزة مسبقًا، كانت مرحلة التنظيف من أهم وأصعب مراحل المشروع، خاصة مع كِبر حجم البيانات وتعدد الشركات والقطاعات. تم استخدام Python لتنفيذ: • حذف القيم المكررة (Duplicate Records) • التعامل مع القيم المفقودة (Null Values) لكل عمود على حدة (Open / Close / Volume / Value) • تحليل القيم الصفرية (Zeros) والتفرقة بين القيم المنطقية وغير المنطقية • الكشف عن القيم الشاذة (Outliers) باستخدام أساليب إحصائية • التحقق من أنواع البيانات وصحة التنسيق (Data Type Validation) تم التعامل مع كل شركة وكل عمود بشكل منفصل لضمان دقة مرحلة الـ Preprocessing وعدم التأثير على التحليل أو النماذج لاحقًا. هذه المرحلة كانت أساسية لضمان جودة النتائج وبناء نماذج دقيقة. ثانيًا: مرحلة تحليل البيانات (EDA): بعد تجهيز البيانات، تم تنفيذ تحليل استكشافي لاستخراج مؤشرات مهمة عن السوق: التحليلات التي تم تنفيذها: • عدد الشركات في كل قطاع (Number of Companies per Sector) • إجمالي حجم التداول لكل قطاع (Total Trading Volume) • إجمالي قيمة التداول لكل قطاع (Total Trading Value) • أفضل 10 شركات في سوق تداول السعودي بناءً على الأداء وسيتم إرفاق صور الرسوم البيانية المستخدمة في التحليل ضمن معرض الأعمال. هذه التحليلات تعكس القدرة على استخراج رؤى حقيقية من بيانات مالية كبيرة. ثالثًا: بناء نماذج Machine Learning: بعد اكتمال مرحلة التنظيف والتحليل، تم اختيار شركة واحدة لبناء نموذج تنبؤ يعتمد على بياناتها التاريخية. تم بناء نموذجين: 1️⃣ التنبؤ بسعر الإغلاق (Predict Close Price) 2️⃣ التنبؤ بقيمة التداول (Predict Value of Trades) تم تنفيذ: تقسيم البيانات إلى Training و Testing تدريب النموذج على البيانات التاريخية تقييم الأداء وتحليل النتائج التأكد من عدم وجود Data Leakage الأدوات والتقنيات المستخدمة: Python Pandas & NumPy Matplotlib / Seaborn Scikit-Learn Data Validation & Cleaning Pipelines
مهارات العمل