قمت بتطوير مشروع متكامل لمعالجة وهندسة البيانات الضخمة (Big Data) يهدف إلى تحويل بيانات رحلات التاكسي الخام إلى نموذج بيانات منظم وقابل للتحليل لدعم اتخاذ القرار.
المراحل التقنية للمشروع:
مرحلة الاستخراج والتنظيف (Extraction & Cleaning): استخدام Pandas للتعامل مع ملفات Parquet ضخمة، معالجة القيم المفقودة، وتنظيف البيانات لضمان دقتها بنسبة 100%.
هندسة البيانات (Data Modeling): تصميم نموذج بيانات Star Schema من خلال تقسيم البيانات إلى جداول أبعاد (Dimension Tables) وجدول حقائق (Fact Table) لتحسين أداء الاستعلامات.
مرحلة التحميل (Data Loading): بناء سكربت أتمتة باستخدام Psycopg2 لرفع البيانات المعالجة إلى قاعدة بيانات PostgreSQL بكفاءة عالية.
التحليل والاستعلام (Analysis): كتابة استعلامات SQL متقدمة (مثل Window Functions) لاستخراج مؤشرات الأداء الرئيسية (KPIs) مثل الإيرادات اليومية والتراكمية.
الهدف المحقق: تحويل أكثر من 2.8 مليون سجل خام إلى قاعدة بيانات منظمة توفر رؤى تحليلية فورية عن أداء العمليات.