بناء وهندسة بحيرة بيانات (LakeHouse) لرحلات تاكسي نيويورك باستخدام Databricks
تفاصيل العمل
قمت بتصميم وتنفيذ مشروع متكامل لهندسة البيانات الضخمة باستخدام منهجية Medallion Architecture على منصة Databricks، لمعالجة وتحليل بيانات رحلات التاكسي الأصفر في مدينة نيويورك (أكثر من 47 مليون سجل). أبرز المهام التقنية التي قمت بها: هندسة البيانات (Architecting): بناء هيكل بحيرة البيانات (Lakehouse) وتقسيمها إلى ثلاث طبقات (Bronze, Silver, Gold) لضمان تنظيم وتدفق البيانات بكفاءة عالية باستخدام PySpark. نمذجة البيانات (Data Modeling): تصميم نموذج Star Schema للطبقة الذهبية (Gold Layer)، مما ساهم في تحسين أداء الاستعلامات واستخراج مؤشرات الأداء الرئيسية (KPIs) المتعلقة بالإيرادات بسرعة فائقة. أتمتة العمليات (Automation): تطوير مسارات عمل ELT مؤتمتة بالكامل، مع تفعيل بوابات فحص جودة البيانات (Data Quality Gates) باستخدام Databricks Jobs وتقنية Delta Lake. تحليل البيانات الضخمة: إجراء تحليل معمق لأنماط الإيرادات الموسمية وذروة الطلب اليومي (التي وصلت إلى 10 ملايين دولار)، مما ساعد في تحديد أوقات ومناطق الطلب المرتفع بدقة.
مهارات العمل
بطاقة العمل
طلب عمل مماثل