Yelp Dataset Cleaning and analysis Yelp Dataset Cleaning and analysis Yelp Dataset Cleaning and analysis Yelp Dataset Cleaning and analysis Yelp Dataset Cleaning and analysis Yelp Dataset Cleaning and analysis Yelp Dataset Cleaning and analysis
تفاصيل العمل

قمت بتنفيذ مشروع متكامل لتحليل البيانات الضخمة باستخدام Apache Spark (PySpark) على Yelp Open Dataset الذي يحتوي على أكثر من 10.2 مليون سجل موزعة على عدة ملفات مترابطة، مما يعكس سيناريو حقيقي لتحليل البيانات على نطاق واسع. المشروع تم تنفيذه عبر ثلاث مراحل رئيسية: Data Ingestion: تحميل ومعالجة البيانات من ملفات JSON متعددة باستخدام Spark وتحويلها إلى DataFrames مع التحقق من الـ schema. Data Cleaning: تنظيف البيانات بشكل احترافي (معالجة القيم الشاذة، القيم المفقودة، توحيد التنسيقات، تصحيح القيم غير المنطقية مثل القيم السالبة في التقييمات، وضمان التكامل المرجعي بين الجداول). Data Analysis: تنفيذ مجموعة من التحليلات لاستخراج Insights قوية، مثل: أكثر المدن نشاطًا من حيث عدد الأنشطة التجارية أكثر التصنيفات انتشارًا وأعلى التصنيفات تقييمًا تحليل سلوك المستخدمين الأكثر نشاطًا توزيع التقييمات واتجاهات رضا العملاء تحليل تطور النشاط عبر الزمن وتأثير الأحداث (مثل COVID-19) قياس التفاعل (Engagement) على مستوى الأنشطة التجارية كما تم استخدام بيئة عمل احترافية تشمل Docker + Spark + JupyterLab، مع تخزين البيانات بعد التنظيف بصيغة Parquet لتحسين الأداء.

مهارات العمل
شارك
بطاقة العمل
تاريخ النشر
منذ يومين
المشاهدات
9
المستقل
طلب عمل مماثل
مهارات العمل
شارك
مركز المساعدة