تحليل بيانات Google Play Store — تنظيف وهندسة 10,000+ تطبيق
تفاصيل العمل
مشروع تحليل بيانات احترافي على بيانات متجر Google Play (10,841 تطبيق) مع التركيز على معالجة بيانات مُستخرجة من الويب بكل مشاكلها الكلاسيكية: ? تحديات البيانات المعالجة: البيانات جاءت من scraping — أعمدة رقمية مخزنة كنصوص (Installs بها فواصل و+، Price بها $، Size بها M/k)، صف واحد فاسد كلياً، 483 صف مكرر، و13.6% قيم مفقودة في التقييمات. ? التنظيف الشامل: - حذف الصف الفاسد (Category تحتوي على رقم بدلاً من فئة) - إزالة التكرارات مع الاحتفاظ بالإدخال الأعلى تقييماً لكل تطبيق - تحويل 5 أعمدة من نصوص إلى أنواع صحيحة (int, float, datetime) - Imputation ذكي للتقييمات المفقودة بالوسيط المجمّع per Category ⚙️ هندسة المتغيرات (6 متغيرات جديدة): Days_Since_Update، Log_Reviews، Log_Installs (لمعالجة التوزيع الأسي)، Is_Free، Primary_Genre، Min_Android ? التحليل الاستكشافي (11 تصور): - توزيع التقييمات (left-skewed، معظمها فوق 4.0) - 92.7% تطبيقات مجانية — والمدفوعة أعلى تقييماً بفارق طفيف - توزيع التنزيلات بمنحنى power-law (قلة من التطبيقات تهيمن) - أعلى الفئات في عدد التطبيقات والتنزيلات الكلية - تحليل الأسعار للتطبيقات المدفوعة (Median = $2.99) - مصفوفة ارتباط كاملة الأدوات: Python، Pandas، NumPy، Matplotlib، Seaborn المخرجات: dataset منظف جاهز للـ ML (8,190 صف، 21 عمود)
مهارات العمل
بطاقة العمل
طلب عمل مماثل