تحليل وتصور بيانات تويتر لـ WeRateDogs تحليل وتصور بيانات تويتر لـ WeRateDogs تحليل وتصور بيانات تويتر لـ WeRateDogs تحليل وتصور بيانات تويتر لـ WeRateDogs
تفاصيل العمل

يتضمن هذا المشروع معالجة وتنظيف وتحليل وتصوراً شاملاً لبيانات تويتر المُجمعة من صفحة WeRateDogs. الهدف هو استخراج رؤى قابلة للتنفيذ حول تفاعل التغريدات، تقييمات الكلاب، ومراحل التصنيف عن طريق تنظيف عدة مجموعات بيانات وإنشاء تقارير مرئية. مصادر البيانات - أرشيف تويتر: twitter_archive_enhanced.csv - توقعات الصور: image_predictions.tsv - بيانات API: tweet_json.txt (تم جمعها عبر Twitter API) الأهداف تحليل التفاعل - الرؤية: فحص العلاقة بين عدد إعادة التغريد (retweet_count) وعدد الإعجابات (favorite_count). - النتيجة: يشير ارتباط إيجابي قوي (r ≈ 0.93) إلى أن زيادة إعادة التغريد يصاحبها زيادة ملحوظة في الإعجابات. توزيع تقييم الكلاب - الرؤية: تقييم توزيع تقييمات الكلاب، حساب مقاييس النزعة المركزية، وفهم الانحراف (التواء التوزيع). - النتيجة: يُظهر الرسم البياني على هيئة هيستوجرام ميلاناً نحو اليسار مع وسيط أعلى من المتوسط (≈10.53) وتقييم أقصى غالباً ما يتجاوز الحد التقليدي 10، مما يعكس شغف المعجبين في تقييم الكلاب. شيوع مراحل الكلاب - الرؤية: تحديد أكثر مراحل التصنيف شيوعاً من بين (doggo، puppo، pupper، floofer). - النتيجة: تُعد مرحلة "pupper" الأكثر انتشاراً بين تعليقات التغريدات. معالجة وتنظيف البيانات القضايا التي تم إصلاحها: - إزالة التغريدات غير الأصلية (الردود وإعادة التغريد). - إزالة روابط URL المكررة في عمود `expanded_urls`. - تصحيح أنواع البيانات للمعرّفات (IDs)، والطوابع الزمنية، وحقول التقييم. - توحيد القيم المفقودة (مثلاً استبدال النص "None" بقيم Null مناسبة) وتصحيح أسماء الكلاب غير المتناسقة. - معالجة القيم الخارجة عن النطاق في حقول البسط والمقام للتقييم. تحسينات النظافة: - دمج الأعمدة ذات الصلة، مثل تجميع أعمدة مراحل تصنيف الكلاب (doggo، puppo، pupper، floofer) في عمود موحد يسمى dog_stage. - إعادة تشكيل جدول توقعات الصور لفصل الوحدات المشاهدة بشكل مستقل. - تم حفظ مجموعات البيانات المنظفة النهائية كالتالي: - twitter_archive_master.csv - image_predictions_master.csv الأدوات والتقنيات - لغة البرمجة: Python 3.x - المكتبات: pandas، numpy، tweepy، requests، re، json، matplotlib، seaborn، warnings - البيئة: Jupyter Notebook للتحليل الاستكشافي وتصور البيانات كيفية الاستخدام 1. تثبيت المكتبات المطلوبة: قم بتثبيت الاعتمادات اللازمة باستخدام الأمر: pip install pandas numpy tweepy requests matplotlib seaborn 2. تحضير البيانات: ضع جميع ملفات البيانات في دليل المشروع. 3. تشغيل التحليل: افتح وقم بتشغيل Jupyter Notebook لمتابعة سير العمل الكامل لعمليات التنظيف، والتحليل، والتصور.

شارك
بطاقة العمل
تاريخ النشر
منذ شهر
المشاهدات
28
المستقل
طلب عمل مماثل
شارك
مركز المساعدة