تنظيف ومعالجة قواعد البيانات (Data Cleaning) باستخدام Python و Pandas
تفاصيل العمل
وصف المشروع: قمت في هذا المشروع ببناء خط أنابيب (Pipeline) متكامل لتنظيف ومعالجة البيانات باستخدام لغة Python ومكتبة Pandas. الهدف من المشروع هو التعامل مع بيانات غير منظمة (Messy Data) تحتوي على أخطاء وشوائب شائعة في بيئات العمل الحقيقية، وتحويلها إلى بيانات نظيفة ومهيكلة جاهزة للتحليل (Data Analysis) أو الإدخال في قواعد البيانات. المشاكل التي تمت معالجتها برمجياً في هذا المشروع: القيم المفقودة (Missing Values): الكشف عن الخلايا الفارغة في مختلف الأعمدة ومعالجتها بذكاء (إما بملئها بالمتوسط الحسابي للأرقام، أو بقيم افتراضية للنصوص). تنظيف النصوص (Text Standardization): إزالة المسافات الزائدة، وتوحيد حالة الأحرف (Title Case) لأسماء المنتجات والتصنيفات. تنظيف الأرقام (Numeric Extraction): إزالة الرموز والعملات والنصوص المدمجة مع الأرقام (مثل تحويل "$15.50" أو "12g" إلى أرقام صحيحة قابلة للحساب). توحيد التواريخ (Date Formatting): قراءة التواريخ المكتوبة بصيغ مختلفة وعشوائية وتوحيدها إلى صيغة قاعدة البيانات القياسية (YYYY-MM-DD). إزالة التكرار (Deduplication): فحص البيانات وحذف الصفوف المكررة تماماً لضمان دقة الإحصائيات. النتيجة النهائية: استخراج ملف CSV نظيف 100%، وتوليد تقرير جودة (Quality Report) يوضح حالة البيانات قبل وبعد المعالجة. أنا جاهز لاستلام ملفات البيانات الخاصة بك (مهما كانت فوضوية أو كبيرة الحجم) وتسليمها لك نظيفة، مرتبة، وخالية من الأخطاء في أسرع وقت.
مهارات العمل
بطاقة العمل
طلب عمل مماثل