Data cleaning in Rstudio Data cleaning in Rstudio
تفاصيل العمل

في هذا التكليف قمتُ بتنظيف ومعالجة بيانات الطول باستخدام لغة R دون تعديل أي قيمة يدويًا. في السؤال الأول تعاملتُ مع متغيّر يحتوي على قيم مختلفة في صيغ غير متجانسة مثل أرقام عشرية، نصوص، رموز مثل "1*71"، وصيغة "174 CM". استخدمتُ أساليب تنظيف البيانات مثل إزالة الرموز غير الرقمية، توحيد الصيغ، واستخراج الأرقام الصحيحة فقط ثم تحويلها إلى السنتيمتر، مع تقريب النتائج بحيث تكون بدون كسور كما هو مطلوب. أما في السؤال الثاني فقد استخدمتُ مجموعة البيانات reported_heights من مكتبة dslabs، وقمتُ بتنفيذ عمليات تنظيف متعددة، منها: استبدال كل الكلمات الدالة على القدم (feet, ft, foot) برمز القدم '، وإزالة جميع الكلمات والرموز المتعلقة بالبوصة (inches, in, ", ''). كما قمتُ بتحويل الصيغ التي تأتي على شكل x.y أو x,y إلى الصيغة القياسية x'y مع مراعاة وجود مسافات أو علامات ترقيم مختلفة. جميع خطوات التنظيف تمت باستخدام تعبيرات منتظمة (regular expressions) لضمان الدقة والاعتمادية وتوحيد تنسيق البيانات بالكامل.

شارك
بطاقة العمل
تقييم المستقل
تاريخ النشر
منذ أسبوع
المشاهدات
14
المستقل
Roaa Elshemy
Roaa Elshemy
محلل بيانات
طلب عمل مماثل
شارك
مركز المساعدة