Data cleaning in Rstudio
تفاصيل العمل
في هذا التكليف قمتُ بتنظيف ومعالجة بيانات الطول باستخدام لغة R دون تعديل أي قيمة يدويًا. في السؤال الأول تعاملتُ مع متغيّر يحتوي على قيم مختلفة في صيغ غير متجانسة مثل أرقام عشرية، نصوص، رموز مثل "1*71"، وصيغة "174 CM". استخدمتُ أساليب تنظيف البيانات مثل إزالة الرموز غير الرقمية، توحيد الصيغ، واستخراج الأرقام الصحيحة فقط ثم تحويلها إلى السنتيمتر، مع تقريب النتائج بحيث تكون بدون كسور كما هو مطلوب. أما في السؤال الثاني فقد استخدمتُ مجموعة البيانات reported_heights من مكتبة dslabs، وقمتُ بتنفيذ عمليات تنظيف متعددة، منها: استبدال كل الكلمات الدالة على القدم (feet, ft, foot) برمز القدم '، وإزالة جميع الكلمات والرموز المتعلقة بالبوصة (inches, in, ", ''). كما قمتُ بتحويل الصيغ التي تأتي على شكل x.y أو x,y إلى الصيغة القياسية x'y مع مراعاة وجود مسافات أو علامات ترقيم مختلفة. جميع خطوات التنظيف تمت باستخدام تعبيرات منتظمة (regular expressions) لضمان الدقة والاعتمادية وتوحيد تنسيق البيانات بالكامل.
مهارات العمل
بطاقة العمل
طلب عمل مماثل