هذا المشروع يركز على إعداد، تنظيف، واستكشاف مجموعة بيانات نصية تحتوي على نصوص من البشر ونصوص مولدة بالذكاء الاصطناعي. تم تنفيذ خطوات ETL (استخراج، تحويل، تحميل) لتحضير البيانات وتحسين جودتها. بعد ذلك، تم إجراء تحليل استكشافي للبيانات (EDA) لفهم الأنماط، التوزيعات، والعلاقات بين المتغيرات. كما تم تصميم رسوم بيانية ومخططات تفاعلية لتوضيح النتائج بشكل بصري وسهل الفهم.
المشروع يهدف إلى تقديم بيانات نظيفة ومرئية يمكن استخدامها لاحقًا في مهام تصنيف النصوص، التعلم الآلي، أو البحث الأكاديمي.