مشروع ETL يهدف الي تحويل البيانات الخام الي معلومات و رؤي قابله للتحليل
تفاصيل العمل

يهدف المشروع إلى تحويل البيانات الخام الخاصة بالكتب إلى معلومات ورؤى قابلة للتحليل من خلال تنفيذ عملية ETL (Extract, Transform, Load) المتكاملة. فكرة المشروع: تم جمع بيانات الكتب من مصادر متعددة — منها الويب عبر تقنيات Web Scraping بالإضافة إلى ملفات خارجية مثل CSV وExcel — بهدف إنشاء قاعدة بيانات موحدة وشاملة تحتوي على معلومات دقيقة ومنظمة عن الكتب. مراحل المشروع: Extract (الاستخراج): جمع البيانات من عدة مصادر غير متجانسة تشمل المواقع الإلكترونية وقواعد البيانات والملفات المفتوحة. Transform (التحويل): تنظيف البيانات من التكرارات والأخطاء، معالجة القيم المفقودة، وتوحيد التنسيقات (مثل الأسماء والتواريخ والفئات). كما تم توحيد البنية بين الجداول المختلفة لضمان الاتساق في قاعدة البيانات النهائية. Load (التحميل): تخزين البيانات بعد المعالجة في SQL Server كقاعدة بيانات علائقية وMongoDB كقاعدة بيانات غير علائقية، مما يوفر مرونة في التعامل مع البيانات المهيكلة وغير المهيكلة. التحليل والتصور: تم استخدام Power BI لتصميم لوحات تحكم تفاعلية تُظهر رؤى مهمة مثل: توزيع الكتب حسب المؤلف أو السنة أو الفئة. تحليل الاتجاهات والمقارنات بين مجموعات البيانات. التقنيات المستخدمة: Python: (BeautifulSoup, Pandas, وغيرها) لجمع وتنظيف البيانات. SQL Server & MongoDB: لتخزين البيانات. Power BI: لتصميم التقارير ولوحات المتابعة. Jupyter Notebook: لتجريب الأكواد وتحليل البيانات. التحديات والحلول: تنوع صيغ البيانات → تم حلها بالتوحيد والمعالجة المسبقة. القيم المفقودة → تمت معالجتها باستخدام تقنيات الإكمال (imputation). حجم البيانات الكبير → تم التعامل معه بتخزين فعال في قواعد البيانات المختلفة. النتيجة النهائية: تم تحويل بيانات الكتب الخام إلى نظام بيانات موحد، نظيف، وموثوق يمكن استخدامه في التحليل وصناعة القرار.

شارك
بطاقة العمل
تاريخ النشر
منذ شهر
المشاهدات
29
المستقل
طلب عمل مماثل
شارك
مركز المساعدة