ملخص تنفيذي
تم بناء سكربت Python لاستخراج بيانات كتب مكتبة هنداوي العامة بصورة منظمة وقابلة للاستخدام، يشمل العنوان، المؤلف، التصنيف، سنة النشر، الرابط، ووصفًا مختصرًا، مع تنظيف الحقول وتوحيدها وتصديرها إلى CSV/Excel لتحليل سريع أو دمج داخل قواعد بيانات. يعتمد الحل على منهج قانوني يحترم إتاحة المؤسسة للكتب المجانية ويهدف لتسهيل الوصول والتحليل الأكاديمي والثقافي.
المشكلة والهدف
المشكلة: صعوبة جمع بيانات شاملة للكتب من صفحات متعددة مع اختلافات في البنية والتنسيقات، ما يعوق الفلترة والتحليل الموضوعي.
الهدف: أتمتة التجميع في ملف موحد، يتيح تصنيفًا وتحليلًا حسب المؤلفين، الفئات، وسنوات النشر، مع روابط مباشرة للرجوع إلى المصدر.
المنهجية التقنية
التقنية: Python مع requests وBeautifulSoup لاستخراج البيانات، وpandas للتنظيف والتحويل والتصدير، مع ترميز Unicode ومعالجة الحالات الحدّية.
التغطية: تصفح الصفحات والفئات للوصول إلى آلاف الكتب، مع التقاط الحقول الأساسية والمتاحة مثل العناوين، المؤلف، التصنيف، ورابط الكتاب/القراءة.
الاعتمادية: مهلات، إعادة محاولات، والتعامل مع الفواصل الزمنية لتجنب الأخطاء وتقليل ضغط الطلبات على الموقع.
النتائج القابلة للقياس
استخراج أكثر من 3400 سجل كتاب منظم، جاهز للفلترة حسب الفئة/السنة/المؤلف، وتقليل الوقت اليدوي بشكل كبير مقارنة بالتجميع اليدوي.
تحسين جودة التحليل عبر توحيد الحقول وحفظ روابط المصدر، ما يسهّل التحقق والرجوع السريع للمحتوى.
المخرجات والتسليم
ملفات CSV/Excel نظيفة مع توثيق الأعمدة، وخيار تسليم قاعدة SQLite/MySQL حسب الحاجة.
سكربت قابل لإعادة التشغيل مع تعليمات استخدام مبسطة لإعادة الاستخراج أو التحديث الدوري.
المزايا الإضافية
دعم تصفية مسبقة حسب الفئة أو الكاتب عند التشغيل، وخيار تجاهل الكتب المكررة عند التحديثات.
جاهزية للتكامل مع لوحات Power BI لعرض إحصاءات مثل الكتب حسب الفئة أو تطور الإصدارات عبر السنين.
دوري والمهارات
تحليل البنية، بناء الجامع الآلي، تنظيف البيانات، وضبط التصدير، مع اختبار العيّنات والتحقق من الدقة.
المهارات: Python، Web Scraping، Data Extraction، BeautifulSoup، Requests، Pandas، Data Cleaning، Excel/CSV.