قمت بتطوير برنامج مستدام لسحب البيانات وظائف بايثون من موقع wuzzuf ...
كان عمل هذا البرنامج يمثل تحدي ، حيث ان اغلب عمليات web scraping مثل wuzzuf تكون لمرة واحدة فقط أو بعد فترة وجيزة يقوم البرنامج بتعطل وذلك بسبب التقنيات التي تتبعها هذه المواقع لمحاربة web scraping مثل : اسماء الكلاسات المتغيرة ، التي تتغير كل فترة و العناصر المضافة ب JavaScript وغيرها.
ولهذا توجب اعتماد تقنية خاصة ل عمل web scraping لهذه الموقع....
التقنية: ببساطة تستغل فكرة ثبات هيكل html وتعتمد عليه وعلى ترتيب العناصر بالنسبة للأبناء والآباء .
البرنامج مكتوب بلغة بايثون
يوجد ملف مرفق باسم "Scraping_Data.xlsx" يحتوي البيانات المسحوبة في فترة عمل البرنامج
يوجد ملف مرفق باسم "WUZZUF Scraping.rar" يحتوي السورس كود للبرنامج
فيه :
ملف document يعبر عن الكود الخام التحضيري لعملية سحب البيانات .
ملف myLib يحتوي دوال فيها نفس كودdocument بطريقة مرتبة لكي يتم استخدامه ك مكتبة
ملف main الملف التشغيلي للبرنامج
ملاحظة : صحيح اني الذكرت ان هذا البرنامج مستدام ولكن في الحقيقة لاشيء مضمون او دائم ، هي فقط طريقة تجعل البرنامج يعمل لأطول فترة ممكنة .
وقد يقوم الموقع في يوم ما بالتغلب على هذه التقنية من اجل منع سحب البيانات منه .