برنامج مستدام ل استخراج بيانات الوظائف من موقع wuzzuf برنامج مستدام ل استخراج بيانات الوظائف من موقع wuzzuf
تفاصيل العمل

قمت بتطوير برنامج مستدام لسحب البيانات وظائف بايثون من موقع wuzzuf ... كان عمل هذا البرنامج يمثل تحدي ، حيث ان اغلب عمليات web scraping مثل wuzzuf تكون لمرة واحدة فقط أو بعد فترة وجيزة يقوم البرنامج بتعطل وذلك بسبب التقنيات التي تتبعها هذه المواقع لمحاربة web scraping مثل : اسماء الكلاسات المتغيرة ، التي تتغير كل فترة و العناصر المضافة ب JavaScript وغيرها. ولهذا توجب اعتماد تقنية خاصة ل عمل web scraping لهذه الموقع.... التقنية: ببساطة تستغل فكرة ثبات هيكل html وتعتمد عليه وعلى ترتيب العناصر بالنسبة للأبناء والآباء . البرنامج مكتوب بلغة بايثون يوجد ملف مرفق باسم "Scraping_Data.xlsx" يحتوي البيانات المسحوبة في فترة عمل البرنامج يوجد ملف مرفق باسم "WUZZUF Scraping.rar" يحتوي السورس كود للبرنامج فيه : ملف document يعبر عن الكود الخام التحضيري لعملية سحب البيانات . ملف myLib يحتوي دوال فيها نفس كودdocument بطريقة مرتبة لكي يتم استخدامه ك مكتبة ملف main الملف التشغيلي للبرنامج ملاحظة : صحيح اني الذكرت ان هذا البرنامج مستدام ولكن في الحقيقة لاشيء مضمون او دائم ، هي فقط طريقة تجعل البرنامج يعمل لأطول فترة ممكنة . وقد يقوم الموقع في يوم ما بالتغلب على هذه التقنية من اجل منع سحب البيانات منه .

شارك
مركز المساعدة