استخراج النصوص من الملفات والصور باستخدام: Tesseract OCR و Google vision Api
تفاصيل العمل
استخراج النصوص من المفات والصور باستخدام اداتي: Tesseract OCR و Ghostscript قمت بتطوير حل قوي للتعرف الضوئي على الحروف (OCR) باستخدام مكتبة Tesseract OCR و Ghostscript، مدمجة مع سكربت شيل لمعالجة ملفات PDF. يتميز هذا المشروع بقدرته على تحويل مستندات PDF إلى صور ثم استخراج النصوص منها بدقة، مع دعم كامل للغات العربية والإنجليزية. الميزات الرئيسية: - تحويل PDF إلى صور: استخدمت Ghostscript لتحويل ملفات PDF إلى صور عالية الجودة، مما يضمن دقة استخراج النصوص. - استخراج النصوص عبر OCR: اعتمدت على Tesseract OCR لاكتشاف واستخراج النصوص من الصور المولدة، مع دعم للغتين العربية والإنجليزية، مما يجعل المشروع مرنًا للتعامل مع المستندات متعددة اللغات. - أتمتة باستخدام سكربت شيل: قمت بإنشاء سكربت شيل يقوم بأتمتة العملية بالكامل. من خلال توفير مسار الملف لملف PDF، يتولى السكربت التحويل واستخراج النصوص، مع إخراج النتائج بصيغة سهلة الاستخدام. - دعم متعدد اللغات: تم ضمان أن عملية OCR تكتشف وتستخرج النصوص بدقة باللغتين العربية والإنجليزية، مما يلبي احتياجات المستندات المكتوبة بهذه اللغات. التقنيات المستخدمة: - Tesseract OCR: للتعرف الضوئي على الحروف واستخراج النصوص. - Ghostscript: لتحويل ملفات PDF إلى الصور المناسبة لمعالجة OCR. - سكربت شيل: لأتمتة العملية وتبسيط سير العمل وضمان سهولة الاستخدام. التحديات التي تم التغلب عليها: - قمت بتكوين مكتبة Tesseract OCR بنجاح للتعامل مع النصوص المعقدة باللغة العربية جنبًا إلى جنب مع اللغة الإنجليزية، متغلبًا على التحديات الخاصة بتعرف النصوص حسب اللغة. - تحسين عملية التحويل للحفاظ على جودة الصور، وهو أمر بالغ الأهمية للحصول على نتائج دقيقة من OCR. ========================= تطبيق سطح مكتب لاستخراج النصوص قمت بتطوير تطبيق سطح مكتب باستخدام Python وPyQt5 لتبسيط عملية استخراج النصوص من ملفات PDF والصور. يجمع التطبيق بين اثنتين من أكثر تقنيات التعرف على النصوص دقة: "Tesseract 5" و"Google Cloud Vision API"، مما يمنح المستخدمين حرية اختيار التقنية المناسبة لاحتياجاتهم. المميزات الرئيسية: 1. اختيار الملفات وتحديد الإعدادات: - إمكانية اختيار ملفات PDF أو الصور للمعالجة. - تحديد وجهة حفظ النتائج، واسم الملف، والتقنية المستخدمة لاستخراج النصوص. 2. معالجة الصور لتحسين النتائج: - تحسين دقة التعرف على النصوص من خلال معالجة الصور، مثل تعديل الحجم، وتعزيز التباين، وإزالة الضوضاء. 3. واجهة مراقبة: - متابعة جميع العمليات المقدمة في قائمة الانتظار. - عرض معلومات تفصيلية عن كل عملية، بما في ذلك نسبة التقدم لمراقبة المهام في الوقت الفعلي. يجمع هذا التطبيق بين سهولة الاستخدام والوظائف المتقدمة، مما يجعله أداة موثوقة للمحترفين الذين يحتاجون إلى استخراج النصوص بدقة وكفاءة عالية.
مهارات العمل
بطاقة العمل
طلب عمل مماثل