نموذج ذكاء اصطناعي مع تطبيق ويب لاستخراج الأسماء والكيانات من النصوص العربية
تفاصيل العمل
قمت بتطوير نظام ذكي للتعرف على الكيانات الاسمية (NER) في النصوص العربية، باستخدام نموذج الشبكات العصبية BiLSTM، وهو نموذج فعّال في معالجة سلاسل النصوص واستخلاص السياق من كلا الاتجاهين. مراحل العمل شملت: معالجة البيانات وتجهيزها: استخدمت مجموعة بيانات ANERCorp، وهي مجموعة مخصصة للتعرف على الكيانات باللغة العربية، وتحتوي على وسوم مثل: PER: شخص، LOC: موقع، ORG: منظمة، Misc: متنوع، و O: أخرى. تم تحويل الكلمات والوسوم إلى أرقام، وتطبيق الحشو (padding) لضمان تطابق أطوال الجمل، بالإضافة إلى بعض تقنيات التطبيع وتنقية النصوص لتجهيزها للنموذج. تطوير النموذج: قمت ببناء نموذج يعتمد على طبقات: Embedding Layer لتحويل الكلمات إلى تمثيل عددي كثيف. BiLSTM Layer لاستخلاص السياق من الجملة بشكل ثنائي الاتجاه. TimeDistributed Dense Layer لتوقع الوسوم لكل كلمة. واعتمدت في التدريب على دالة الخسارة Sparse Categorical Crossentropy، وقيّمت النموذج باستخدام مقاييس: الدقة (Accuracy)، الاسترجاع (Recall)، الدقة الإيجابية (Precision)، والـ F1-score، وحقق نتائج مميزة بالنظر إلى طبيعة اللغة العربية. نشر النموذج باستخدام Streamlit: قمت ببناء تطبيق ويب تفاعلي باستخدام Streamlit يتيح للمستخدم: إدخال نصوص عربية واستخراج الكيانات الاسمية منها مباشرة. عرض إحصائيات مرئية (مخططات دائرية وشريطية) لعدد كل نوع من الكيانات. عرض خطوات المعالجة المسبقة للنصوص. تحميل النتائج بصيغة CSV. الاحتفاظ بجلسة المستخدم ونتائج التوقع لسهولة المقارنة. التقنيات والأدوات المستخدمة: Python TensorFlow & Keras Streamlit Pandas & NumPy Matplotlib & Seaborn Arabic Text Preprocessing Techniques للاطلاع على الكود المصدري، يمكن زيارة مستودع المشروع على GitHub عبر رابط العمل.
مهارات العمل
بطاقة العمل
طلب عمل مماثل