يهدف هذا المشروع إلى تطوير نموذج تصنيف صور باستخدام تقنية ViT (Vision Transformer)، وهي من أحدث الأساليب المعتمدة على المحولات (Transformers) لمعالجة الصور بدلاً من الشبكات العصبية التقليدية (CNNs).
يتضمن المشروع تجهيز بيانات الصور (تنظيفها ومعالجتها)، ثم تقسيم الصور إلى أجزاء صغيرة (patches) وتحويلها إلى تسلسل يتم معالجته بواسطة نموذج Transformer لاستخراج الميزات والتعرف على الأنماط.
بعد التدريب، يتمكن النموذج من تصنيف الصور إلى الفئات الصحيحة بدقة عالية.
كما يشمل المشروع تقييم الأداء باستخدام مؤشرات مثل الدقة (Accuracy) وتقارير التصنيف (Classification Report)، مع تحسين النتائج عبر تقنيات مثل الضبط الدقيق (Fine-tuning) أو زيادة البيانات (Data Augmentation).