إيه هي الـ Vision Transformer (ViT)؟ | محوّل الرؤية

باختصار

الـ Vision Transformer (ViT) (محوّل الرؤية) — تطبيق الـ Transformer على الصور — بدل ما نستخدم شبكات CNN التقليدية، بنقطّع الصورة مربّعات صغيرة ونعاملها زي كلمات في جملة، وده غيّر عالم رؤية الكمبيوتر.

بالتفصيل

تخيّل إنك بتبني مصنع — كل قسم فيه وظيفة معينة وبيتعاون مع الأقسام التانية. الشبكات العصبية بتشتغل بنفس المبدأ.

اختيار المعمارية الصح بيفرق كتير في أداء النموذج. الـ Vision Transformer معمارية أو مكوّن بيأثر على إزاي النموذج بيعالج البيانات. الباحثين في شركات زي Google وMeta بيطوّروا معماريات جديدة كل سنة، وكل واحدة بتحاول تحل مشاكل المعماريات القديمة — سواء في السرعة أو الدقة أو استهلاك الذاكرة.

مثال عملي

نماذج زي ChatGPT وStable Diffusion وWhisper كلها مبنية على معماريات مختلفة. الباحثين بيجرّبوا تصميمات جديدة باستمرار — وكل معمارية ليها نقاط قوة وضعف. الـ Vision Transformer واحد من التصميمات أو المكونات اللي بتحدد إزاي النموذج بيعالج البيانات وبيطلع نتايج.

مصطلحات مرتبطة

شاهد أيضاً

إيه هو الـ TruthfulQA؟ | اختبار صدق الإجابات

باختصار الـ TruthfulQA (اختبار صدق الإجابات) — اختبار بيقيس مدى صدق إجابات النموذج — بيسأل …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *