آخر المقالات

إيه هي الـ Vision-Language Model (VLM)؟ | نموذج رؤية-لغة

باختصار الـ Vision-Language Model (VLM) (نموذج رؤية-لغة) — نموذج AI بيجمع بين فهم الصور وفهم اللغة — يقدر يوصف صور ويجاوب على أسئلة عنها ويحلّل محتواها البصري. بالتفصيل تخيّل إن الكمبيوتر يقدر يشوف ويفهم الصور والفيديوهات زي ما الإنسان بيعمل — بل أحيانًا أحسن. الرؤية الحاسوبية من المجالات اللي حققت تقدم مذهل في السنوات الأخيرة. الـ Vision-Language Model تقنية بتخلّي …

أكمل القراءة »

إيه هو الـ Multimodal AI؟ | الذكاء الاصطناعي متعدد الوسائط

باختصار الـ Multimodal AI (الذكاء الاصطناعي متعدد الوسائط) — نماذج AI بتقدر تفهم وتتعامل مع أنواع مختلفة من البيانات (نص + صورة + صوت + فيديو) في نفس الوقت — زي GPT-4o وGemini. بالتفصيل من كاميرات المراقبة للسيارات ذاتية القيادة — إن الآلة تشوف وتفهم بقى ضروري. الرؤية الحاسوبية من المجالات اللي حققت تقدم مذهل في السنوات الأخيرة. الـ Multimodal …

أكمل القراءة »

إيه هو الـ OCR (Optical Character Recognition)؟ | التعرف الضوئي على الحروف

باختصار الـ OCR (Optical Character Recognition) (التعرف الضوئي على الحروف) — تقنية بتحوّل النص المطبوع أو المكتوب بخط اليد في الصور لنص رقمي قابل للتعديل والبحث. بالتفصيل عينيك بتاخد معلومات من العالم حواليك كل ثانية — الـ Computer Vision بيحاول يدّي الآلات نفس القدرة. الرؤية الحاسوبية من المجالات اللي حققت تقدم مذهل في السنوات الأخيرة. الـ OCR تقنية بتخلّي الآلات …

أكمل القراءة »