باختصار
الـ Automatic Speech Recognition (ASR) (التعرّف التلقائي على الكلام) — تقنية بتحوّل الكلام المنطوق لنص مكتوب — يعني تتكلّم والكمبيوتر يكتب اللي بتقوله، زي ما بيحصل في الإملاء الصوتي.
بالتفصيل
“يا سيري” أو “أوكي جوجل” — ورا الكلمتين دول تقنيات صوتية متقدمة جدًا.
تقنيات الصوت والكلام من أسرع المجالات نموًا. الـ Automatic Speech Recognition بيخلّي التفاعل مع الآلات أسهل وأطبع — بدل ما تكتب، ممكن تتكلم. ومع تحسّن دقة التعرّف على الكلام بكل اللغات (بما فيهم العربية)، التطبيقات بتتوسّع بسرعة.
مثال عملي
لما بتقول “يا Siri” أو “أوكي Google” لموبايلك، أو لما بتشوف فيلم بترجمة تلقائية — ورا الكواليس فيه تقنيات صوتية زي الـ Automatic Speech Recognition بتحوّل الكلام لنص وتفهمه وتستجيب. حتى تطبيقات الاجتماعات زي Zoom بقت بتلخّص المحادثات تلقائيًا باستخدام التقنيات دي.
مصطلحات مرتبطة
- تحويل النص إلى كلام (Text-to-Speech (TTS))
- فصل المتحدّثين (Speaker Diarization)
- تحسين الكلام (Speech Enhancement)
- تصنيف الصوت (Audio Classification)
- توليد الموسيقى بالذكاء الاصطناعي (Music Generation (Audio AI))
قرمصيص للأخبار أخبار الذكاء الاصطناعي بالعربي