باختصار
الـ Text-to-Speech (TTS) (تحويل النص إلى كلام) — العكس — بتدّي النظام نص مكتوب وهو يقرأه بصوت بشري طبيعي. النماذج الحديثة بقت بتنتج أصوات صعب تفرّقها عن الإنسان الحقيقي.
بالتفصيل
من يوم ما اتولدت وإنت بتتعلم تسمع وتتكلم — الآلات بتحاول تعمل نفس الحاجة بس بسرعة أكبر.
تقنيات الصوت والكلام من أسرع المجالات نموًا. الـ Text-to-Speech بيخلّي التفاعل مع الآلات أسهل وأطبع — بدل ما تكتب، ممكن تتكلم. ومع تحسّن دقة التعرّف على الكلام بكل اللغات (بما فيهم العربية)، التطبيقات بتتوسّع بسرعة.
مثال عملي
لما بتقول “يا Siri” أو “أوكي Google” لموبايلك، أو لما بتشوف فيلم بترجمة تلقائية — ورا الكواليس فيه تقنيات صوتية زي الـ Text-to-Speech بتحوّل الكلام لنص وتفهمه وتستجيب. حتى تطبيقات الاجتماعات زي Zoom بقت بتلخّص المحادثات تلقائيًا باستخدام التقنيات دي.
مصطلحات مرتبطة
- التعرّف التلقائي على الكلام (Automatic Speech Recognition (ASR))
- فصل المتحدّثين (Speaker Diarization)
- تحسين الكلام (Speech Enhancement)
- تصنيف الصوت (Audio Classification)
- توليد الموسيقى بالذكاء الاصطناعي (Music Generation (Audio AI))
قرمصيص للأخبار أخبار الذكاء الاصطناعي بالعربي