آلات أكثر مهارة في قراءة لغة الشفاه

شفاه يوماً ما، سيصبح الحاسوب قادراً على قراءة الشفاه بدقة
استمع الى المقالة الآن هذه الخدمة تجريبية
Play Audio Pause Audio

أصبحت برامج المساعدة الرقمية، مثل سيري وأليكسا وغيرها، بارعة في فهم الأسئلة الغريبة التي نوجهها إليها. والآن، قد تصبح هذه البرامج قادرة على فهم ما نقوله حتى بدون سماعنا، وذلك بفضل بحث قدم في مؤتمر IEEE الدولي حول الصوتيات والكلام ومعالجة الإشارة في شنغهاي.

تبدو هذه الفكرة مخيفة إذا استخدمت لأغراض شريرة. وقد أورد الموقع KurzweilAI.net: “هذه نهاية الخصوصية في العالم كما نعرفها الآن…”. ولكن، إذا نظرنا إلى الأمور بتفاؤل أكبر، فقد تسمح لنا التقنيات المتقدمة في قراءة الشفاه بتسهيل عمليات دوبلاج الأفلام، وفقاً لمجلة “سبيكترم” IEEE Spectrum.

إن قراءة الشفاه ليست بالمهمة السهلة بالنسبة للآلة، ويعود هذا بشكل جزئي إلى أن حركة الفم تنتج 14 شكلاً مختلفاً، على حين أن هذه الأشكال تنتج حوالي 50 صوتاً مختلفاً، ما يعني أن نفس الشكل يمكن أن ينتج صوتين مختلفين، مثل حرفي P و B.

يعمل الفريق البحثي تحت قيادة هيلين بير، عالمة الحاسوب في جامعة إيست أنجيلا، وقد قاموا بتطوير خوارزمية جديدة يمكن أن تساعد الآلات على التمييز بشكل أفضل بين هذه الأشكال المتشابهة التي تنتج أصواتاً مختلفة. فقد تم تدريب الآلة على التعرف على الفروقات بين هذه الأصوات باستخدم تسجيل الفيديو والصوت لاثني عشر شخصاً يقولون 200 جملة، كما تم تدريب الحاسوب على حفظ الأصوات المتعددة التي يمكن لكل شكل من أشكال الفم إطلاقها. أما الخطوة التالية، على حد عملنا، هي أن تقوم الآلة بتركيب كلمات من جميع الخيارات الصوتية الممكنة (مثلاً، هل كانت تلك الكلمة pridge أو bridge؟) وتدريب نفسها على إيجاد الكلمة الصحيحة.

النتيجة هي أن الخوارزمية أصبحت تعطي نتائج صحيحة في حوالي 25% من الحالات، ويعتبر هذا تحسناً، وفقاً لما صرحت بيه بير لـمجلة “سبيكترم”. وبما أن دراسة سابقة وجدت أن قراء الشفاه البشر يقدمون نتائج صحيحة في 50% من الحالات، يمكن أن نقول أن الآلات بدأت تدركنا.