نظام ذكي لتعلّم اللغة: يرتب أهمية الكلمات في الجملة

2 دقائق
الصورة: بيكساباي

صمم باحثو معهد ماساتشوستس للتكنولوجيا الأميركي، نظاماً برمجياً مشتركاً؛ أُطلق عليه اسم «SpAtten»، وهو متخصص بتشغيل آلية الانتباه. يتيح النظام مزيداً من الانسيابية في معالجة اللغة الطبيعية مع طاقة حوسبة أقل، وسيتم تقديم البحث هذا الشهر في ندوة «IEEE» الدولية حول هندسة الكمبيوتر عالية الأداء.

تكمن أهمية الكلمات الرئيسية في آلية الانتباه؛ وهي أداة جديدة لمعالجة اللغة الطبيعية بواسطة أجهزة الكمبيوتر؛ إذ أنه عند دمجها في خوارزمية أوسع لمعالجة اللغة الطبيعية، تستقر آلية الانتباه على الكلمات الرئيسية بدلاً من التعامل مع كل كلمة بنفس الأهمية، وينتج عن ذلك نتائج أفضل في مهام معالجة اللغة الطبيعية؛ مثل اكتشاف المشاعر الإيجابية أو السلبية، أو التنبؤ بالكلمات التي يجب أن تأتي بعد ذلك في الجملة.

حسنت آلية الانتباه معالجة اللغة الطبيعية منذ طرحها في عام 2015؛ إذ أنها مدمجة في نماذج معالجة اللغة الحديثة؛ مثل «Google BERT» و «OpenAI’s GPT-3»؛ فالابتكار الرئيسي لآلية الانتباه هو الانتقائية؛ إذ يمكنها استنتاج الكلمات أو العبارات الأكثر أهمية في الجملة بناءً على المقارنات مع أنماط الكلمات التي واجهتها الخوارزمية سابقاً في مرحلة التدريب.

تتطلب نماذج  معالجة اللغة الطبيعية قدراً هائلاً من طاقة الكمبيوتر، ويرجع السبب في ذلك جزئياً إلى متطلبات الذاكرة العالية لآلية الانتباه؛ وهذا الجزء هو في الواقع عنق الزجاجة لنماذج معالجة اللغة الطبيعية، كما أن أحد التحديات هو عدم وجود أجهزة متخصصة لتشغيل نماذج  معالجة اللغة الطبيعية مع آلية الانتباه؛ ذلك لأن المعالجات الاستهلاكية تواجه مشكلةً في تسلسل آلية الانتباه المعقد لحركة البيانات والحساب، وستزداد المشكلة سوءاً مع ازدياد تعقيد نماذج معالجة اللغة الطبيعية؛ خاصةً للجمل الطويلة.

طوّر الباحثون نظام «SpAtten» لتشغيل آلية الانتباه بشكل أكثر كفاءةً، وأحد التطورات الرئيسية في البرنامج هو استخدامه لـ«التقليم المتسلسل»؛ أي التخلص من البيانات غير الضرورية من الحسابات. بمجرد أن تساعد آلية الانتباه في اختيار الكلمات الرئيسية للجملة؛ التي تسمى الرموز، يقوم البرنامج بإزالة الرموز غير المهمة والعمليات الحسابية وحركات البيانات المقابلة لها، كما تتضمن آلية الانتباه أيضاً فروعاً حسابية متعددة؛ تسمى الرؤوس. وعلى غرار الرموز المميزة، يتم تحديد الرؤوس غير المهمة وتنحيتها بعيداً، وبمجرد الإرسال، لا تدخل الرموز المميزة والرؤوس الدخيلة في حسابات الخوارزمية النهائية؛ مما يقلل من الحمل الحسابي والوصول إلى الذاكرة.

طوّر الباحثون أيضًا تقنية تسمى «التكميم التدريجي» لتقليص استخدام الذاكرة بشكل أكبر؛ تسمح باستخدام البيانات في أجزاء ذات عرض بِت أصغر، وحجز أقل حيّز ممكن من الذاكرة؛ حيث يتم استخدام دقةً أقل للبيانات التي تقابل عرض نطاق أصغر للجمل البسيطة، ويتم استخدام دقة أعلى للجمل المعقدة بديهياً؛ يشبه الأمر إحضار عبارة «cmptr progm» كإصدار منخفض الدقة من «computer program».

على الجانب الآخر، يمكن لـ«SpAtten» جلب معالجة اللغة الطبيعية إلى الأجهزة الشخصية الأصغر؛ إذ يمكن تحسين عمر البطارية للهاتف المحمول أو أجهزة إنترنت الأشياء؛ وهذا مهم بشكل خاص، لأنه في المستقبل، ستتفاعل العديد من أجهزة إنترنت الأشياء مع البشر عن طريق الصوت واللغة الطبيعية؛ لذلك ستكون معالجة اللغة الطبيعية أول تطبيق يُطلب استخدامه.

المحتوى محمي