برنامج «SEER»: الفيسبوك يطلق نظامه الخاص لتسجيل الصور

ما هو نظام SEER؟

في الوقت الذي تعتمد فيه العديد من إصدارات الذكاء الاصطناعي على مجموعات البيانات المحددة مسبقاً للتعرف على الصور، طوّر فيسبوك نظام «SEER»؛ وهو حل قائم على التعلم العميق، قادر على تسجيل الصور على الإنترنت بشكل مستقل عن مجموعات البيانات المنسقة والمصنفة، وأعلنت الشركة عن ذلك في بيانٍ نُشر على مدونتها الخاصة بالذكاء الاصطناعي.

مع التطورات الرئيسية الجارية بالفعل في معالجة اللغة الطبيعية؛ بما في ذلك الترجمة الآلية والتداخل الطبيعي للغة والإجابة على الأسئلة، يستخدم «SEER» نموذجاً مبتكراً لرؤية الكمبيوتر؛ قائم على مليار متغير قادر على التعلم من أي صورة عبر الإنترنت.

اختبر فريق فيسبوك النظام على مليار صورة عامة غير منسقة، أو مُدرجة تحت أية تصنيف على إنستغرام، وكان أداء البرنامج الجديد أفضل من أكثر الأنظمة ذاتية الإشراف تقدماً، بالإضافة إلى النماذج ذاتية الإشراف في المهام النهائية؛ مثل اللقطة المنخفضة، واكتشاف الأشياء، واكتشاف الصور، والتجزئة.

في الواقع، أدى التعرض لـ10% من مجموعة بيانات «ImageNet» إلى معدل تعرّف بنسبة 77.9% بواسطة «SEER»، كما حصل البرنامج على معدل دقة 60.5% عند تدريبه على 1% فقط من نفس مجموعة البيانات.

الآن بعد أن شهد فيسبوك قدرة «SEER» على التعرف على صور الإنترنت في بيئة تطبيقية، يشجع فريق المطورين والأطراف المهتمة الأخرى في مجال التعلم الآلي، على مشاركة الأفكار؛ من أجل التحسين والمعرفة فيما يتعلق بقدرات البرنامج، كما فتحت الشركة هذه المناقشة من خلال مكتبتها مفتوحة المصدر؛ «VISSL»؛ المستخدمة لتطوير «SEER».

يختلف التعلم الآلي للغة مقابل التعرف البصري. على سبيل المثال، يتطلب علم اللغة برنامجاً للتعرّف على العلاقة الدلالية بين الكلمة وتعريفها المقابل، بينما من ناحية أخرى، يجب أن تستطيع رؤية الكمبيوتر، التمييز بين مجموعة البكسلات الفردية والصورة المكتملة، وتتعامل تقنية الرؤية الناجحة مع هذا التحدي باستخدام طريقتين؛ أولاهما هي خوارزمية تتدرب على استخدام عدد كبير من الصور العشوائية عبر الإنترنت دون تعليقات توضيحية أو بيانات وصفية، والثانية هي شبكة كبيرة بما يكفي لالتقاط وتعلم كل مكوّن مرئي من مجموعة البيانات المعنية .

من أجل التخفيف من التحديات المتعلقة بسعة الحوسبة لمثل هذه الكميات الكبيرة من الرسومات، طوّر فريق الذكاء الاصطناعي في فيسبوك خوارزمية «SwAV»؛ إذ تستخدم هذه الخوارزمية التجميع عبر الإنترنت لتجميع الصور ذات المفاهيم المرئية المتشابهة بسرعة؛ من أجل تحديد البيانات المرئية المماثلة التي ستتم مواجهتها لاحقاً، وحتى الآن، ساعدت ساعدت «SwAV» برنامج «SEER» في الأداء بتحقيقه النتائج المرجوّة بوقت تدريبٍ أقلّ بـ 6 مرات.

وبالإضافة إلى استخدام «SEER» و «VISSL» لتحسين رؤية الكمبيوتر والتعلم الآلي، نفذ فيسبوك العديد من الخوارزميات الحالية التي تقلل من متطلبات الذاكرة لكل وحدة برمجة رسومية؛ وبالتالي زيادة سرعة التدريب لأي نموذج. تتضمن هذه الخوارزميات مجموعةً مختلطةً من خوارزميات الدقة من مكاتب «NVIDIA Apex»، وخوارزميات التحقّق من التدرج من «PyTorch»، والمحسِّن المُقسَّم من مكتبة «FairScale»، وتحسينات مخصّصة أخرى للتدريب الذاتي عبر الإنترنت.