كيف يترجم الذكاء الاصطناعي الصور على فيسبوك من أجل المكفوفين

تقنية فيسبوك لتوليد النصوص البديلة عن الصور بشكل تلقائي؛ تستخدم الذكاء الاصطناعي في التعرف على الأشياء والأشخاص الظاهرة في الصورة.

استمع الى المقالة الآن هذه الخدمة تجريبية

في حين ليس من السهل التفكير بالتهديدات المحتملة للذكاء الاصطناعي، إلا أن هذا المجال يحمل في كثير من الأحيان وعوداً بتحسين حياة البشر. تهدف خوارزميات الذكاء الاصطناعي إلى مساعدتنا على التواصل مع أصدقائنا، العثور على المعلومات، وحتى نقلنا عبر العالم الفيزيائي.

منذ العام الماضي، بدأ فيسبوك باستخدام الذكاء الاصطناعي في توليد التعليقات النصية التوضيحية لكل صورة على فيسبوك بشكل تلقائي، لتوفير سهولة الوصول إلى المعلومات التي يكون المكفوفون أو ضعاف البصر في أمس الحاجة لها.

لأن المطورين أرادوا للنصوص أن يتم توليدها من قبل الذكاء الاصطناعي لتكون دقيقة إلى أبعد حد ممكن، قاموا بتدريبه بشكل مكثف على صور تعود لمئة نوع مختلف من الأغراض فقط، وبالتالي حتى شهر مايو من العام 2016، اقتصرت قدرته على تحديد الإنسان، البيتزا، كرة البيسبول وما شابه ذلك، ولكن مع تقدم الأبحاث، لا شك أن التعليقات النصية ستزداد تنوعاً وتعقيداً.

لتصفح الإنترنت، غالباً ما يعتمد ضعاف البصر على قارئات الشاشة، التي تقرأ الكلمات الظاهرة على الشاشة بصوت عال. مع ذلك، تعتمد جودة قارئات الشاشة على المحتوى الذي يمكنها قراءته. فإذا لم يكن هناك أي نص، عندها لن تتمكن من قراءة أي شيء. تنص معايير تصميم المحتوى على صفحات الإنترنت على أن الصور ينبغي أن يكون لها حقل يسمى “النص البديل”، حيث يصف بعبارات مكتوبة ما تشير إليه الصورة. مع ذلك، بالنسبة لمعظم الصور على فيسبوك، فإن النص الوحيد المتوفر لقارئات الشاشة هو وصف الحالة التي يتم نشرها رفقة هذه الصور.

من خلال تطبيق خوارزميات الذكاء الاصطناعي، يمكن لفيسبوك أن يمسح كل صورة واستخراج بعض المعلومات عن محتوياتها. إن قام أحدهم بنشر صورة لفطيرة بيتزا، عندها ستتمكن الخوارزمية تلقائياً من وضع كلمة “بيتزا” ضمن النص البديل الخاص بالصورة، لتتمكن عندها قارئة الشاشة من قراءتها على مسامع المستخدم.

لن يرى معظم مستخدمي شبكة التواصل الاجتماعي – البالغ عددهم 1.5 مليار مستخدم – التعليقات التوضيحية، ولكنها تمثل تحولاً بالنسبة لمن لا يمكنه رؤية الصور على منصة تعتمد على المحتوى البصري بصورة متزايدة.

يستغل فيسبوك هذه الفرصة لإضفاء الطابع الديمقراطي على الطريقة التي يجري بها بحثه. ستتمكن فرق فيسبوك العاملة على سهولة الوصول إلى المعلومات والذكاء الاصطناعي من الحصول على تعليقات المستخدمين، وتستخدمها في توجيه المزيد من الأبحاث. في مارس من العام 2016، قام فيسبوك، على التوازي مع جامعة كورنيل، بنشر دراسة تستعرض كيفية استخدام المكفوفين لفيسبوك، على أمل جعل المنتج موجهاً ليلبي احتياجات المجتمع.

يقول مانوهار بالوري: “ما يريده الناس ينبغي أن يشكل الدافع الذي يحرك الأبحاث، بدلاً من أن تكون التوجهات البحثية لدينا هي التي تقود عمليات الاستخدام. حيث تسمح لنا التعليقات الواردة بأن نتحرى أكثر”.

يشكل التحدي المتمثل بالتعرف على الصور وتوصيفها؛ فئة بارزة من الأبحاث في مجال الذكاء الاصطناعي. تعمل التقنيات والتجهيزات الجديدة على تمكين التعلم العميق، باستخدام طبقات من الشبكات العصبونية الاصطناعية، أو مجموعات صغيرة من المعادلات الرياضية التي يمكنها محاكاة الأعصاب الدماغية عند البشر، للتدقيق ضمن البيانات والبحث عن الأنماط.

يمكن تطبيق هذه التقنيات على الصور، الصوت، النصوص، أو أي نوع من البيانات تقريباً. في حالة الصور، يكون النمط الموجود ضمن صورة فوتوجرافية لإحدى القطط، مختلفاً عن النمط الذي نجده في صورة دلفين.

ولكن الأشياء تبدو بسيطة عند التعامل معها بشكل منفرد. فعندما تتفاعل الأشياء مع بعضها البعض، أو عند وجود سياق يتعلق بعمل ما، فإن الأمر يصبح أكثر صعوبة، لأن الآلات تحتاج في الواقع إلى فهم شيء ما عن العالم الفيزيائي، وأن تعرف العلاقات التي تربط بين الأشياء. بالنسبة لآلة مبتدئة، ليس هناك انجذاب، أو علاقات عائلية، أو أي نوع من الحب. بالنسبة لها توجد بيانات فقط.

وبالتالي، لكي تدرك الآلة أن هناك أباً يمشي بصحبة ابنته على طريق للتنزه، أو أن هناك قطة على السرير، يتعين عليها أولاً أن تتعلم عن العالم الحقيقي.

“بالنسبة لآلة مبتدئة، ليس هناك انجذاب بين الأشخاص، أو علاقات عائلية، أو أي نوع من الحب. بالنسبة لها توجد بيانات فقط”.

وهذا بالضبط ما كان يحتاج إليه فريق سهولة الوصول إلى المعلومات في فيسبوك، أيضاً. وبالتالي أصبح لديهم هذه الأشياء المعرفة على شكل ما يسمى بالوسومات التعريفية (كلمات مفتاحية وصفية). فقد يكون الوسم قطة، أو سريراً أو حتى شخصاً. بمساعدة هذه المعلومة، يمكنهم أن يقولوا: هناك 4 أشخاص يحملون أقماعاً من المثلجات في الصورة، أو هناك فطيرة بيتزا.

يقول بالوري: “إن هدفنا هو الوصول إلى مرحلة يمكن فيها للخوارزمية أن تصف ما هو أكثر بكثير من الوسوم. كيف تتفاعل الوسوم فيما بينها؟ ما هي العلاقات التي تربط بين الوسوم؟”. ويضيف: “ليس فقط القول بأن هناك “قطة” في “السرير”. فأنت بحاجة للقول إن “القطة فوق السرير”، أو “إن القطة تقفز فوق السرير”، لذلك فإن هذه ليس إلا نقطة الانطلاق”.

هذه نقطة الانطلاق من نواح عديدة. فالفريق لم يحلم فقط بزيادة مستوى التعرف على الأشياء بناء على السياق، بل أيضاً أن يجعلوا عملية التعرف تفاعلية بشكل أكبر. حيث اقترح بالوري ميزة محتملة حيث يمكن من خلالها للمستخدمين أن ينقروا على أجزاء مختلفة من الصورة ليستمعوا إلى معلومات معينة.

ولكن على مستوى النطاق الذي يعمل فيسبوك ضمنه، يجب أن تكون الدقة على رأس الأولويات. هناك 2 مليار صورة تتم مشاركتها يومياً عبر كل من فيسبوك، إنستاجرام، مسنجر وواتس آب، لذلك فحتى حدوث أخطاء بنسبة 1% فقط يمكنه أن يعني الملايين من الأخطاء.

قام المهندسون بشكل يدوي بضبط كل من المفاهيم التي يمكن للخوارزمية أن تكشفها، والتي بلغ عددها 100 مفهوم تقريباً، وذلك بناء على أهمية التصنيف الصحيح للأشياء. على سبيل المثال، ينبغي للخوارزمية أن تكون على درجة عالية جداً من التأكد من أشياء مثل نوع الجنس، أكثر مما إذا كان شيء ما هو بيتزا أم لا.

يمكنها أن تميز الأشياء التي تقع ضمن مجموعتها المئوية بدرجة من الثقة تتراوح نسبيتها من 80% إلى 99%. يقول فيسبوك إن بإمكانها أن تميز أحد الأشياء على الأقل ضمن أكثر من 50% من الصور على فيسبوك. إن معظم المفاهيم التي تمكنت الآلة من إدراكها؛ تتعلق بالأشخاص والأشياء المادية. فهي تعرف النظارات، كرات البيسبول، وحتى صور السيلفي الذاتية. مع ذلك، هناك بعض الأشياء التي تقصّد الفريق عدم وضع وسوم لها، وفقاً لما يقول بالوري. ومن بين هذه الأشياء، هناك حيوانات معينة.

“قد يكون هناك مخلب قط في الزاوية. هل توجد قطة في الصورة؟ هذا سؤال مفتوح.”

إن الأخطاء التي ترتكبها أنظمة الذكاء الاصطناعي، خاصة عندما تقوم بتصنيف الصور، يمكن أن تكون حساسة من الناحية الثقافية للمجتمع، كما حدث العام الماضي عندما قام تطبيق الصور الخاص بجوجل بوصف أشخاص من ذوي البشرة السوداء؛ على أنهم من الغوريلا.

لتجنب هذا النوع من الحالات، يقول بالوري: “نحن نريد البدء من حيث نكون على درجة فائقة من الثقة، وهناك الكثير من التعليقات الإيجابية الواردة “.

كما يمكن للثقة أن تكون أكثر براءة، حيث ينوه بالوري إلى مثال مخالب القط. يقول بالوري: “قد يكون هناك مخلب قط في الزاوية. هل لا يزال هناك قط في الصورة؟ هذا سؤال مفتوح”. ويضيف: “وربما تكون الصورة عن المخلب، وهذا ما يجعلها مضحكة”.

بدا البحث مفتوحاً على العديد من الاتجاهات، بما في ذلك محاولة الكشف عن الدعابة ضمن الصور. ولكن بصرف النظر عن الاتجاه الذي سلكه منذ ذلك الحين، فإن أي تحسين يعتمد على خوارزميات أفضل، ينبغي أن يكون مستوحى من حاجات الناس الحقيقية. فلا ننس أن الذكاء الاصطناعي يحمل وعوداً بجعل الحياة أكثر سهولة بالنسبة للبشر. نحن نستعين بالآلات التي يمكنها أن تنفذ المهام التي تقوم بها أجزاء من أدمغتنا. من خلال استخدام البرمجيات لتعزيز قدراتنا، يصبح العالم مكاناً يسهل الوصول إليه بشكل أكبر.

تمت إتاحة هذه الميزة منذ العام الماضي على تطبيق فيسبوك الخاص بنظام iOS، وكان من المقرر بعد ذلك بوقت قريب طرحها من أجل منصات أخرى، بالإضافة إلى لغات أخرى غير الإنجليزية.