فيسبوك تعمل على أدوات للذكاء الاصطناعي لإصلاح الصور التي أفسدتها طرفة العيون

أداة الذكاء الاصطناعي من فيسبوك لإصلاح طرفات العينين. استخدمت فيسبوك مجموعات متنوعة من البيانات لتدريب ذكائها الاصطناعي، بما في ذلك بيانات تضمنت مشاهير من كافة أنحاء العالم.

استمع الى المقالة الآن هذه الخدمة تجريبية

يُعدّ التقاط صورة جيدة لشخص ما عملية صعبة على نحو مفاجئ. فهناك الكثير من الأخطاء التي يمكن لارتكابها أن يفسد الصورة، من الإضاءة الرديئة إلى الوضعية غير المحببة. وعلى أية حال، لا شيء يتسبب بإفساد صورة الوجه على نحو تام مثلما يفعل طرف العينين في توقيت سيء. ولكن شركة فيسبوك ريسيرتش تعمل على طريقة لاستبدال العينين المغلقتين بأخريين مفتوحتين باستخدام أداة موجهة بالذكاء الاصطناعي، والتي تسعى جاهدة إلى فعل ما هو أكثر من مجرد نسخ ولصق مقلتين جديدتين.

إن فكرة فتح العيون المغلقة في صورة الوجه ليست جديدة، ولكن العملية تتضمن عادة سحب المادة المصدرية مباشرة من صورة أخرى، ووضعها على الوجه ذي العينين المغمضتين.

على سبيل المثال، فإن برنامج تحرير الرسوم النقطية فوتوشوب إليمينتس من شركة أدوبي (وهو نسخة مبسّطة من برنامجها الاحترافي لتحرير الصور) لديه نمط عمل تم تطويره خصيصاً لهذا الغرض.

عندما تستخدمه، يطالبك البرنامج باختيار صورة أخرى من جلسة التصوير نفسها (على افتراض أنك التقطت أكثر من صورة واحدة) يكون فيها عينا الشخص المعني مفتوحتين. يمكنه بعد ذلك استخدام تقنية أدوبي للذكاء الاصطناعي، والتي يطلق عليها اسم “سينسي”، لتجربة العينين ودمجهمها من الصورة السابقة ضمن اللقطة التي تتضمن طرف العينين.

أثبتت هذه العملية جدواه على نحو مذهل من أجل عمليات الإصلاح السريعة، خاصة عند النظر إلى عدد الخطوات التي تتطلبها ليتم اللصق والدمج بشكل دقيق ضمن مجموعة جديدة من أزواج العيون باستخدام الإصدار الكامل من برنامج فوتوشوب. ولكن تبقى هناك تفاصيل صغيرة لا يمكن القيام بها بشكل صحيح دائماً، مثل إضاءة ظروف معينة من الإضاءة، أو اتجاهات الظلال.

لا يؤدي النظام عمله بشكل مثالي دائماً
في بعض الأحيان قد يخطئ الذكاء الاصطناعي في تقدير لون العينين (الصورة العلوية)، أو يخفق في تصحيح شيء يحجب جزءاً من الوجه مثل الشعر (الصورة السفلية).
مصدر الصورة: فيسبوك

يقول هاني فريد، وهو أستاذ علوم الحاسوب في كلية دارتموث وخبير تحليل الصور الجنائي: “إدراك الظلال أمرٌ بديهي تماماً. يمكنني التفكير بشأن الاتجاه الذي يصدر منه الضوء من خلال النظر إلى الظلال”.

عندما يقوم شخص تقني بنسخ ولصق مجموعة من العيون من صورة أخرى، قد لا يأخذ دائماً بعين الاعتبار أشياء مثل إضفاء تغييرات طفيفة على الظلال، وهو ما قد يؤدي في بعض الأحيان – وفقاً لما تقوله الدراسة – إلى ظهور الصورة النهائية بشكل صحيح تقريباً، ولكن يبقى فيها شيء من الغرابة على نحو غير مفهوم. هذا ما يسمى ظاهرة وادي النفور (Uncanny Valley) والتي يأمل الباحثون تفادي حدوثها.

تقترح ورقة بحثية حديثة نشرتها “فيسبوك ريسيرتش” نوعاً مختلفاً من الحلول لاستبدال العيون المغلقة، وهو يعتمد على شبكة عصبونية عميقة يمكنها في الواقع بناء البيانات المفقودة بالاستفادة من المضمون التفصيلي من كافة محتويات الصورة، وليس فقط المنطقة المتأثرة. تستخدم فيسبوك تقنية تسمى الشبكة العصبونية التخاصمية المولّدة (GAN) لملء هذه البياات. إنها التقنية الأساسية نفسها المسؤولة عن الموجة التي انتشرت حديثاً من مقاطع الفيديو ذات المحتوى “بالغ التضليل”، والتي يبدو فيها المشاهير وكأنهم يقولون ويفعلون أشياء لم يقوموا بها في حقيقة الأمر.

يقوم نموذج GAN المثالي الذي استخدموه برسم البيانات انطلاقاً من صور أخرى تعود للشخص نفسه، ولكنه لا يستخدمها إلا كمادة مرجعية فقط، حيث يتعلم منها كيف يبدو شكل الشخص الهدف ويحدد أيّ من العلامات المميزة التي قد تظهر على وجوههم.

يقوم بعد ذلك باستخدام عملية تسمى “قيد الرسم” (in-painting) لتوليد المعلومات اللازمة لاستبدال الأجفان بعيون حقيقية. يتطلب هذا النوع من التعلم العميق عدداً أكبر من المواد المرجعية مقارنة بما تتطلبه الصورة البسيطة، وهو ما يلائم البنية التحتية لخدمات فيسبوك حيث يمكنها عادة تحليل صور مختلفة لنفس الشخص، وذلك غالباً عبر مجموعة متنوعة من حالات الإضاءة المختلفة.

جاءت النتائج الأولية لفيسبوك مثيرة للإعجاب، وإن لم تخل من العيوب، ولكن الباحثين لازالوا يعملون على إيجاد أفضل الطرق لتدريب الخوارزميات التي تقف وراء هذه العملية، وسبر المتغيرات التي يتعذر التنبؤ بها كالصور التي يكون فيها جزء من العين محجوب بسبب الشعر أو النظارات.

مع ذلك، تعتقد الشركة أن هذا النوع من الحوسبة مفيد، حتى بالنسبة لما يتعدى إصلاح الصور التي يظهر فيها أصحابها بعيون مغمضة. ربما يتمكن الذكاء الاصطناعي من جعلنا جميعاً نبدو حتى بشكل أفضل في صور ملفاتنا الشخصية بعد عدة سنوات من الآن. وحتى إلى جانب الصور، فإن الشركة تعمل على أدوات مشابهة للذكاء الاصطناعي يمكنها ترجمة الموسيقى من نمط إلى آخر.