https://giphy.com/gifs/xT0xexYJOEJvZrhxba
تأمل الفعل "يزيل". بوصفك إنساناً، يمكنك أن تفهم الأساليب المختلفة لاستخدام هذه الكلمة، كما أنك تدرك الاختلاف البصري في المشهد بناء على ما تتم إزالته وعن ماذا. حيث إن نزع قطعة من شهد العسل عن قطعة أكبر يبدو مختلفا تماماً عن سحب غطاء كبير من ساحة، أو نزع الواقي البلاستيكي عن شاشة الهاتف الذكي. ولكنك تفهم الرابط المشترك، ففي جميع هذه الأمثلة، هناك ما يُزال.
غير أن الحواسيب وأنظمة الذكاء الاصطناعي تحتاج إلى أن تتعلم كيف تبدو هذه الأفعال. وللمساعدة على تحقيق هذا، قامت شركة آي بي إم مؤخراً بنشر مجموعة كبيرة من مقاطع الفيديو القصيرة، بطول ثلاث ثوانٍ، والتي تهدف إلى مساعدة الباحثين على تدريب أنظمتهم للتعلم الآلي عن طريق تقديم أمثلة بصرية عن أفعال حركية مثل "يصوّب" و"يغطس" و"يزيل الأعشاب الضارة". ويمكن بمشاهدة هذه الفيديوهات الدخول في رحلة غريبة حول تفاصيل عملية التعلم الآلي (يوضح فيديو السيارة في الأعلى وفيديو النحل في الأسفل معنى الفعل "يزيل"، وهما من هذه المجموعة). وضمن فئة فعل "يغمز"، يمكن للمشاهدين رؤية مقطع للممثل جون هام بدور دون دريبر وهو يغمز بعينه، إضافة إلى لقطة من مسلسل ذا سيمبسونز. ويوجد الكثير من الفيديوهات المماثلة. يمكنكم الاطلاع على هذه المجموعة عن طريق الإنترنت، وهي تتضمن مليون فيديو توضح أكثر من 300 فعل.
https://giphy.com/gifs/3ohs7HPYoP0ZsT6Z0c
إن تعليم الحواسيب كيفية فهم الأفعال ضمن الفيديوهات أكثر صعوبة من تعليمها كيفية فهم الصور. يقول دان جاتفروند، باحث في مختبر مشترك بين آي بي إم ومعهد ماساتشوستس للتكنولوجيا: "يعتبر التعامل مع الفيديوهات أكثر صعوبة لأنها أكثر تعقيداً بدرجة من عملية التعرف على الأجسام، لأن الأجسام إجمالاً واضحة، فلا يمكن تفسير الهوت دوغ إلا أنه هوت دوغ". من ناحية أخرى، يقول دان أن فهم الفعل "يفتح"، على سبيل المثال، أكثر صعوبة. لأنه يوجد اختلاف كبير في المنظر بين فتح كلب لفمه وفتح شخص لأحد الأبواب.
ليست هذه المجموعة الأولى من نوعها، وقد قام باحثون بتشكيل مجموعات مماثلة لمساعدة الآلات على فهم الصور والفيديوهات. وتسمى إحداها إيماج نيت، وقد لعبت دوراً هاماً في تعليم الحواسيب كيفية تحديد الصور، وقد ظهرت مجموعات فيديو أخرى أيضاً، وتسمى إحداها كينيتيكس، وتركز أخرى على الرياضة، وتوجد مجموعة رياضية أخرى من جامعة سينترال فلوريدا تحتوي على أفعال مثل "يسدد بشكل مباشر في كرة السلة".
غير أن جاتفروند يقول أن قوة المجموعة الجديدة تكمن في أنها تركز على ما يسميه "الأفعال الأولية". وهي تتضمن الأساسيات، مثل "يهاجم" أو "يتثاءب". ووفقاً لجاتفروند، يعتبر تحليل الأفعال إلى أفعال أولية أفضل للتعلم الآلي من التركيز على الأفعال الأكثر تعقيداً، مثل تغيير إطار السيارة أو عقد ربطة العنق.
في المحصلة، يقول جاتفروند أنه يأمل في أن هذه المجموعة ستساعد النماذج الحاسوبية على فهم الأفعال البسيطة كما يفهمها البشر.