طردت شركة جوجل أواخر العام الماضي باحثةً بارزة في أخلاقيات الذكاء الاصطناعي، بعد أن أعربت عن إحباطها لأن الشركة أجبرتها على سحب ورقةٍ بحثية سلّطت الضوء على مخاطر معالجة اللغة بالذكاء الاصطناعي؛ على غرار النوع الذي يعتمده محرّك بحث جوجل، وغيره من منتجات تحليل النصوص.
كانت البصمة الكربونية الهائلة الناجمة عن تطوير هذا النوع من تقنيات الذكاء الاصطناعي أحد المخاطر التي تناولها البحث، وتذهب بعض تقديرات البحث إلى أن انبعاثات الكربون التي يولدها تدريب نموذج ذكاء اصطناعي واحد، تعادل الانبعاثات الناجمة عن صنع وقيادة 5 سياراتٍ خلال فترة عملها كلها.
أنا باحثةٌ أدرس وأعمل في تطوير نماذج الذكاء الاصطناعي، وأنا على درايةٍ عميقة بما تتطلبه أبحاث الذكاء الاصطناعي من كمٍّ هائل من الطاقة والتكلفة المادية، ولكن لماذا باتت نماذج الذكاء الاصطناعي تتطلب هذا الكم من الطاقة؟ وكيف تختلف تقديراته عن حسابات مركز البيانات التقليدية؟
تدريب اليوم غير فعّال
تشمل وظائف معالجة البيانات التقليدية؛ التي تتم في مراكز البيانات، بثّ الفيديو، البريد الإلكتروني، ووسائل التواصل الاجتماعي، أما الذكاء الصناعي، فيتطلب طاقةً حوسبيةً أكبر لقراءة كمّ البيانات الهائل كي يتمكّن من تعلّم فهمها؛ أي يتدرّب عليها.
هذا التدريب غير فعّالٍ مقارنةً بكيفية تعلّم الناس؛ لذلك لجأت تقنيات الذكاء الاصطناعي الحديثة لاستخدام شبكات عصبونية اصطناعية تحاكي عمل الخلايا العصبية في الدماغ البشري. تُخزّن المعرفة اعتماداً على قوى وصل بين العصبونات تسمى «الأوزان التشابكية»، ولمعرفة كيفية فهم اللغة، تبدأ الشبكة بأوزان عشوائية، ثم تعمل على ضبطها حتى تتوافق المخرجات مع الإجابة الصحيحة.
من الطرق الشائعة لتدريب الشبكة اللغوية؛ تزويدها بالكثير من النصوص من مواقع الإنترنت؛ مثل ويكيبيديا، ومنافذ الأخبار، مع إخفاء بعض الكلمات، ثم الطلّب منها تخمين هذه الكلمات؛ على سبيل المثال، تُلقّم الشبكة العصبونية عبارة «كلبي لطيف»، لكن يتمّ إخفاء كلمة «لطيف» في البداية؛ فلا يفهم النموذج العبارةَ كلّها، ولكن بعد عدة جولاتٍ من التدريب والتعديل، تبدأ الأوزان التشابكية في التقاط أنماط البيانات، وتوقّع القسم الثاني من العبارة لتصبح الشبكة دقيقةً في توقع الإجابة النهائية.
استخدم أحد النماذج الحديثة؛ المسمى «تمثيلات التشفير ثنائية الاتجاه من المحولات» أو «BERT 3.3»، مليار كلمة من الكتب الإنجليزية ومقالات ويكيبيديا. أثناء التدريب، يقوم بقراءة هذه البيانات 40 مرّة وليس مرةً واحدة، وبالمقارنة؛ قد يحتاج الطفل العادي إلى 45 مليون كلمة في سنّ الخامسة كي يتمكّن من التحدث؛ أي أقلّ 3000 مرة من نموذج «BERT».
البحث عن الهيكل الصحيح
ترتفع تكلفة بناء هذه النماذج اللغوية، لأن عملية التدريب هذه تحدث عدة مرات خلال مسار التطوير، ويعود السبب في ذلك إلى رغبة الباحثين في الوصول إلى أفضل بينةٍ ممكنة للشبكة من ناحية عدد الخلايا العصبية، وعدد الوصلات بينها، ومدى تغيّر سرعة المعلمّات أثناء التعلّم، وما إلى ذلك، وكلما زاد عدد المجموعات التي يختبرونها، كانت فرصة زيادة دقّة الشبكة أعلى وأفضل. على النقيض من ذلك؛ لا تحتاج العقول البشرية إلى إيجاد بنية مثالية؛ فبنيتها بالأساس مسبقة الصنع تمّ شحذها خلال عملية التطوّر.
ومع تنافس الشركات والأكاديميين في مجال الذكاء الاصطناعي، يزداد الضغط لتحسين منتجاته. في الواقع؛ إن تحقيق تحسّنٍ بنسبة 1% في دقّة القيام بالمهام الصعبة؛ مثل الترجمة الآلية، يُعتبر علامةً فارقةً مهمةً تسمح للشركة بطرح منتجاتٍ أفضل، وتؤدي لانتشارٍ أكبر، ولكن، كي تحصل على تحسّنٍ بنسبة 1%، قد يحتاج النموذج إلى التدريب آلاف المرّات، ويحتاج إلى هيكل مختلف في كلّ مرة، إلى أن يتوصّل الباحث إلى أفضل نموذج.
قدّر الباحثون في جامعة ماساتشوستس أمهرست، تكلفة الطاقة لتطوير نماذج لغة الذكاء الاصطناعي؛ عن طريق قياس استهلاك الأجهزة الشائعة للطاقة أثناء التدريب، ووجدوا أن بصمة تدريب نموذج «BERT» الكربونية مرةً واحدة، تعادل البصمة الكربونية لرحلةِ طيرانٍ لشخصٍ واحد ذهاباً وإياباً بين نيويورك وسان فرانسيسكو، ولكن مع تجريب هياكل مختلفة للنموذج؛ أي من خلال تدريب الخوارزمية عدة مرات على البيانات بإعداداتٍ مختلفة قليلاً من ناحية عدد العصبونات والوصلات والمعلمات الأخرى، ترتفع البصمة الكربونية له لتعادل بصمة 315 مسافرٍ على متن طائرة بوينج 747.
أكبر وأكثر استهلاكاً للطاقة
تُعد نماذج الذكاء الاصطناعي أكبر بكثير مما تحتاجه بالفعل، ومع ذلك، يتزايد حجمها كلّ عام؛ على سبيل المثال، يمتلك النموذج الأحدث لإنتاج النصوص اللغوية والتنبؤ بها «GPT-2»؛ الذي يشبه نموذج «BERT 1.5»، مليار وزن تشابكي، بينما تنطوي النسخة الأحدث منه «GPT-3»؛ والتي أحدثت ضجّةً كبيرةً مؤخراً بسبب دقتها العالية، على 175 مليار وزن تشابكي.
اكتشف الباحثون أن امتلاك شبكات أكبر يؤدي إلى دقة أفضل، حتى لو كانت الدقة أفضل بمقدار صغير فقط، يحدث شيء مشابه في أدمغة الأطفال عند إضافة الاتصالات العصبية أولاً ثم تقليلها، لكن الدماغ البشري الحيوي أكثر كفاءةً في استخدام الطاقة من أجهزة الكمبيوتر.
تُدرب نماذج الذكاء الاصطناعي على أجهزةٍ ومعداتٍ متخصصة؛ مثل وحدات معالجات الرسومات؛ والتي تستهلك طاقةً أكبر مما تستهلكه وحدات المعالجة المركزية التقليدية. إذا كان لديك حاسب محمول متخصص بألعاب الفيديو، فمن المحتمل أن يكون مزوداً بأحد تلك المعالجات لإظهار الرسوميات المتقدمة للعب لعبة «ماين كرافت أي تي إكس» مثلاً، وقد تلاحظ أيضاً أنه يولّد حرارةً أكبرَ بكثير من أجهزة الحاسوب المكتبية العادية.
نستنتج مما سبق أن تطوير نماذج ذكاء اصطناعي يضيف بصمةً كربونية كبيرة؛ فإذا لم ننتقل لاستخدام مصادر الطاقة المتجددة بنسبة 100%، قد يتعارض تطوير الذكاء الاصطناعي مع أهداف خفض انبعاثات الاحتباس الحراري وإبطاء تغيّر المناخ. في الواقع؛ أصبحت التكلفة المالية لتطوير النماذج عاليةً جداً أيضاً؛ فلا يستطيع سوى عدد قليل من المختبرات القيام بذلك؛ ما يجعلها تتحكّم بأنواع نماذج الذكاء الاصطناعي التي سيجري تطويرها في المستقبل.
مواجهة متطلبات الذكاء الاصطناعي في المستقبل
إذاً ما هو مستقبل أبحاث الذكاء الاصطناعي؟ قد لا تكون الأمور قاتمةً كما تبدو؛ فربما نتمكّن من تخفيض تكلفة تدريب النماذج مع ابتكار طرقٍ جديدة أكثر كفاءةً؛ كان من المتوقع مثلاً أن يرتفع استهلاك الطاقة في مركز البيانات في السنوات الأخيرة، إلا أن ذلك لم يحدث بفضل التحسينات الكبيرة في المركز، واستخدام أجهزةٍ وتقنيات تبريدٍ أكثر كفاءةً.
وبالإضافة إلى ذلك؛ هناك توازنٌ بين تكلفة تدريب النموذج وتكلفة استخدامه؛ لذلك سيعوَّض إنفاق المزيد في الطاقة على تدريب النماذج، للوصول إلى نموذجٍ أصغر؛ بجعل استخدامها أرخص في الواقع، وبالنظر إلى إمكانية استخدام النموذج عدّة مرات خلال عمره الافتراضي، يمكن أن يعود ذلك بتوفيرٍ كبيرٍ في الطاقة.
تقول الباحثة: «في البحث الذي نجريه في مختبري، كنا نبحث في طرقٍ لجعل نماذج الذكاء الاصطناعي أصغر؛ من خلال مشاركة الأوزان أو استخدام نفس الأوزان في أجزاء متعددة من الشبكة، وندعو هذه النوع من الشبكات بالشبكات متغيرة الشكل، لأنها تسمح بإعادة تكوين مجموعةٍ صغيرة من الأوزان في شبكة أكبر بأشكال وهياكل مختلفة»، وقد أظهر باحثون آخرون أن مشاركة الأوزان تؤدي إلى أداءٍ أفضل في نفس وقت التدريب بالفعل.
ينبغي على مجتمع الذكاء الاصطناعي في المستقبل أن يستثمر في تطوير خطط تدريبٍ توفّر الطاقة، وإلا فإنه يخاطر بأن يصبح الذكاء الاصطناعي تحت سيطرة عدد محدود ممن يمكنهم تحمل تكاليف تطوير النماذج وتوجيه صناعتها؛ بما في ذلك أنواع النماذج والبيانات المُستخدمة لتدريبها، ولأي غرضٍ تُستخدم.
يمكنكم الاطلاع على النسخة الإنجليزية من المقال من «ذي كونفيرسيشن» من هنا.