أداة إحصائية قوية يمكنها تقليص حجم البيانات

2 دقائق
يعمل الحاسوب الخارق "شاهين الثاني" الذي تملكه جامعة الملك عبد لله للعلوم والتقنية "كاوست" على تعزيز التعاون من خلال توفير تطبيقات الحوسبة عالية الأداء، والمشورة والدعم الاستراتيجيين.

طوّر باحثون في جامعة الملك عبد الله للعلوم والتقنية أداة إحصائية جديدة يمكنها أن تقلل من تكلفة تحليل مجموعات البيانات البيئية والمناخية الضخمة، وتحسن من دقتها، وذلك من خلال استغلال قوة الحوسبة عالية الأداء.

كثيراً ما تكون مجموعات البيانات التي تحتوي على بيانات الرصد البيئية والمناخية، كدرجات الحرارة، سرعات الرياح ورطوبة التربة؛ كبيرة للغاية نظراً للدقة المكانية العالية للبيانات. وتزداد كلفة تحليل مجموعات البيانات هذه بشكل حاد مع زيادة حجمها: على سبيل المثال، فإن زيادة حجم مجموعة بيانات بمقدار 10 أضعاف تضاعف كلفة الحساب 1000 مرة، وتضاعف احتياجات الذاكرة 100 مرة، ما يتسبب بإجهاد حسابي للبرمجيات الإحصائية المعيارية.

شكل هذا الأمر حافزاً للزميل ما بعد الدكتوراه، الباحث سامح عبد الله لكي يطور إطار عمل برمجي مستقل من خلال التعاون بين "مركز أبحاث الحوسبة الفائقة" ECRC التابع لجامعة الملك عبد الله للعلوم والتقنية، وعدد من الإحصائيين المتخصصين في الديناميات الزمكانية والبيئة.

إن إطار العمل الجديد، والذي يسمى "الإحصاءات الجغرافية باستخدام سرعات حسابية من مرتبة إكزافلوب" (مليار مليار عملية حسابية في الثانية) أو اختصاراً "إكزاجيوستات" ExaGeoStat، قادرٌ على معالجة كميات ضخمة من البيانات البيئية والمناخية المكانية من خلال توظيف معماريات حاسوبية عالية الأداء، مع درجة عالية من التزامن لا توفرها البرمجيات الإحصائية التي تستخدم على المستوى العالمي.

يقول عبد الله: "إن المنصات البرمجية الإحصائية الحالية غير قادرة على الاستفادة بشكل كامل من مجموعات البيانات الكبيرة"، ويضيف: "على سبيل المثال،قد تستغرق عملية الحساب التي عادة ما يتطلب إنجازها دقيقة واحدة، حوالي 17 ساعة إن كانت مجموعة البيانات أكبر بعشر مرات فقط. يؤدي هذا الأمر إلى اعتماد حلول وسط نظراً لأوجه القصور التي تعاني منها القدرات الحسابية، ما يجبر الباحثين على اللجوء إلى أساليب التقريب التي تضفي الغموض على تفسيرهم للنتائج".

بالاستفادة من برنامج الجبر الخطي الذي قام مركز أبحاث الحوسبة الفائقة بتطويره، يوفر "إكزاجيوستات" منصة لحساب تابع الاحتمال الأرجح (الإمكانية القصوى) لمجموعة كبيرة من البيانات البيئية والمناخية المكانية. إنه قادر على التنبؤ بالبيانات المجهولة، أو البيانات المفقودة، فضلاً عن تقليل تأثير أخطاء القياس الفردية، ما يسمح بتحليل البيانات بسهولة، وتمثيلها في نموذج إحصائي يستخدم لإجراء التنبؤات.

وقد نجح الباحثون بتطبيق "إكزاجيوستات" على مجوعة كبيرة من البيانات الواقعية لقياسات رطوبة التربة من حوض المسيسيبي في الولايات المتحدة. وقد أدى ذلك ربما إلى إجراء التحليل الروتيني لمجموعات البيانات الأكبر التي أصبحت متاحة للإحصائيين المكانيين، وربما تم استخدامها في طيف واسع من التطبيقات بداية من التنبؤ بالطقس وحتى التنبؤ بغلة المحاصيل، وأنظمة الإنذار المبكر بالفيضانات وموجات الجفاف.

يخطط "ديفيد كيز"، مدير مركز أبحاث الحوسبة الفائقة الذي يستضيف المشروع؛ لإدخال تحسينات كبيرة باتباع تقنية تشهد تطوراً سريعاً في الجبر الخطي، حيث يقول: "نعمل الآن على الانتقال بإكزاجيوستات إلى مرحلة متقدمة على صعيد الخوارزميات من خلال إدخال نوع جديد من التقريب، يسمى ’’تقريب الرتبة الخطية المنخفضة للفسيفساء الرياضية الهرمية‘‘، والتي تخفض من احتياجات الذاكرة وعدد العمليات من خلال السماح بحدوث أخطاء صغيرة يمكن فهمها والتحكم بها بسهولة".

نشر هذا المقال في موقع جامعة الملك عبد الله للعلوم والتقنية.

المحتوى محمي