تعرف على مزايا الاستخدام العلمي للبيانات المفتوحة ومساوئه

تعرف على مزايا الاستخدام العلمي للبيانات المفتوحة ومساوئها
تغير التكنولوجيا الحديثة طرق البحث العلمي. نيكول باوم/أنسبلاش
استمع الى المقالة الآن هذه الخدمة تجريبية
Play Audio Pause Audio

تخيّل أنك تتنزّه في الطبيعة وصادفت حشرة مجنّحة غريبة الشكل تشبه الطيور إلى حد ما. إذا فتحت تطبيق “سيك” التابع لمنظّمة “آي ناتشوراليست” ووجهت كاميرا هاتفك إلى هذا المخلوق الغامض، سيعلمك التطبيق بأن الكائن الذي تنظر إليه اسمه “عثّة الطائر الطنان شفّافة الجناح”، وهو نوع من العث الذي ينشط خلال النهار. يعمل هذا التطبيق إلى حد ما مثل تطبيق “بوكيمون غو“، وهي لعبة الواقع المعزز الشهيرة من عام 2016 التي دفعت اللاعبين للبحث عن مخلوقات خيالية مراوغة في الأماكن المفتوحة لالتقاطها.   

يشبه تطبيق سيك الذي أُطلق في عام 2018 هذه اللعبة كثيراً. إلا أن المستخدمين قد يصادفون عندما يوجّهوا كاميرات هواتفهم على محيطهم الفراشات وبصيلات النباتات التي يحدد التطبيق أنواعها مباشرة بدلاً من البوكيمونات مثل “بولباصور” أو “بترفري”. يستطيع المستخدمون أن يتعلموا عن أنواع النباتات والحيوانات التي يصادفونها، كما يستطيعون جمع شارات مختلفة نتيجة إيجاد أنواع مختلفة من الكائنات مثل الزواحف والحشرات والطيور والنباتات والفطور.    

يستطيع موقع آي ناتشوراليست تحديد أنواع الكائنات الحية المختلفة بشكل صحيح (في معظم الأحيان على الأقل) بفضل نموذج تعلم آلي يعتمد على بيانات تم تجميعها بواسطة تطبيق أُطلق في عام 2008 اسمه “آي ناتشوراليست” أيضاً. يهدف هذا التطبيق إلى مساعدة المستخدمين على التعرف على العالم الطبيعي الغني من حولهم.  

تتألف منصة آي ناتشوراليست التي تضم نحو مليوني مستخدم من مزيج من الشبكات الاجتماعية وشبكات علوم المواطنين التي يستطيع المستخدمون ضمنها رصد الظواهر الطبيعية وتوثيقها ومشاركتها ومناقشتها والتعلم عنها، وإنشاء بيانات يمكن استخدامها في أبحاث العلوم الطبيعية والحفاظ على أشكال الحياة البرية. يتمتّع تطبيق آي ناتشوراليست بالإضافة إلى إمكانية تحديد أنواع الكائنات عن طريق الصور بمزايا عديدة مقارنة بتطبيق سيك الذي صُمم ليكون لعبة إلى حد ما، إذ أنه يحتوي على علامة تبويب خاصة بالأخبار وأدلة تتعلق بأشكال الحياة البرية، كما تستطيع منظمات مختلفة استخدام التطبيق لإقامة مشاريع جمع البيانات التي تركّز على مواضيع معينة أو أنواع معينة من الكائنات.   

يُطلب من المستخدمين الجدد الذين ينضمون إلى تطبيق آي ناتشوراليست أن يسمحوا بمشاركة بياناتهم مع العلماء (على الرغم من أنه هذا ليس شرطاً لازماً للانضمام للموقع). توسم الصور والمعلومات حول موقع المستخدمين التي وافق المستخدمون على مشاركتها برخصة المشاع الإبداعي، وإذا لم يوافقوا على مشاركتها، فإنها تخضع لرخصة الحقوق المحفوظة. تم تصنيف 70% من البيانات الموجودة على المنصة على أنها مشاع إبداعي. يقول “سكوت لوري”، المدير المشارك لموقع آي ناتشوراليست: “يمكنك التفكير في الموقع على أنه أنبوب كبير من البيانات المفتوحة يصل إلى المجتمع العلمي ويستخدمه العلماء بعدة طرق مفاجئة”.    

هذا يعني أنه في كل مرة يوثق فيها المستخدم حيواناً أو نباتاً أو كائناً آخر أو يصوره، يمثّل هذا النشاط بنقطة بيانات يتم بثها إلى نقطة تجمّع في التخزين السحابي الخاص بشركة “أمازون ويب سيرفيسز”. هذا الموقع واحد من بين أكثر من 300 مجموعة بيانات في سجل البيانات المفتوحة الخاص بشركة “أمازون ويب سيرفيسز”. تحتوي نقطة تجمّع آي ناتشوراليست حالياً على نحو 160 تيرابايت من الصور. ويتم تحديث مجموعة البيانات بانتظام وتعتبر مفتوحة لأي شخص يريد استخدامها. تعد مجموعة بيانات هذا الموقع أيضاً جزءاً من المرفق العالمي لمعلومات التنوع الحيوي، وهي منظّمة تجمع مجموعات البيانات المفتوحة من جميع أنحاء العالم.    

يعد تطبيق سيك التابع لموقع آي ناتشوراليست مثالاً رائعاً على قيام منظمة بشيء مثير للاهتمام لا يمكن إنجازه دون استخدام مجموعة بيانات مفتوحة ضخمة. تعد هذه الأنواع من مجموعات البيانات سمة مميزة وقوة دافعة للبحث العلمي في عصر المعلومات، وهو العصر الذي يميّزه الاستخدام واسع الانتشار للحواسيب ذات القدرات الهائلة. أصبحت هذه المجموعات من البيانات تمثّل العدسة الجديدة التي ينظر بها العلماء إلى العالم من حولهم، ومكّنتنا أيضاً من ابتكار أدوات تساعد في جعل العلم متاحاً لعوام الناس.  

يمكن لنموذج التعلم الآلي الخاص بموقع آي ناتشوراليست أن يساعد المستخدمين في تحديد نحو 60 ألف نوع مختلف من الكائنات الحية. يقول لوري: “هناك مليوني نوع من الكائنات الحية التي تعيش في جميع أنحاء العالم، وقد رصدنا نحو سدسها ووثقناها بنقطة بيانات واحدة وصورة واحدة على الأقل”، ويضيف: “لكن من أجل القيام بأي نوع من النمذجة أو للوصول إلى أي نظرية أو فهم عميق، نحن بحاجة إلى نحو 100 نقطة بيانات [لكل نوع من الكائنات]”. إن هدف الفريق القائم على الموقع هو تمثيل مليوني نوع. لكن هذا يعني أنهم بحاجة إلى المزيد من البيانات والمزيد من المستخدمين. إنهم يحاولون أيضاً إنشاء أدوات جديدة تساعدهم في كشف البيانات الغريبة أو تصحيح الأخطاء أو حتى اكتشاف الأنواع الغازية الناشئة. يقول لوري: “يتماشى هذا مع العمل باستخدام البيانات المفتوحة. وأفضل طريقة لإنجاز ذلك هي تسهيل حركة البيانات وطرق الوصول إليها قدر الإمكان”.       

يعتقد لوري أن مشاركة البيانات والشفرات البرمجية والأفكار بشكل أكثر انفتاحاً يمكن أن تخلق المزيد من الفرص لتقدم العلم. إذ يقول: “لدي خلفية في البحث العلمي الأكاديمي. وعندما كنت أعمل في هذا الوسط، كانت [العقلية] المسيطرة هي “انشر الأبحاث أو اهلك” و”احتفظ ببياناتك على حاسوبك ولا تسمح لأحد بأن يسرقها أو ينشرها قبلك”، ويضيف: “إحدى الأمور الرائعة التي نشهدها حالياً هي إلى أي مدى أصبح العلم أكثر تعاونية خلال العقود القليلة الماضية. يمكنك إجراء الأبحاث العلمية بشكل أسرع وعلى نطاقات أكبر إذا كنت تتعاون مع الآخرين. وأعتقد أن المجلات والمؤسسات العلمية أصبحت تستجيب بشكل أكبر مع هذه الطريقة في إجراء الأبحاث العلمية“.      

اقرأ أيضاً: الإمارات تتقدم إلى المرتبة الـ16 عالمياً في البيانات المفتوحة

ازدهار البيانات المفتوحة

كانت البيانات المفتوحة (البيانات التي يمكن استخدامها وتعديلها ومشاركتها من قبل أي شخص) على مدى العقد الماضي نعمة في المجتمع العلمي، إذ أنها انتشرت بفعل اتجاه متنامٍ ينطوي على جعل العلوم مفتوحة (أي متاحة للجميع). تعني العلوم المفتوحة مشاركة أي بيانات أولية وبرامج تحليل وخوارزميات وأوراق بحثية ووثائق مستخدمة في مشروع ما مبكراً كجزء من عملية البحث العلمي. من الناحية النظرية، هذا من شأنه أن يجعل تكرار الدراسات أكثر سهولة. (تكرار الدراسات هو القيام بها بواسطة فرق بحث مختلفة حول العالم).  

تقوم العديد من المنظمات الحكومية ومكاتب المدن بإصدار مجموعات من البيانات المفتوحة للجمهور. يفرض قانون تم إصداره في عام 2012 على إدارة مدينة نيويورك مشاركة جميع البيانات غير السرية التي تم جمعها من قبل وكالات مختلفة أثناء إدارة المدينة من خلال بوابة ويب يمكن الوصول إليها بسهولة. تقيم مدينة نيويورك في أوائل الربيع من كل عام ما يدعى بـ “أسبوع البيانات المفتوحة” الذي يُسلّط الضوء فيه على مجموعات البيانات والأبحاث التي استخدمت فيها هذه المجموعات من البيانات. يساعد فريق مركزي في مكتب التكنولوجيا والمعلومات في مدينة نيويورك جنباً إلى جنب مع منسقي البيانات من كل وكالة في صياغة المعايير المناسبة والممارسات المثلى وصيانة وإدارة البنى التحتية لبرنامج البيانات المفتوحة. وتقدّم مواقع مثل “أمازون” و”سيرن” للباحثين الذين يرغبون في تعهيد البنى التحتية للبيانات الخاصة بهم خدمات للمساعدة في تنظيم البيانات وإدارتها.      

تعززت النزعة نحو العلوم المفتوحة بشكل كبير خلال جائحة كوفيد-19، إذ تمت مشاركة كمية غير مسبوقة من الاكتشافات بشكل شبه فوري لإجراء الأبحاث المتعلقة بمرض كوفيد-19 وتصميم المعدات اللازمة للتعامل مع الجائحة. نشر العلماء بسرعة المعلومات الوراثية عن فيروس كورونا، ما ساعد في جهود تطوير اللقاحات.  

اقرأ أيضاً: هكذا عملت دول العالم لمواجهة فيروس كورونا

يقول “جون دورانت”، مؤرخ العلوم ومدير متحف معهد ماساتشوستس للتكنولوجيا: “لو احتفظ العلماء الذين قاموا بسلسلة الفيروس ببياناتهم ورفضوا مشاركتها، لكان ذلك قد أبطأ عملية دراسة الفيروس برمتها”. 

يقول دورانت: “يتعلق الانتقال إلى استخدام البيانات المفتوحة جزئياً بمحاولة ضمان الشفافية والموثوقية”، ويضيف: “كيف ستكون واثقاً من أن النتائج التي يتم الإبلاغ عنها موثوقة إذا كان مصدرها مجموعة بيانات لا يمكنك رؤيتها أو عمليةٌ خوارزميةٌ لا يمكنك شرحها أو تحليل إحصائي لا تفهمه حقاً؟ سيكون الوثوق بالنتائج أمراً صعباً للغاية في هذه الحالة”.   

مجموعات البيانات المتنامية تولد الفرص وتثير المخاوف

لا يمكن أن توجد البيانات المفتوحة دون وجود كم هائل من البيانات في المقام الأول. ويمثل ذلك فرصة ثمينة في هذا العصر المجيد للبيانات الضخمة. يقول دورانت: “منذ الوقت الذي كنت أدرس فيه علم الأحياء، كان معظم الأشخاص يستخدمون التقنيات التقليدية، وكانت كمية المعلومات المتاحة صغيرة على الرغم من أنها مهمة”، ويضيف: “لكن يمكننا اليوم إنشاء معلومات على نطاق مذهل إلى حد ما”. ازدادت قدرتنا على جمع البيانات ومراكمتها بشكل كبير في العقود القليلة الماضية بفضل تطوير حواسيب أكفأ وبرامج أكثر ذكاءً وأجهزة استشعار أقل تكلفة.     

يقول دورانت: “تمثّل مجموعة البيانات الضخمة كوناً قائماً بحد ذاتها إلى حد ما”، ويضيف: “تتميّز هذه المجموعة بعدد لا حصر له من السمات الرياضية الداخلية والارتباطات الإحصائية، ويمكنك البحث فيها حتى تجد شيئاً يثير اهتمامك”. يعني جعل مجموعة البيانات متاحة للجميع أنه يمكن للباحثين المختلفين استنباط جميع أنواع الأفكار من وجهات نظر متنوعة تختلف عن الهدف الأصلي لتجميع البيانات في المقام الأول.   

يقول دورانت: “ظهرت في السنوات القليلة الماضية جميع أنواع التخصصات الجديدة أو الفرعية التي نشأت نتيجة تغيير في استخدام البيانات المتاحة”، مثل علوم البيانات والمعلوماتية الحيوية وغيرها الكثير. هناك فروع كاملة من العلوم أصبحت الآن نوعاً من “العلوم التلوية” التي لا يقوم الباحثون فيها بجمع البيانات بل يحللون عدداً من مجموعات البيانات ويبحثون عن قوانين تعميمية أكثر عمقاً تحكمها.  

خضع العديد من المجالات التقليدية لتجديدات تكنولوجية أيضاً. خذ العلوم البيئية على سبيل المثال. يقول لوري إنه إذا أراد العلماء دراسة المزيد من البيئات وأنواع الكائنات الحية على مدى فترة أطول من الزمن، سيصبح “إنجاز ذلك بالنسبة لشخص واحد أكثر صعوبة دون استخدام الأدوات التكنولوجية أو أدوات التعاون”. يضيف لوري قائلاً: “لا شك في أن ذلك دفع بمجال العلوم البيئية ليصبح أكثر تقنيةً. وأنا متأكد من أن ذلك ينطبق على جميع المجالات العلمية الأخرى”.     

ولكن تصبح قدرتنا على تنظيم هذه الأرقام والإحصائيات بشكل يدوي معدومة تقريباً مع وجود كمية متزايدة باستمرار من البيانات. يقول دورانت: “لن نستطيع التعامل مع هذه الكميات من البيانات إلا باستخدام تقنيات حوسبة متقدمة جداً. وهذا جزء من العالم العلمي الذي نعيش فيه اليوم”.   

اقرأ أيضاً: الخوارزمية: كيف تعرف أجهزة الكمبيوتر ما يجب فعله بالبيانات؟

هنا تدخل خوارزميات التعلم الآلي المعادلة. وهي عبارة عن أوامر برمجية أو حاسوبية يمكنها كشف العلاقات الإحصائية في البيانات. لا تزال الخوارزميات البسيطة التي تستخدم كميات محدودة من البيانات شاملة إلى حد ما. وإذا ارتكب الحاسوب خطأً ما، يستطيع الباحث على الأرجح أن يكتشف مكان حدوث هذا الخطأ في الحساب. إذا كانت البيانات مفتوحة، فيمكن لعلماء آخرين الاطلاع على تعليمات الشفرات البرمجية لمعرفة الطريقة التي أنتج فيها الحاسوب المخرجات من المدخلات. ولكن توصف خوارزميات الذكاء الاصطناعي في أغلب الأحيان بأنها تشبه “الصناديق السوداء“، ما يعني أن الباحثين الذين قاموا بإنشائها لا يفهمون تماماً كيف تعمل وكيف تتوصل الآلة إلى القرار الذي تتخذه. يمكن أن يؤدي ذلك إلى تحيزات خطيرة.      

هذا هو أحد التحديات الأساسية التي يواجهها المجال. يقول دورانت: “الانحياز الخوارزميّ هو نتاج عصر نستخدم فيه أنظمة البيانات الضخمة بطرق لا نتحكم فيها بشكل كامل في بعض الأحيان، أو بطرق لا نعرف أو نفهم آثارها تماماً”. هنا يمكن أن يساعدنا جعل البيانات والشفرات البرمجية مفتوحة.    

هناك مشكلة أخرى يتعين على الباحثين حلها، وهي الحفاظ على جودة مجموعات البيانات الكبيرة، وهو أمر يمكن أن يؤثر على فعالية أدوات التحليل. تلعب هنا عملية مراجعة الأقران دوراً مهماً. لاحظ لوري أن مجال البيانات وعلوم الحاسوب يتطور بسرعة مذهلة مع نشر الأبحاث والنتائج على الإنترنت سواء كان ذلك من خلال مواقع ما قبل الطباعة أو أوراق المؤتمرات الإلكترونية أو أي شكل آخر. يقول لوري: “أعتقد أن المشكلة الوحيدة التي تعاني منها النسخة الإلكترونية من الأبحاث العلمية هي كيفية توسيع نطاق عملية مراجعة الأقران”، ما من شأنه أن يحد من انتشار المعلومات المضللة. يعتبر هذا النوع من مراجعة الأقران مهم أيضاً في عمليات معالجة البيانات التي تتم في موقع آي ناتشوراليست على سبيل المثال. يقول لوري إنه على الرغم من أن جودة البيانات في موقع آي ناتشوراليست عالية جداً بشكل عام، إلا أنه لا يزال هناك قدر ضئيل من المعلومات المضللة التي يتعين على الموقع التحقق منها من خلال عملية إدارة المجتمع.     

اقرأ أيضاً: بيانات دبي: البيانات قوة رئيسية لبناء المدن الذكية 

أخيراً، يخلق وجود معلومات علمية متاحة للجميع مجموعة من الأسئلة حول كيفية تغيير التمويل والحوافز، وهي قضية يبحث فيها الخبراء بشكل فاعل. لا شك في أن تخزين كميات هائلة من البيانات ليس أمراً مجانياً.  

يقول لوري: “الأمر الذي لا يفكر فيه الناس، والذي يكاد يكون أكثر أهمية بالنسبة لنا، هو أن نقل البيانات عبر الإنترنت يكلّف رسوماً مقابل استخدام النطاق الترددي”، ويضيف: “لذا، إذا قام شخص ما بتحميل مليون صورة من مجموعة البيانات المفتوحة في موقع آي ناتشوراليست وأراد تحليلها، فمجرد تنزيل هذه البيانات فقط سيكلف المال”.  

مستقبل البيانات المفتوحة

آي ناتشوراليست هي منظمة غير ربحية صغير تتبع لأكاديمية كاليفورنيا للعلوم ومنظمة “ناشيونال جيوغرافيك سوسايتي”. وهنا تلعب شركة أمازون دورها المهم. إذ قالت “ماغي كارتر”، المديرة العالمية لبرنامج “التأثير الاجتماعي العالمي” التابع لشركة أمازون ويب سيرفيسز في رسالة عبر البريد الإلكتروني إن برنامج “الرعاية الخاص بالبيانات المفتوحة” الذي أُطلق في عام 2009، والذي تديره شركة أمازون ويب سيرفيسز، يغطّي تكاليف التخزين ورسوم النطاق الترددي لمجموعات البيانات التي يعتبرها القائمون على البرنامج “ذات قيمة كبيرة للمستخدمين”. يوفّر هذا البرنامج أيضاً الشفرات البرمجية اللازمة للوصول إلى البيانات ويرسل إشعارات عندما يتم تحديث مجموعات البيانات. يرعى البرنامج حالياً نحو 300 من مجموعات البيانات، من التسجيلات الصوتية للغابات المطيرة والحيتان إلى صور الأقمار الاصطناعية وسلاسل الحمض النووي والبيانات السكانية الخاصة بالولايات المتحدة.      

ترى شركة أمازون في الوقت الذي تخضع فيه مراكز البيانات الضخمة للرقابة الدقيقة من ناحية استهلاكها للطاقة أن استخدام نقطة تجمع مركزية للبيانات أمر أكثر كفاءة في استخدام الطاقة مقارنة بإنشاء كل فرد من البرنامج بنى تحتية خاصة به لتخزين البيانات بشكل محلي. تقول كراتر: “نعتقد أن استخدام نموذج بيانات مفتوحة أكثر كفاءة. تتمثل الفكرة الأساسية من برنامج البيانات المفتوحة التابع لشركة أمازون ويب سيرفيسز في تخزين البيانات مرة واحدة ثم جعل جميع المستخدمين يعملون ضمن هذه المجموعة من البيانات الموثوقة. يسمح ذلك بتقليل كمية البيانات المكررة التي يجب تخزينها في مكان آخر”. تقول كراتر إن هذا يؤدي إلى تقليل البصمة الكربونية الكلية. بالإضافة إلى ذلك، تسعى شركة أمازون ويب سيرفيسز لأن تشغّل كل عملياتها باستخدام الطاقة المتجددة بنسبة 100% بحلول عام 2025.    

يعتقد لوري أنه يجب مشاركة البيانات المفيدة والقابلة للتطبيق كلما أمكن ذلك، على الرغم من التحديات التي يواجهها هذا المجال. يعتقد العديد من العلماء الآخرين بأن هذه الفكرة جيدة. تستخدم منصة أخرى تدعى “إي بيرد” تابعة لجامعة كورنيل علم المواطنين أيضاً لجمع بيانات مفتوحة يمكن استخدامها من قبل المجتمع العلمي. الجدير بالذكر أنه تم استخدام بيانات هذه المنصة لتطوير أدوات يستطيع مستخدمي المنصة الاستفادة منها، مثل تطبيق “بيرد سونغ آي دي” الذي يهدف إلى جعل التفاعل مع أشكال الحياة البرية في الطبيعة أكثر سهولة وإمتاعاً. يسعى بعض الباحثين خارج مجال علوم المواطنين، مثل أولئك الذين يعملون على إنشاء مكتبة عالمية للأصوات الحيوية تحت المائية، إلى تجميع البيانات التي تم استخلاصها بشكل احترافي من عدة مؤسسات ومجموعات بحثية في مجموعة بيانات مفتوحة ضخمة.     

اقرأ أيضاً: هذه هي البيانات التي يمكن أن تشاركها شركات الاختبارات الجينية

يقول لوري: “يمتنع الكثير من الباحثين عن مشاركة البيانات ويتمسكون بخوارزميات حقوق الملكية لأنهم يعتقدون أن هذا هو السر للحصول على الإيرادات والاعتراف الذي سيساعد برنامجهم على أن يكون مستداماً”، ويضيف: “أعتقد أن جميع الأشخاص المنخرطين في عالم البيانات المفتوحة يخاطرون معتقدين دون إثبات أن مزايا هذا النموذج تفوق مساوئه”.