top of page
Search
  • Writer's pictureDr. Arwa Aleryani

مجموعة البيانات (Dataset)

Updated: May 6

البحث الأكاديمي هو عملية استكشافية تستند إلى المنهج العلمي لاكتساب المعرفة وفهم المفاهيم واكتشاف الحقائق الجديدة في مجال معين. يتمثل الهدف الرئيسي للبحث الأكاديمي في إضافة المساهمات الأصلية والمفيدة إلى المعرفة الموجودة، وذلك من خلال دراسة الأدبيات المتاحة، وتطبيق الطرق البحثية المناسبة، وتحليل البيانات، وتقديم الاستنتاجات. 

باستخدام قواعد البيانات الرقمية أو مجموعة البيانات (Dataset)، يمكن للباحثين الوصول إلى مصادر ومعلومات ذات جودة عالية تساعدهم في إنتاج أبحاث أكاديمية ذات قيمة علمية وأكاديمية. وتعتبر قواعد البيانات الرقمية مجموعات هائلة من المعلومات المخزنة بشكل إلكتروني ومنظمة بطريقة تسمح بالبحث والوصول السهل إليها. تشمل قواعد البيانات الرقمية مجموعات بيانات مثل المكتبات الرقمية، والأرشيف الإلكتروني، وقواعد البيانات الأكاديمية، والمجلات العلمية عبر الإنترنت، والمواقع الإلكترونية الأخرى التي تحتوي على معلومات متعلقة بمختلف المواضيع والتخصصات.


خطوات استخدام قواعد البيانات الرقمية


عند القيام بالبحث الأكاديمي باستخدام قواعد البيانات الرقمية، يتبع الباحث العديد من الخطوات، بما في ذلك:


  • تحديد الموضوع والمشكلة البحثية: يبدأ الباحث بتحديد الموضوع الذي يرغب في البحث عنه، وتحديد المشكلة البحثية التي يرغب في حلها أو السؤال الذي يرغب في الإجابة عليه.

  • البحث عن المصادر الأكاديمية: يقوم الباحث بالبحث في قواعد البيانات الرقمية المتاحة للعثور على المقالات والدراسات والكتب والمراجع ذات الصلة بموضوع بحثه.

  • تقييم المصادر: يقوم الباحث بتقييم المصادر التي عثر عليها للتأكد من مصداقيتها وملاءمتها لأغراض بحثه.

  • تحليل البيانات والمعلومات: في حالة وجود بيانات أو معلومات متاحة في البحث، يقوم الباحث بتحليل هذه البيانات باستخدام الأساليب الإحصائية أو النوعية المناسبة.

  • كتابة التقرير البحثي: يقوم الباحث بكتابة تقرير البحث الأكاديمي، الذي يشمل المقدمة والمراجع السابقة والمنهجية والنتائج والتوصيات.

 

خطوات استخدام مجموعة البيانات Dataset


يتضمن استخدام مجموعة البيانات عادةً عدة خطوات، خاصة في سياق تحليل البيانات أو نماذج تعلم الآلة. فيما يلي دليل عام حول كيفية استخدام مجموعة البيانات بشكل فعال:


الحصول على مجموعة البيانات:

    - تحديد وتحديد مجموعة البيانات التي تريد استخدامها. يمكن أن يكون هذا من مستودع عام، أو قاعدة بيانات، أو ملف مقدم من عميل أو مؤسسة.


تحميل مجموعة البيانات:

    - اعتمادًا على تنسيق مجموعة البيانات (على سبيل المثال، CSV، JSON، Excel، قاعدة البيانات)، استخدم الأدوات أو المكتبات المناسبة لتحميل مجموعة البيانات في بيئة العمل الخاصة بك. على سبيل المثال: في Python، يمكنك استخدام مكتبات مثل Pandas (`pd.read_csv()` لملفات CSV)، أو `json` لملفات JSON، أو استعلامات SQL لاسترداد البيانات من قاعدة البيانات.


استكشاف مجموعة البيانات:

    - فهم هيكل ومحتوى مجموعة البيانات من خلال:

  1.       التأكد من الأبعاد (عدد الصفوف والأعمدة).

  2.       فحص أسماء الأعمدة وأنواع البيانات.

  3.       عرض عينة من البيانات للحصول على فكرة أولية عما تم تضمينه ("head()" أو `tail()` في Pandas).


تنظيف البيانات والمعالجة المسبقة:

    - التعامل مع القيم المفقودة: قرر ما إذا كنت تريد إضافة البيانات المفقودة أو إسقاط الصفوف/الأعمدة ذات القيم المفقودة.

    - تنظيف البيانات: معالجة التناقضات أو القيم المتطرفة أو الأخطاء في مجموعة البيانات.

    - تحويل أنواع البيانات إذا لزم الأمر (على سبيل المثال، تحويل تواريخ السلسلة إلى كائنات التاريخ والوقت).


تصور البيانات (اختياري ولكن يوصى به بشدة):

    - إنشاء تصورات (على سبيل المثال، المدرج التكراري (histograms)، والمخططات المبعثرة (scatter plots)، وما إلى ذلك) للحصول على رؤى حول مجموعة البيانات وتحديد الأنماط أو العلاقات.


تحليل البيانات:

    - اعتمادًا على أهدافك، قم بإجراء تحليلات محددة أو إنشاء نماذج تعلم الآلة مثل:

  1.       الإحصائيات الوصفية: حساب الإحصائيات الموجزة مثل المتوسط والوسيط والتباين وما إلى ذلك.

  2.       تحليل البيانات الاستكشافية: التعمق في العلاقات بين المتغيرات.

  3.       النمذجة: تدريب النماذج التنبؤية باستخدام تقنيات التعلم الخاضعة للإشراف أو غير الخاضعة للإشراف.


التحقق من صحة النتائج وتفسيرها:

    - تقييم التحليل أو أداء النموذج باستخدام المقاييس المناسبة.

    - تفسير النتائج في سياق مشكلتك أو سؤال البحث.


التكرار والتحسين:

    - بناءً على التحليل، قد تحتاج إلى العودة إلى الخطوات السابقة، أو تحسين المعالجة المسبقة، أو تجربة أساليب مختلفة للنمذجة.

نتائج الوثيقة:

    - قم بتوثيق عمليتك ونتائجك وأي أفكار تم الحصول عليها أثناء التحليل. هذه الوثائق أمر بالغ الأهمية لإمكانية تكرار نتائج وتبادل النتائج.


توثيق النتائج:

     - اعرض نتائجك أو أفكارك على أصحاب المصلحة أو العملاء أو الزملاء باستخدام المرئيات أو التقارير أو العروض التقديمية المناسبة.

 

خلال هذه العملية، من الضروري الحفاظ على فهم واضح لمجموعة البيانات وقيودها والأهداف المحددة لمهمة التحليل أو النمذجة. يجب تعديل كل خطوة بناءً على طبيعة وخصائص مجموعة البيانات وأهداف التحليل.

 



أمثلة مجموعة البيانات Dataset


مجموعة البيانات عبارة عن مجموعة من البيانات، يتم تقديمها عادةً بتنسيق منظم، ويتم استخدامها للتحليل أو البحث أو لأغراض أخرى. يمكن أن تأتي مجموعات البيانات بأشكال مختلفة، بما في ذلك الجداول وجداول البيانات والملفات النصية وقواعد البيانات والصور ومقاطع الفيديو والمزيد. وقد تحتوي على معلومات حول مجموعة واسعة من المواضيع ويمكن الحصول عليها من مصادر مختلفة، بما في ذلك البحث العلمي والوكالات الحكومية والمؤسسات الأكاديمية والشركات والأفراد. مجموعة البيانات في مجال أبحاث التكنولوجيا هي عبارة عن مجموعة من البيانات، غالبًا ما يتم تنظيمها واستخدامها لأغراض مختلفة مثل تعلم الآلة، وتطوير الخوارزميات، واكتشاف البيانات، والبحث في مجالات مثل تفاعلات البروتين، ومعالجة اللغة الطبيعية، وتحسين الشبكة، والألعاب.

 بعض الأمثلة على مجموعات البيانات:

  • بيانات التعداد Census Dataset : مجموعات البيانات التي تحتوي على معلومات ديموغرافية عن السكان، بما في ذلك العمر والجنس والانتماء العرقي والدخل والتعليم وخصائص الأسرة.

  • المؤشرات الاقتصادية Economic Indicators : مجموعات بيانات تحتوي على معلومات حول المؤشرات الاقتصادية مثل الناتج المحلي الإجمالي (الناتج المحلي الإجمالي)، ومعدلات البطالة، ومعدلات التضخم، والإنفاق الاستهلاكي.

  • بيانات المناخ Climate Dataset : مجموعات البيانات التي تحتوي على معلومات حول أنماط الطقس ودرجة الحرارة وهطول الأمطار والرطوبة والمتغيرات الأخرى المتعلقة بالمناخ والتي يتم جمعها مع مرور الوقت.

  • بيانات الرعاية الصحية Healthcare Dataset : مجموعات البيانات التي تحتوي على معلومات حول التركيبة السكانية للمرضى والتشخيص الطبي والعلاجات والنتائج والاستفادة من الرعاية الصحية.

  • بيانات السوق المالية Financial Market Dataset : مجموعات البيانات التي تحتوي على معلومات حول أسعار الأسهم، وأحجام التداول، ومؤشرات السوق، والبيانات المالية للشركة، ومقاييس السوق المالية الأخرى. 

  • بيانات الوسائط الاجتماعية Social Media Dataset : مجموعات البيانات التي تحتوي على نصوص أو صور أو مقاطع فيديو تم جمعها من منصات التواصل الاجتماعي مثل Twitter وFacebook وInstagram وYouTube.

  • البيانات الجينومية Genomic Dataset : مجموعات البيانات التي تحتوي على معلومات وراثية عن الكائنات الحية، بما في ذلك تسلسل الحمض النووي، ومستويات التعبير الجيني، والتنوعات الجينية.

  • بيانات النقل Transportation Dataset : مجموعات البيانات التي تحتوي على معلومات حول أنظمة النقل، بما في ذلك حجم حركة المرور، وأوقات السفر، وجداول النقل العام، وبيانات نظام تحديد المواقع العالمي (GPS) للمركبات.

  • بيانات التعليم Education Dataset : مجموعات بيانات تحتوي على معلومات حول المؤسسات التعليمية، والتحاق الطلاب، ومعدلات التخرج، ودرجات الاختبارات الموحدة، والنتائج التعليمية.

  • مجموعات البيانات البحثية Research Datasets : مجموعات البيانات التي يتم جمعها لأغراض بحثية محددة، مثل الدراسات الاستقصائية والتجارب والتجارب السريرية والدراسات الرصدية وعمليات المحاكاة.

مواقع مجموعة البيانات


هناك العديد من الموارد والمواقع الإلكترونية حيث يمكنك العثور على مجموعات بيانات للبحث في مجالات مختلفة، عند استخدام مجموعات البيانات للبحث، تأكد دائمًا من احترام أي إرشادات للاستخدام، وتوفير الإسناد المناسب، وفهم أي قيود ترخيص مرتبطة بالبيانات. مع الأخذ بالاعتبار، من المهم إجراء تقييم نقدي لجودة البيانات وملاءمتها للتأكد من ملاءمتها لأغراض البحث الخاصة بك. ومن هذه المنصات والمستودعات التالي:

  • منصة : Kaggle هي منصة معروفة لمسابقات علوم البيانات وتستضيف أيضًا مجموعة كبيرة من مجموعات البيانات التي يمكن للمستخدمين استكشافها وتحليلها واستخدامها في المشاريع البحثية.

  • مستودع UCI Machine Learning Repository: هذا المستودع الذي تحتفظ به جامعة كاليفورنيا، إيرفين يوفر مجموعات بيانات لأبحاث تعلم الآلة. ويغطي مجموعة واسعة من المجالات مثل التصنيف، والانحدار، والتجمع، وما إلى ذلك.

  • منصة Google Dataset Search: تساعد هذه الأداة على اكتشاف مجموعات البيانات المستضافة عبر الإنترنت، بغض النظر عن المجال. يقوم بتجميع مجموعات البيانات من مصادر مختلفة على الإنترنت.

  • مستودع GitHub: يشارك العديد من الباحثين والمنظمات مجموعات البيانات في مستودعات GitHub. يمكن للباحثين البحث عن مجموعات البيانات باستخدام الكلمات الرئيسية أو استكشاف المستودعات المخصصة لمشاركة البيانات.

  • بوابات البيانات الحكومية المفتوحة: غالبًا ما تقوم الحكومات بإتاحة البيانات للجمهور لأغراض البحث والتحليل. تشمل الأمثلة data.gov (الولايات المتحدة)، وdata.gov.uk (المملكة المتحدة)، والعديد من البوابات الإلكترونية الخاصة بكل بلد.

  • مجموعات بيانات AWS العامة: تستضيف Amazon Web Services مجموعة من مجموعات البيانات العامة على نظامها الأساسي، والتي تغطي مجالات متنوع مثل علم الأحياء والكيمياء والاقتصاد والمزيد.

  • منصة : OpenML عبارة عن منصة عبر الإنترنت تتيح للباحثين مشاركة مجموعات البيانات والتجارب. كما أنه يدعم أبحاث التعلم الآلي التعاونية.

  • مجموعات بيانات مجتمع Reddit: مجموعة subredditr/datasets عبارة عن مجتمع يشارك فيه المستخدمون مجموعات البيانات ويطلبونها لأغراض بحثية مختلفة.

  • منصة Data.gov: هذا مستودع لمجموعات البيانات المقدمة من حكومة الولايات المتحدة، ويغطي مجموعة واسعة من المواضيع بما في ذلك الزراعة والمناخ والتعليم والصحة والمزيد.

  • منصة Data.world: تستضيف هذه المنصة مجموعة واسعة من مجموعات البيانات من مصادر مختلفة وتشجع التعاون والمناقشة حول البيانات.  

  مقارنة بين قواعد البيانات الرقمية ومجموعة البيانات


تعد قواعد البيانات الرقمية ومجموعات البيانات الرقمية بمثابة مجموعات من المعلومات الرقمية، ولكنها تخدم أغراضًا مختلفة ولها خصائص مختلفة. فيما يلي نظرة عامة على الاختلافات الرئيسية بينهما:

التعريف:

  1. قواعد البيانات الرقمية: قاعدة البيانات الرقمية هي مجموعة منظمة من البيانات التي يتم تنظيمها بطريقة تسمح باسترجاع المعلومات وإدارتها وتحديثها بكفاءة. تتكون قواعد البيانات عادةً من عدة جداول أو ملفات مترابطة تحتوي على سجلات ذات حقول أو سمات.

  2. مجموعة البيانات: مجموعة البيانات عبارة عن مجموعة من البيانات التي عادة ما تكون أولية وغير معالجة. يمكن أن تكون منظمة أو غير منظمة وقد تأتي بتنسيقات مختلفة، مثل الملفات النصية أو جداول البيانات أو الصور أو الملفات الصوتية. قد لا يتم بالضرورة تنظيم مجموعات البيانات في بنية تشبه قاعدة البيانات.

 

البناء:

  1. قاعدة البيانات الرقمية: قواعد البيانات لها تنسيق منظم وغالبًا ما تتبع نموذج بيانات محدد، مثل العلائقية أو الهرمية أو الشبكية أو الموجهة للكائنات. يستخدمون المخططات لتحديد بنية البيانات والعلاقات بين الكيانات المختلفة.

  2.  مجموعة البيانات: قد تحتوي أو لا تحتوي مجموعات البيانات على بنية محددة مسبقًا. ويمكن أن تكون منظمة، أو شبه منظمة، أو غير منظمة. تحتوي مجموعات البيانات المنظمة على تنسيق محدد جيدًا مع صفوف وأعمدة منظمة، على غرار جدول قاعدة البيانات. تفتقر مجموعات البيانات شبه المنظمة وغير المنظمة إلى مخطط صارم وقد تحتوي على بيانات بتنسيقات مثل JSON أو XML أو نص عادي.

 

الغاية:

  1. قواعد البيانات الرقمية: تم تصميم قواعد البيانات لتخزين وإدارة واسترجاع البيانات بطريقة منظمة ومنظمة. يتم استخدامها بشكل شائع لأنظمة المعاملات وتخزين البيانات والمعالجة التحليلية عبر الإنترنت online analytical processing (OLAP).

مجموعة البيانات: تُستخدم مجموعات البيانات لأغراض مختلفة، بما في ذلك البحث والتحليل والنمذجة والتعلم الآلي. إنها بمثابة مادة خام لاستخلاص الأفكار وتدريب الخوارزميات واختبار الفرضيات وإجراء التجارب.


الاستخدام:

  1. قواعد البيانات الرقمية: تُستخدم قواعد البيانات عادةً بواسطة التطبيقات والأنظمة لتخزين واسترجاع البيانات المنظمة. وهي تدعم عمليات مثل الاستعلام عن السجلات وإدراجها وتحديثها وحذفها.

  2. مجموعة البيانات: يتم استخدام مجموعات البيانات من قبل الباحثين والمحللين وعلماء البيانات والمطورين لإجراء الدراسات والتجارب والتحليلات. ويمكن معالجتها وتحويلها وتحليلها باستخدام أدوات وخوارزميات متخصصة.


 

الخلاصة


تشكل مجموعة البيانات المنسقة جيدًا الأساس للتحليل القوي، مما يمكّن الباحثين والممارسين من استخلاص رؤى ذات معنى واتخاذ قرارات مستنيرة. يكمن أحد الجوانب الرئيسية لأهمية مجموعة البيانات في دورها في ضمان دقة النتائج التحليلية وموثوقيتها وتمثيلها. إن مجموعة البيانات عالية الجودة لا تدعم صحة نتائج الأبحاث فحسب، بل تسهل أيضًا إمكانية التكرار والشفافية في التحقيقات العلمية. علاوة على ذلك، تعمل مجموعات البيانات كموارد قيمة لتدريب نماذج التعلم الآلي، وتحفيز الابتكار في الذكاء الاصطناعي والتحليلات التنبؤية. يعد الوصول إلى مجموعات البيانات الشاملة والمتنوعة أمرًا أساسيًا في مواجهة التحديات المعقدة في مختلف المجالات، بدءًا من الرعاية الصحية والتمويل وحتى العلوم البيئية والدراسات الاجتماعية. وفي نهاية المطاف، يعد الاستثمار في تطوير وصيانة مجموعات البيانات عالية الجودة أمرًا ضروريًا لتطوير المعرفة وتحفيز الابتكار وتقديم مساهمات مؤثرة للمجتمع.

 

دكتورة أروى يحيى الأرياني

أستاذ مشارك - تكنولوجيا المعلومات

باحث ومستشار أكاديمي

 

 

 " لتسجيل متابعة، حتى يصلك الجديد من المدونة الأكاديمية أضغط هنا  Dr. Arwa Aleryani-Blog".




 


 

 

 

34 views0 comments

Comments


bottom of page