top of page
Search
Writer's pictureDr. Arwa Aleryani

اتجاهات بحثية مستقبلية في التنقيب عن البيانات (Data mining)


يعد التنقيب عن البيانات أحد الأساليب الأكثر استخدامًا لاستخراج البيانات من مصادر مختلفة وتنظيمها لاستخدام أفضل واستخراج المعرفة منها. على الرغم من وجود أنظمة تجارية مختلفة للتنقيب في البيانات، تظهر الكثير من التحديات عندما يتم تنفيذها فعليًا لذا يتم التطلع لنتائج الباحثين في هذا العلم للاستفادة بشكل أفضل من تنقيب البيانات. في العقد القادم، يمكننا أن نتوقع أن يصبح التنقيب عن البيانات في كل مكان مثل بعض التقنيات الأكثر انتشارًا المستخدمة اليوم. تتضمن بعض اتجاهات التنقيب عن البيانات الرئيسية للمستقبل تحليل فعال أكثر للأسواق، الخدمات المصرفية، الصحة، الأعلام والتعليم وغيرها من المجالات التي تهدف لتحسين عملها وفهم أفضل لسلوك عملاءها.



الغرض الرئيسي من التنقيب في البيانات


بشكل أساسي، تساعد المعلومات التي تم جمعها من تنقيب البيانات Data Mining في التنبؤ بالأنماط المخفية والاتجاهات والسلوكيات المستقبلية والسماح للشركات باتخاذ القرارات. من الناحية الفنية ، يعد استخراج البيانات عملية حسابية لتحليل البيانات من منظور وأبعاد وزوايا مختلفة وتصنيفها / تلخيصها في معلومات ذات معنى. يمكن تطبيق التنقيب في البيانات على أي نوع من البيانات ، على سبيل المثال مخازن البيانات ، قواعد بيانات المعاملات ، قواعد البيانات العلائقية ، قواعد بيانات الوسائط المتعددة ، قواعد البيانات المكانية ، قواعد بيانات السلاسل الزمنية ، شبكة الويب العالمية.


نناقش في مقالتنا اليوم أهم الاتجاهات البحثية لتنقيب البيانات كما جاء في المقالة

مع الإضافات والتوضيح.


تعدين بيانات الوسائط المتعددة Multimedia Data Mining


تعدين بيانات الوسائط المتعددة واحدة من أحدث الطرق التي تلحق بالركب بسبب القدرة المتزايدة على التقاط البيانات المفيدة بدقة. يتضمن استخراج البيانات من أنواع مختلفة من مصادر الوسائط المتعددة مثل الصوت والنص وبيانات النص التشعبي والفيديو والصور وما إلى ذلك ويتم تحويل البيانات إلى تمثيل رقمي بتنسيقات مختلفة. يمكن استخدام هذه الطريقة في التجميع والتصنيفات وإجراء فحوصات التشابه وأيضًا لتحديد الارتباطات.

يمكن استخدام أربعة نماذج مختلفة لتعدين الوسائط المتعددة. هذه هي التصنيف classification، وقاعدة الارتباط association rule، والتكتل أو العنقدة clustering، والنمذجة الإحصائية statistical modeling. يعد استخراج بيانات الوسائط المتعددة مجالًا متعدد التخصصات يدمج معالجة الصور وفهمها ورؤية الحاسوب واستخراج البيانات والتعرف على الأنماط. تشمل التحديات في التنقيب عن بيانات الوسائط المتعددة، البحث القائم على المحتوى والبحث عن التشابه والتعميم والتحليل متعدد الأبعاد.


الهدف البحثي: التنقيب عن الصوت Audio mining مثلا يمكن ان يكون أحد مجالات البحث، وهو تقنية يمكن من خلالها تحليل محتوى الإشارة الصوتية والبحث فيها تلقائيًا. هو الأكثر استخدامًا في مجال التعرف التلقائي على الكلام، حيث يحاول التحليل تحديد أي كلام داخل الصوت.



التنقيب عن البيانات في كل مكان Ubiquitous Data Mining


تتضمن هذه الطريقة التنقيب عن البيانات من الأجهزة المحمولة للحصول على معلومات حول الأفراد. على الرغم من وجود العديد من التحديات في هذا النوع مثل التعقيد والخصوصية والتكلفة وما إلى ذلك، فإن هذه الطريقة لديها الكثير من الفرص لتكون هائلة في مختلف الصناعات وخاصة في دراسة التفاعلات بين الإنسان والحاسوب. ويعتبر التنقيب عن البيانات في كل مكان هو التنقيب عن البيانات داخل الجهاز في الوقت الفعلي في بيئة حوسبة في كل مكان وفقًا لمتطلبات البيئة من خلال مراعاة قيود الموارد للجهاز، واستغلال معلومات السياق، والتصرف بشكل مستقل، وتطبيق أساليب خاصة للحفاظ على الخصوصية. تمثل التطورات في التقنيات اللاسلكية وأجهزة الاستشعار والأجهزة المحمولة والقابلة للارتداء تحديات جديدة لأبحاث التنقيب عن البيانات حول تزويد تطبيقات الهاتف المحمول بالذكاء. تعد متطلبات الاستقلالية والقدرة على التكيف أهم تحديين لاستخراج البيانات في هذه البيئة الجديدة.


الهدف البحثي: يمكن ان تكون السحابة مجال بحثي خصب، حيث يمكن لنظام استخراج البيانات المستند إلى السحابة cloud-based data mining system تحسين قدرته على المعالجة بدرجة كبيرة جدا. مع نمو الأعمال في حجم البيانات والعمليات التجارية المتكررة في جميع أنحاء المنطقة ، يتم عادةً تخزين البيانات في مستودع البيانات أو مركز البيانات الموزع أو السحابة التي توفر دعم أفضل لتبادل المعلومات.


استخراج البيانات الموزعة Distributed Data Mining


يكتسب هذا النوع من التنقيب عن البيانات أهمية كبيرة لأنه يتضمن استخراج كمية هائلة من المعلومات المخزنة في مواقع شركات مختلفة أو في مؤسسات مختلفة. يتم استخدام خوارزميات معقدة للغاية لاستخراج البيانات من مواقع مختلفة وتقديم رؤى وتقارير مناسبة تستند إليها. تنقيب البيانات الموزعة (DDM) هو مجال يتعامل مع تحليل البيانات الموزعة ويقترح حلولاً حسابية لأداء عمليات تحليل البيانات والتنقيب المختلفة بطريقة موزعة من خلال مراعاة قيود الموارد.


الهدف البحثي: من المعروف ان البيانات صارت موزعة على نطاق جغرافي واسع ومتعدد ومتنوع وعلى أجهزة كثيرة ومتنوعة وعليها يعتبر مجال بحثي مهم يهدف إلى تحسين استخراج البيانات الموزعة من خلال الأبحاث المعول عليها والمطلوبة بشدة.


التنقيب عن البيانات المكانية والجغرافية Spatial and Geographic Data Mining


هذا نوع شائع من التنقيب عن البيانات والذي يتضمن استخراج المعلومات من البيانات البيئية والفلكية والجغرافية والتي تتضمن أيضًا صورًا مأخوذة من الفضاء الخارجي. يمكن أن يكشف هذا النوع من التنقيب عن البيانات عن جوانب مختلفة مثل المسافة والطوبولوجيا التي تستخدم بشكل أساسي في أنظمة المعلومات الجغرافية وتطبيقات الملاحة الأخرى. التنقيب عن البيانات المكانية هو عملية اكتشاف أنماط مثيرة للاهتمام وغير معروفة سابقًا ، ولكنها قد تكون مفيدة ، من مجموعات البيانات المكانية الكبيرة. النهج الشائع هو تطبيق تقنيات التنقيب عن البيانات الكلاسيكية بعد تحويل المكونات المكانية إلى مكونات غير مكانية عبر اختيار الميزة.


الهدف البحثي: وهذا الاتجاه البحثي يصب بنفس الهدف السابق ويركز على التنوع الضخم لنوع ومكان توفر البيانات. وبذا فهو مجال متنوع بتنوع أماكن وأنواع ومصادر تدفق البيانات.


التحديات في التنقيب عن البيانات

تعتبر التحديات هي الحافز والدافع أمام الباحثين المهتمين في علم تنقيب البيانات، وهناك مجموعة تحديات مرصودة كما جاءت بالمقالة


التحديات الأمنية والاجتماعية Security and Social Challenges


من المعروف ان تنقيب البيانات يعتمد على بيانات الأفراد والمؤسسات، ومن هنا تأتي أهمية خصوصية وسرية هذه البيانات. تتم استراتيجيات صنع القرار من خلال تبادل البيانات، لذلك فهي تتطلب قدرًا كبيرًا من الأمان. يتم جمع المعلومات الخاصة حول الأفراد والمعلومات الحساسة لملفات تعريف العملاء وفهم أنماط سلوك المستخدم. أصبح الوصول غير القانوني إلى المعلومات والطبيعة السرية للمعلومات قضية مهمة.


الهدف البحثي: يمكن ان يكون جانب بحثي مهم في دراسة كيفية الاستفادة من هذه البيانات دون خرق خصوصية الأفراد. كما يمكن دراسة خصوصية الأفراد والبيانات الحساسة ومحاولة إيجاد السبل لحمايتها والقدرة على تشفيرها بحيث يتم للاستفادة منها دون خرق الخصوصية.


تحديات واجهة المستخدم User Interface


المعرفة المكتشفة التي يتم اكتشافها باستخدام أدوات التنقيب عن البيانات، مفيدة فقط إذا كانت مثيرة للاهتمام وقبل كل شيء مفهومة من قبل المستخدم. من خلال التفسير المرئي الجيد للبيانات، يمكن تخفيف نتائج التنقيب والمساعدة في فهم متطلباتها بشكل أفضل. للحصول على تصور جيد، يتم إجراء العديد من الأبحاث لمجموعات البيانات الضخمة التي تعرض المعرفة الملغومة وتعالجها.

  • التنقيب على أساس مستوى التجريد: يجب أن تكون عملية التنقيب في البيانات تعاونية لأنها تتيح للمستخدمين التركيز على العثور على الأنماط وتقديم طلبات استخراج البيانات وتحسينها استنادًا إلى النتائج التي يتم إرجاعها.

  • تكامل المعرفة الأساسية: يمكن استخدام المعلومات السابقة للتعبير عن الأنماط المكتشفة لتوجيه عمليات الاستكشاف والتعبير عن الأنماط المكتشفة

الهدف البحثي: يمكن ان يكون مجال بحثي لتطوير وتحسين واجهات المستخدم مما يتيح رؤية أفضل للبيانات واستخدام أكثر فعالية.


تحديات منهجية التنقيب Mining Methodology Challenges


ترتبط هذه التحديات بنهج التنقيب عن البيانات وقيودها. طرق التعدين التي تسبب المشكلة هي:

تعددية أساليب التنقيب ، تنوع البيانات المتاحة، أبعاد المجال ، التحكم في الضوضاء في البيانات والتعامل معها، إلخ. قد يتم تنفيذ الأساليب المختلفة بشكل مختلف بناءً على اعتبار البيانات. تتطلب بعض الخوارزميات بيانات خالية من الضوضاء. تحتوي معظم مجموعات البيانات على استثناءات، تؤدي المعلومات غير الصالحة أو غير الكاملة إلى تعقيد عملية التحليل وبعض الحالات تقوض دقة النتائج.


الهدف البحثي: تعتبر تنظيف البيانات والبيانات الخالية من الضوضاء من المجالات البحثية المهمة التي تعمل على زيادة فعالية استخدام البيانات.


تحديات البيانات المعقدة Complex Data


بيانات العالم الحقيقي غير متجانسة ويمكن أن تكون بيانات وسائط متعددة تحتوي على صور، صوت وفيديو، بيانات معقدة، بيانات زمنية، بيانات مكانية، سلاسل زمنية، نص لغة طبيعية، إلخ. من الصعب معالجة هذه الأنواع المختلفة من البيانات واستخراج البيانات المطلوبة معلومات. يتم تطوير أدوات ومنهجيات جديدة لاستخراج المعلومات ذات الصلة.

  • أنواع البيانات المعقدة: يمكن أن تتضمن قاعدة البيانات عناصر بيانات معقدة ، وكائنات تحتوي على بيانات رسومية ، وبيانات مكانية ، وبيانات زمنية. لا يعد التنقيب كل هذه الأنواع من البيانات عمليًا للقيام به على جهاز واحد.

  • التنقيب من مصادر متنوعة: يتم جمع البيانات من مصادر مختلفة على الشبكة. قد يكون مصدر البيانات من أنواع مختلفة اعتمادًا على كيفية تخزينها مثل الهيكلية أو شبه الهيكلية أو غير المهيكلة.

الهدف البحثي: دراسة وبحث كيفية الاستفادة من البيانات المعقدة وخاصة مع تدفق البيانات من مصادر متنوعة ومن خلال تقنيات متعددة، يمكن ان يكون إضافة قيمة لتحليل والاستفادة من البيانات.


تحديات الأداء Performance


يعتمد أداء نظام التنقيب عن البيانات على كفاءة الخوارزميات والتقنيات المستخدمة. الخوارزميات والتقنيات المصممة لا ترقى إلى المستوى الذي يؤدي إلى التأثير على أداء عملية استخراج البيانات.

  • كفاءة الخوارزميات وقابليتها للتوسع: يجب أن تكون خوارزمية استخراج البيانات فعالة وقابلة للتطوير لاستخراج المعلومات من كميات هائلة من البيانات في قاعدة البيانات.

  • تحسين خوارزميات التنقيب: عوامل مثل الحجم الهائل لقاعدة البيانات وتدفق البيانات بالكامل وصعوبة مناهج التنقيب عن البيانات تلهم إنشاء خوارزميات استخراج البيانات المتوازية والموزعة.

الهدف البحثي: ما زالت خوارزميات تنقيب البيانات من المجالات الرائدة والتي تتطلب وتحتاج الى مزيد من الدراسات والأبحاث لتحسينها ورفع كفاءتها وخاصة مع التدفق الكبير للبيانات.


أستاذ مشارك - تكنولوجيا المعلومات

باحث ومستشار أكاديمي


أضغط هنا "Dr. Arwa Aleryani-Blog " لتسجيل متابعة، حتى يصلك الجديد من المدونة الأكاديمية.









157 views0 comments

Comments


bottom of page