الرئيسية » تنقيب البيانات » تنقيب البيانات – تعريفه وأهدافه وفوائده

تنقيب البيانات – تعريفه وأهدافه وفوائده

آخر تحديث: مارس 1, 2021

الملخص

شرح مفهوم تنقيب البيانات والحاجة إليه وأهدافه واستخداماته في المجالات المختلفة، وشرح إجراءاته وأدواته ونوع البيانات التي يتم التنقيب فيها، والبنية الهيكلية لتلك البيانات مع تبسيط مفهوم قواعد البيانات وقواعد البيانات العلائقية ولغة الاستعلام. شرح فوائد واستخدامات تعدين أو تنقيب البيانات المخزنة في قواعد البيانات المتخصصة في مختلف المجالات الحيوية في المجتمع.

ما هو تنقيب البيانات وما هي إجراءاته وأدواته

إن التقدم العلمي وانتشار استخدام التكنولوجيا في شتى مناحي الحياة اليومية أدى إلى رفع القدرة في توليد وجمع البيانات بشكل سريع في هذا العصر، وقد ساهم ذلك في حوسبة معظم الأعمال والعلوم والخدمات التي يتم تقديمها يوميًا في كل مكان حول العالم، حتى أن معظم المنتجات بكافة أنواعها أصبح لها شيفرة رقمية (رمز استجابة سريعة) تميزها عن بعضها البعض Bar Code، كما أن التقدم التكنولوجي تسبب في ظهور أنواع جديدة من البيانات كالنصوص والصور والفيديو وأنظمة متعددة المهام بالإضافة إلى شبكة الإنترنت التي تحتوي كميات هائلة من البيانات بكافة أشكالها. كل ذلك أدى إلى تضخم غير مسبوق في كميات البيانات التي يتم تخزينها يوميًا، الأمر الذي أظهر حاجات ملحة لتقنيات جديدة وأدوات ذكية يمكن أن تساعد في تحويل هذا الكم الهائل من البيانات إلى معلومات أو معرفة مفيدة، والتي تمثلت في أدوات تنقيب البيانات باعتبارها أدوات جديدة في منهجية البحث العلمي العصري الذي يختلف عن البحث العلمي الكلاسيكي.

أهداف تنقيب البيانات

إن تنقيب البيانات (أو التنقيب في البيانات أو تعدين البيانات) يهدف إلى استخلاص المعلومات المخبأة في كتل البيانات الكبيرة.

وتنقيب البيانات تكنولوجيا حديثة فرضت نفسها بقوة في عصر المعلوماتية، واستخدامها يوفر للشركات والمؤسسات في جميع المجالات، الأهلية والحكومية، القدرة على استكشاف، و/ أو التركيز على، أهم المعلومات في كتل البيانات الكبيرة. كما تركز تقنيات التنقيب على الاستشعار وبناء التنبؤات المستقبلية واستكشاف الأنماط والارتباطات والسلوك والاتجاهات مما يسمح بتقدير القرارات الصحيحة واتخاذها في الوقت المناسب ووضع الحلول المناسبة للمشكلات والتخطيط والتطوير والتحديث في جميع المجالات.

وتجيب تقنيات التنقيب على العديد من الأسئلة، وفي وقت قياسي، بخاصة تلك النوعية من الأسئلة التي كان من الصعب الإجابة عليها، إن لم يكن مستحيلا، باستخدام تقنيات التحليل الإحصائي الكلاسيكية، والتي كانت إن وجدت فإنها تستغرق وقتًا طويلا والعديد من إجراءات التحليل.

تنقيب البيانات وذكاء الأعمال

إن علم تنقيب البيانات يعتبر من العلوم الحديثة نسبيًا، وهو يشكل امتدادًا لعلم التحليل الإحصائي والعصب الرئيسي لعلوم ذكاء الأعمال أو استخبارات الأعمال بكافة أشكالها والمستخدمة بشكل أساسي في مجال الأعمال. وقد نشأ علم التنقيب كنتيجة طبيعية للتطور الكبير الذي حدث في مجال نظم المعلومات والتضخم الكبير في المعلومات التي تنمو بشكل أسي، وخاصة بعد الانتشار الواسع لاستخدام أنظمة المعلومات وتراكم الكم الهائل من البيانات التي أصبحت متداولة يوميًا في العديد من المجالات، الأمر الذي أدى إلى الحاجة الملحة للإجابة على العديد من الأسئلة واستكشاف المعرفة والتقديرات والتنبؤات المستقبلية.

كيف يمكن تحليل كل هذه البيانات - تنقيب البيانات واستكشاف المعرفة
كيف يمكن تحليل كل هذه البيانات – تنقيب البيانات واستكشاف المعرفة

وتعتبر عمليات التحليل والتنقيب من أولويات عمل دوائر التخطيط في الشركات والمؤسسات في العالم في الوقت الراهن والأداة المثلى للمستويات الإدارية العليا التي تطمح للنجاح وتضمن استمراره بشكل استراتيجي، نظرًا لما توفره من إمكانية لإنتاج المعرفة الحقيقية المخبأة في كتل البيانات الكبيرة الخاصة بأنشطة كل شركة أو مؤسسة والتي يتم تخزينها وتراكمها يوميًا.

أصل تسمية تنقيب البيانات

وتجدر الإشارة إلى أن أصل تسمية علم تنقيب البيانات يعود إلى أن عمليات التنقيب في الكميات الهائلة من البيانات تهدف بالأصل إلى استخراج المعرفة المخبأة فيها، وهي عملية تشبه إلى حد كبير عملية التنقيب عن الذهب والمعادن الثمينة المخبأة في باطن الأرض، وذلك باعتبار أن المعرفة هي الشيء الثمين الذي يتم البحث والتنقيب عنه في كتل البيانات الكبيرة. ومن باب الاختصار اصطلح على التسمية العلمية لعمليات التنقيب في البيانات بـ تنقيب البيانات أو تعدين البيانات (بالإنجليزية: Data Mining).

ما نوع البيانات التي يتم تنقيبها

باعتبارها تكنولوجيا عامة، فإن تقنيات تنقيب البيانات يمكن تطبيقها على أي نوع من أنواع البيانات، طالما أنها ذات معنى لطريقة وأسلوب التطبيق الذي يتم اتباعه، ومن أشهر البيئات التي يتم تطبيق تقنيات التنقيب فيها هي البيئات التي توفر أوعية مخصصة لحفظ وأرشفة البيانات مثل نظم الجداول الإلكترونية (Excel) ونظم قواعد البيانات وقواعد البيانات العلائقية (بالإنجليزية: Relational Database) ومستودعات البيانات (بالإنجليزية: Data Warehouse)، والتي يمكن أن تحتوي على بيانات المعاملات المختلفة كمبيعات محلات التجزئة مثلا.

كما يمكن تطبيقها على كل من:

  • سلاسل البيانات والأشكال
  • تدفقات البيانات
  • البيانات المكانية
  • النصوص
  • بيانات الوسائط المتعدد
  • بيانات الإنترنت

ما هية قواعد البيانات

إن نظم قواعد البيانات (بالإنجليزية: Database)، وتسمى أيضًا نظم إدارة قواعد البيانات (بالإنجليزية: Database Management Systems)، واختصارها هو DBMS، تتكون من مجموعة من البيانات المترابطة والتي تعرف بقاعدة البيانات ومجموعة من البرمجيات تكون مهمتها الإدارة والوصول إلى البيانات. وتوفر البرمجيات آلية لتعريف بنية قاعدة البيانات وطرق تخزين البيانات فيها والإدارة المتزامنة للبيانات وطرق الوصول إليها ومشاركتها وحفظها وتأمينها وضمان كفاءتها وتداولها بالطرق الصحيحة.

وتمثل قواعد البيانات وبيئات مستودعات البيانات بشكل عام بيئات متميزة لعلم تنقيب البيانات نظرًا لأنها تعتبر البيئة المثالية التي يمكن تطبيق تقنيات التنقيب فيها.

كما تعمل على تخزين البيانات بشكل منظم وضمن بنية وهيكلية تساعد بشكل كبير في تطبيق تقنيات التنقيب بالشكل الأمثل.

كما أن مستودعات البيانات يتم فيها تجميع البيانات من عدة مصادر والتي تشتمل على قواعد البيانات وغيرها من المصادر.

وتكمن أهمية تنقيب البيانات في الفوائد التي يمكن أن توفرها للشركات والمؤسسات من خلال ما تقدمه من أساليب وأدوات وأفكار جديدة تساعد في رفع كفاءة الإنتاجية وتحسين وتطوير العمل، بالإضافة لمساهمتها في بنية التخطيط والإدارة الاستراتيجية في الشركة أو المؤسسة التي تستخدمه، وبناء التوقعات والتقديرات المستقبلية لسير العمل وفق المعطيات المتوفرة في كتل البيانات التي يتم تنقيبها. ويظهر ذلك من خلال أمثلة كثيرة لا حصر لها وبطرق متنوعة تهدف جميعها لاستكشاف السلوك والأنماط والاتجاهات التي تهم المدراء التنفيذيين ومدراء الإدارة العليا في الشركات والمؤسسات في جميع المجالات.

قاعدة البيانات العلائقية

قواعد البيانات العلائقية (بالإنجليزية: Relational Database) هي نوع من قواعد البيانات التي تعتمد على إنشاء علاقات مميزة بين فئات البيانات فيها، بحيث تساهم تلك العلاقات في تيسير حفظها في أوعية مناسبة لها وإدارتها بالشكل الأمثل، من خلال تطبيق مزايا توفرها العلاقات. مثلا في قاعدة بيانات خاصة بالموظفين في أي مؤسسة يمكن إنشاء علاقة بين بيانات الموظف التي يتم الاحتفاظ بها في جدول خاص ببيانات الموظفين الشخصية مع بيانات أنشطة الموظف التي يتم حفظها في جدول مختلف. وبهذه الطريقة يتم اختزال الكثير من الوقت والجهد وحتى المساحة اللازمة لحفظ البيانات الشخصية بدلا من تكراراها في جدول الأنشطة مع كل نشاط جديد يتم تخزينه.

كما توفر قواعد البيانات العلائقية وسيلة لإيجاد روابط بين أنواع مختلفة من البيانات بطريقة تسهل من سبل إدارتها.

فمثلا، إذا كنا بصدد طباعة جدول يحتوي بيانات الموظفين مرتب تنازليا بحسب الدرجة الوظيفية يكون بالإمكان تنفيذ هذا الأمر لو كانت الدرجات الوظيفية سهلة الترتيب. أما لو كانت تلك الدرجات من نوع البيانات غير الرتبية أو التي لا يمكن ترتيبها فإنه يلزم في تلك الحالة إضافة حقل جديد خاص بالترتيب وربطه بالحقل الخاص بالدرجة الوظيفية، بحيث يتم التعبير عن الدرجات بصورة قابلة للترتيب.

وتتكون قاعدة البيانات العلائقية من مجموعة من الجداول، لكل جدول أسم فريد، وكل جدول يتكون من مجموعة من السمات (الأعمدة أو الحقول)، ويتم فيه تخزين عدد كبير من السجلات (الصفوف).

وفي كل سجل في قاعدة البيانات يمثل كائن معرف بمفتاح فريد ووصف محدد لمجموعة من السمات ذات قيم محددة.

وتساهم بنية وهيكلية قواعد البيانات العلائقية في توفير القدرة على تطبيق تقنيات وخوارزميات تنقيب البيانات بطريقة أكثر دقة وتفصيلا، وذلك من خلال ما توفره من علاقات بين أجزاء البيانات المختلفة.

مثال توضيحي

ففي قاعدة بيانات خاصة بمحل لبيع الأجهزة الإلكترونية يمكن أن تتألف من الجداول التالية بما فيها من حقول لكل جدول كما يلي:

  • جدول الزبائن: ويحتوي على حقول مثل (رقم الزبون، الأسم، العنوان، العمر، المهنة،…)
  • جدول المنتجات: (رقم المنتج، الماركة، الفئة، النوع، السعر، بلد الصنع، المورد،…)
  • الجدول الخاص بالموظفين: (رقم الموظف، الفئة، المجموعة، الراتب، العمولة،….)
  • جدول الفروع: (رقم الفرع، الأسم، العنوان،…)
  • جدول المبيعات: (رقم الفاتورة، رقم الزبون، رقم الموظف، التاريخ، الوقت، طريقة الدفع، المبلغ،…)

الجدول التالي يبين مقطع من أحد جداول حركة المبيعات في قاعدة بيانات أحد محلات الأجهزة الإلكترونية:

رقم الفرعرقم الفاتورةالصنفعدد الوحداتسعر الوحدةطريقة الدفع
11001كمبيوتر محمول12000نقدًا
11002طابعة ليزر1500نقدًا
22001كمبيوتر محمول21200نقدًا
22002كاميرا رقمية1800بطاقة بنكية
….
مقطع من قاعدة بيانات المبيعات

لغة الاستعلام الهيكلية

يمكن استخدام لغة الاستعلام الهيكلية أو (بالإنجليزية: SQL Standard Query Language) من أجل التعامل مع البيانات بهدف الوصول إلى مجموعات جزئية منها تنطبق عليها شروط معينة. فمثلا، يمكن استخدام لغة الاستعلام للإجابة على أسئلة مثل:

ما هي قائمة المنتجات التي تم بيعها في الشهر السابق؟

كما يمكن للغة الاستعلام تجميع البيانات وإجراء بعض الحسابات عليها، والتي يمكن باستخدامها الإجابة على أسئلة من نوع:

كم كان مجموع المبيعات في السنة الماضية، موزعة بحسب الأفرع؟

أو مثلا:

من هو موظف المبيعات الذي باع أكثر من بقية الموظفين في الشهر السابق؟

أو مثلا:

كم عدد حركات البيع التي تمت في السنة الماضية؟

وغيرها من الأسئلة التي تتكون إجاباتها من أقسام أو فئات جزئية مختلفة من المجموع الكلي للبيانات.

فوائد تنقيب البيانات

أما باستخدام أدوات التنقيب في قواعد البيانات، فإننا نستطيع أن نذهب لأبعد من ذلك، وذلك من أجل البحث عن وتنقيب واستكشاف الاتجاهات والأنماط لمعرفة أنماط السلوك والاتجاهات أو باستخدام خوارزميات التصنيف والتنبؤ التي تتنبأ بما يمكن أن يجري في المستقبل.

مثلا، كأن يتم استكشاف تفضيلات الزبائن في شراءهم لبعض المنتجات على غيرها من المنتجات الأخرى، والتنبؤ باحتمال إقبال الزبائن على شراء منتجات محددة وفقًا لتوفر معطيات يتم دراستها من البيانات التاريخية في قاعدة البيانات، أو أن يتم مثلا استكشاف سلوك الزبائن في شراءهم لمنتجات معينة مع منتجات أخرى في نفس رحلة التسوق، وغيرها من الأنماط والاتجاهات التي تبين السلوك الشرائي للزبائن وتساعد في بناء التوقعات المستقبلية لسلوكهم الشرائي.

كما تُستخدم تقنيات وخورازميات تنقيب البيانات بشكل مكثف في مجال المعلوماتية الحيوية، وقد كان لهذا التخصص العلمي دورًا بارزًا في تطوير الخوارزميات المتخصصة لخدمة هذا الفرع من العلوم دونًا عن غيره من العلوم الأخرى.

مراحل تطور التكنولوجيا

في الجدول التالي يمكن تلخيص عملية تطور وتعاظم الإمكانيات التي وفرتها تكنولوجيا المعلومات خلال العقود الماضية، وذلك من خلال إمكانية الإجابة على التساؤلات التي توفرها التطبيقات المختلفة والتي تطورت تدريجيًا منذ بدء استخدام الحاسوب وحتى الوصول إلى مستوى تنقيب البيانات كما يلي:

مرحلة التطور في استخدام تكنولوجيا المعلوماتالسؤال الذي توفر إجابته تلك التكنولوجيا
تجميع البيانات (بالإنجليزية: Data Collection 1960s)كم كان مجموع الأرباح في السنوات الخمس الأخيرة؟
الوصول للبيانات
(بالإنجليزية: Data Access 1980s)
كم كان حجم المبيعات في مدينة القاهرة في شهر مارس الماضي؟
مستودعات البيانات ودعم القرار
(بالإنجليزية: Data Warehousing & Decision Support 1990s)
كم كان حجم المبيعات في مدينة القاهرة في شهر مارس الماضي، مع مقارنة لكل المبيعات في المدن الأخرى؟
تنقيب البيانات
(بالإنجليزية: Data Mining) Emerging Today
ماذا يمكن أن يحدث لحجم المبيعات في مدينة القاهرة الشهر القادم، ولماذا؟
مراحل تطور تكنولوجيا المعلومات – تنقيب البيانات

ويتضح من هذا الجدول كيف أن الخوارزميات في تنقيب البيانات أصبحت توفر الإمكانات اللازمة للتنبؤ بالسلوك المستقبلي ومن ثم وضع الحلول المناسبة للمشكلات قبل وقوعها في حال إمكان حدوثها، أو من باب التنبؤ بهدف التطوير والتحديث والتخطيط الجيد بشكل عام في شتى المجالات.

أسئلة واختبارات

يمكن تحميل تطبيق اختبارات متعددة التخصصات، وهو تطبيق مجاني من إصدار مركز البحوث والدراسات متعدد التخصصات. ويحتوي التطبيق على العديد من الاختبارات والأسئلة المتخصصة في مجال الرياضيات وعلوم الكمبيوتر، ويهدف إلى توفير آلية للتدريب على الامتحانات والاختبارات الإلكترونية لطلاب المدارس والجامعات. ويجمع التطبيق بين التعليم والترفيه ويوفر آلية للمنافسة بطريقة تساهم في تعميم الفائدة بين المتنافسين.

المصدر

كتاب التحليل المتقدم وتنقيب البيانات، د.م. مصطفى عبيد، دار الفكر العربي، القاهرة، جمهورية مصر العربية، الطبعة الأولى، 2017م.