الرئيسية » تنقيب البيانات » خوارزميات التحليل العنقودي أو التجزئة العنقودية

خوارزميات التحليل العنقودي أو التجزئة العنقودية

آخر تحديث: مارس 3, 2021

الملخص

شرح مفهوم خوارزميات التحليل العنقودي أو التجزئة العنقودية أو (بالإنجليزية: Cluster Analysis Algorithms) والفرق بينها وبين خوارزميات التصنيف والتنبؤ. استعراض أساليب التحليل العنقودي وتقنياتها واستخداماتها في مختلف التخصصات أو المجالات. شرح أسلوب التحليل العنقودي بطريقة التقسيم، والتحليل العنقودي بطريقة التجزئة الهرمية بنوعيها التشققية أو التجميعية. شرح أساليب التحليل العنقودي عالي الأبعاد باستخدام الأمثلة التوضيحية والتطبيقية أو العملية المبسطة.

المحتويات

  • مفاهيم أساسية
  • أساليب التحليل العنقودي
  • التحليل العنقودي بطريقة التقسيم
  • التحليل العنقودي بطريقة التجزئة الهرمية
    • خوارزميات التجزئة الهرمية التشققية
    • خوارزميات التجزئة الهرمية التجميعية

مفهوم التحليل العنقودي

لو تخيلنا أن مدير عام علاقات الزبائن في إدارة التسويق بأحد الشركات لديه خمسة مدراء يعملون تحت إمرته وأنه يرغب في تنظيم كفاءة نظام العلاقات مع زبائن أو عملاء الشركة من خلال تجميعهم في خمسة مجموعات بحيث يتم إدارة كل مجموعة من المجموعات من قِبل أحد المدراء.

إستراتيجيًا، فإن مدير عام العلاقات يريد أن تحتوي كل فئة أو مجموعة من المجموعات على الزبائن الذين يتشابهون بقدر الإمكان. بل والأكثر من ذلك فإنه لأي زبونين لديهما خصائص أو أنماط مختلفة فإنه ينبغي أن لا يتواجدا في نفس المجموعة.

والهدف الأساسي من هذه الاستراتيجية هو تطوير نظام العلاقات مع الزبائن أو العملاء. وتطوير الحملات الترويجية التي تستهدف بشكل خاص كل مجموعة من الزبائن استنادًا إلى الملامح أو السمات المشتركة لهم، والتي جعلتهم ينتمون لنفس المجموعة.

فما هي أداة أو تقنية التنقيب التي يمكن أن تساعد في إتمام هذه المهمة؟

خوارزمية التحليل العنقودي

بخلاف تقنيات التصنيف، فالمجموعة أو الفئة التي يمكن أن ينتمي لها الزبون هنا غير معروفة. كما أنه بوجود عدد كبير من الزبائن وتعدد السمات التي تصفهم فإنه يصبح من الصعب والمكلف، أو ربما من المستحيل، تجزئتهم يدويًا لمجموعات تخدم هذا الهدف. وتظهر الحاجة هنا لاستخدام تقنية التحليل العنقودي أو (بالإنجليزية: Clustering).

إن خوارزميات التحليل العنقودي أو التجزئة العنقودية تتضمن عملية تجميع مجموعة من البيانات بداخل عدد من الفئات أو الأجزاء. بحيث تضم كل مجموعة أو فئة العناصر الأكثر تشابهًا ولكنهم أكثر اختلافًا عن العناصر التي تنتمي للمجموعات الأخرى.

لمعرفة المزيد حول تشابه أو اختلاف البيانات، يمكن قراءة موضوع قياس تشابه واختلاف البيانات.

كما يتم تقييم التشابه وعدم التشابه بناء على قيم السمات التي تصف البيانات، والتي غالبًا ما تشتمل على قياس المسافات فيما بينها.

إن التحليل العنقودي كأحد أدوات تنقيب البيانات أو أحد الخوارزميات المهمة لها تطبيقات في مجالات عديدة، سواء في مجال الطب والعلوم البيولوجية والمعلوماتية الحيوية. أو في مجال استخبارات الأعمال أو ذكاء الأعمال وبحوث الشبكة العنكبوتية والمجالات الأمنية وغيرها من المجالات.

سوف نستعرض المفاهيم الأساسية وطرق وإجراءات خوارزميات التحليل العنقودي أو التجزئة العنقودية وتقنياتها المختلفة.

أساليب التحليل العنقودي

إن التحليل العنقودي أو التحليل بالتجزئة العنقودية هي عملية تجزئة مجموعة من البيانات إلى مجموعات جزئية. وكل فئة أو مجموعة جزئية تمثل كتلة (بالإنجليزية: Cluster) من البيانات. بحيث يكون عناصر كل فئة أو مجموعة متشابهة وبنفس الوقت مختلفة عن بقية العناصر في المجموعات الأخرى.

وضمن هذا السياق، فإنه يمكن لطريقتين من طرق التجزئة أن ينتج عنهما مجموعات جزئية مختلفة لنفس البيانات، وتتم عملية التجزئة باستخدام خوارزميات تقود إلى توصيف المجموعات الجزئية التي لم تكن معروفة قبل التجزئة.

وكأحد تقنيات تنقيب البيانات، فإن خوارزمية التحليل العنقودي يمكن أن تكون تقنية تنقيب قائمة بذاتها وتهدف لاكتساب المعرفة المخبأة بداخل قواعد البيانات وملاحظة خصائص كل فئة أو مجموعة جزئية والتركيز على مجموعات محددة لمزيد من التحليل. ولكنها أيضًا يمكن أن تكون خطوة من خطوات تحضير البيانات للتحليل أو التنقيب لكي تخدم غيرها من خوارزميات التنقيب.

ونظرًا لازدياد استخدامات تقنيات التحليل العنقودي أو التجزئة العنقودية في العديد من المجالات وبخاصة تلك التي تتعامل مع كميات هائلة من البيانات المخزنة في قواعد البيانات فقد أصبح هذا المسار من المسارات المهمة في بحوث التنقيب.

التحليل العنقودي بطريقة التقسيم

تتلخص عمليات خوارزميات التحليل العنقودي أو التجزئة العنقودية بطريقة التقسيم (بالإنجليزية: Partition Clustering) في أنها عملية تجميع السجلات المتشابهة بقاعدة البيانات في مجموعات، ويتم ذلك بهدف الاستكشاف عالي المستوى لما يجري داخل قاعدة البيانات. ففي مجال الأعمال عادة ما يُستخدم التحليل العنقودي بطريقة التقسيم في تجزئة الزبائن، أو السكان بشكل عام، إلى مجموعات يمكن التسويق لها بشكل مباشر ومحدد. ولبناء هذه العملية التجميعية يتم استخدام المعلومات الأولية كالدخل السنوي، العمر، المهنة، وأية معلومات متوفرة في قواعد البيانات، ثم يتم تسمية كل مجموعة باسم بارز ومعبر عنها بشكل واضح.

المثال التالي يوضح عملية من هذا النوع:

المدينة أو المنطقةالمهنة أو الوظيفةمستوى التعليمالدخلالعمرالاسمالرقم
أنجاردبلوممتوسط45نبيل1
بموظفدبلوممتوسط33جهاد2
بتاجرجامعيمرتفع44منذر3
أسائقثانوية عامةمتوسط38باسل4
بأعمال حرةجامعيمرتفع47محمود5
أسائقثانوية عامةمنخفض30إياد6
بموظفجامعيمتوسط35شوقي7
بتاجردبلوممرتفع36مراد8
أحداددبلوممنخفض46ياسر9
أعاملثانوية عامةمنخفض42خالد10
جدول البيانات الأولية قبل استخدام عملية التحليل العنقودي بطريقة التقسيم

إذا كانت هذه بيانات بعض الزبائن في إحدى الشركات التجارية، فربما أردنا تجزئتهم إلى فئات أو مجموعات بحيث يتوفر في كل مجموعة التوافق والانسجام البيني. فمثلا يمكن تجزئة قاعدة البيانات إلى 3 فئات أو مجموعات وفق الدخل، لنحصل على المجموعات التالية:

جدول نتيجة التحليل بطريقة التقسيم

المدينة أو المنطقةالمهنة أو الوظيفةمستوى التعليمالدخلالعمرالاسمالرقم
(1)
بتاجرجامعيمرتفع44منذر3
بأعمال حرةجامعيمرتفع47محمود5
بتاجردبلوممرتفع36مراد8
(2)
أنجاردبلوممتوسط45نبيل1
بموظفدبلوممتوسط33جهاد2
أسائقثانوية عامةمتوسط38باسل4
بموظفجامعيمتوسط35شوقي7
(3)
أسائقثانوية عامةمنخفض30إياد6
أحداددبلوممنخفض46ياسر9
أعاملثانوية عامةمنخفض42خالد10
جدول البيانات بعد استخدام عملية التحليل العنقودي بطريقة التقسيم

التحليل وفق اعتبارات مختلفة

من جهة أخرى، ربما قد نلجأ لإعادة التجزئة وفق اعتبارات أخرى كالمستوى التعليمي لنخلق مجموعات متوافقة بينيًا من منظور آخر. وفي هذا المثال سوف تتم التجزئة على حسب المستوى التعليمي كما هو مبين في الجدول التالي:

المدينة أو المنطقةالمهنة أو الوظيفةمستوى التعليمالدخلالعمرالاسمالرقم
(1)
بتاجرجامعيمرتفع44منذر3
بأعمال حرةجامعيمرتفع47محمود5
بموظفجامعيمتوسط35شوقي7
(2)
أنجاردبلوممتوسط45نبيل1
بموظفدبلوممتوسط33جهاد2
بتاجردبلوممرتفع36مراد8
أحداددبلوممنخفض46ياسر9
(3)
أسائقثانوية عامةمتوسط38باسل4
أسائقثانوية عامةمنخفض30إياد6
أعاملثانوية عامةمنخفض42خالد10
جدول البيانات بعد استخدام عملية التحليل العنقودي بطريقة التقسيم وفق اعتبارات مختلفة

ثم تستخدم هذه المعلومات التجميعية لترميز عناصر كل مجموعة بالطريقة المناسبة وفق قاعدة بياناتهم، ومن ثم استكشاف ردود الفعل للعروض التسويقية التي يمكن تقديمها لكل منهم بحسب الخصائص والسمات التي تم استخدامها في التجزئة أو التحليل. مثلا كأن يتم التسويق المستهدف لطلاب الجامعات من أجل حثهم على شراء منتج معين يهتمون به، وهكذا لبقية الفئات أو المجموعات. ومن ثم تقييم ودراسة سلوك واستجابة عناصر كل مجموعة وأخذ النتائج بالاعتبار.

لا توجد هناك أفضل طريقة للتجزئة بالتقسيم، فهناك دوما طرق متعددة وحسب الاحتياج، فالمثال السابق برغم بساطته إلا أنه وضح لنا أنه هناك دوما تجزئة تلبي الاحتياج ووفق رؤية معينة يتم تبنيها. فالتجزئة في كل الأحوال تقسم قاعدة البيانات وتبسطها وتسهل رؤيتها من زاوية أو منظور معين. وليس فقط بهدف استعراض البيانات أو تلخيصها وإنما بهدف استكشاف بعض الروابط أيضا والتوفيق بينها كما في المثال السابق.

التحليل العنقودي بطريقة التجزئة العنقودية الهرمية

في بعض الأحيان قد نحتاج إلى تجزئة البيانات إلى فئات في مستويات مختلفة بشكل هرمي، وهو ما يُطلق عليه التجزئة العنقودية الهرمية أو (بالإنجليزية: Hierarchical Clustering). بحيث يتم تجميع البيانات في مجموعات بشكل هرمي أو شجري.

ويُعتبر تمثيل البيانات بشكل هرمي مفيد لأهداف تبسيط أو تلخيص البيانات وتصويرها. مثلا يمكن لأحد المدراء في أحد الشركات أن يقوم بتنظيم الموظفين لديه في فئات أو مجموعات أساسية تحتوي المدراء التنفيذيين ومدراء الأقسام والموظفين على الترتيب. كما يمكن أن يتم تقسيم هذه الفئات إلى فئات جزئية أصغر منها، وهكذا، لتأخذ شكل التقسيم الهرمي، بحيث يتم استخدامها فيما بعد في تلخيص البيانات أو توصيفها. مثلا في تجزئة من هذا النوع يمكن إيجاد متوسط رواتب المدراء العامون أو مدراء الأقسام بسهولة.

ويُلاحظ في التجزئة الهرمية أنه بالرغم من أن تجزئة البيانات تمت بشكل هرمي إلا أن ذلك لا يعني أن البيانات لها هيكلية هرمية، أي أن المدراء والموظفين كانوا في نفس المستوى. فالتجزئة الهرمية هنا فقط من أجل تلخيص البيانات وإظهار خصائصها بشكل مختصر أو مضغوط، كنوع من أنواع تصوير البيانات.

ومع ذلك فإنه في بعض التطبيقات قد تعبر التجزئة الهرمية عن البناء الهرمي لهيكلية البيانات، مثلا، يمكن تقسيم مجموعة الحيوانات إلى مجموعات جزئية هرمية من حيث طبيعتها الفقارية واللاّفقارية، ومن ثم إظهار تفرعات كل نوع بشكل هرمي.

التحليل العنقودي بطريقة التجزئة الهرمية
شكل (1)، التحليل العنقودي بطريقة التجزئة الهرمية

ويوجد شكلين أو نوعين من التجزئة الهرمية وهما:

1. التجزئة الهرمية التكتلية

ويتم في هذه التقنية بناء الأجزاء بشكل تصاعدي تكتلي بدءًا من القاعدة، فيكون لدينا فئات أو مجموعات أولية تحتوي كل منها على عنصر واحد فقط ممثلا بسجل من سجلات قاعدة البيانات. ثم يتم دمج كل مجموعتين قريبتين من بعضهما في مجموعة جديدة أكبر منهما. ثم يستمر هذا الدمج بشكل هرمي تصاعدي حتى الوصول إلى رأس الهرم والممثل بمجموعة تحتوي كافة المجموعات الصغرى.

2. التجزئة الهرمية التشققية

ويتم في هذه الطريقة عكس ما تم بالطريقة السابقة، حيث تبدأ هذه التقنية بوضع كافة سجلات قاعدة البيانات في مجموعة واحدة ومن ثم تجزئتها إلى أجزاء صغيرة تدريجيا أصغر فأصغر وحتى الحصول على أدنى مستوى من المجموعات والتي تحتوي كل منها على عنصر واحد ممثلا بسجل من قاعدة البيانات.

وبشكل عام، فإن عملية التجزئة تكون بهدف وضع العناصر المتجانسة بقدر الإمكان في فئات أو مجموعات منفصلة. والقاعدة العامة لضم أي عنصر في مجموعة هي أن يكون العنصر مائلا للتشابه بعنصر منها أكثر من أن يكون شبيهًا لعنصر من فئة أو مجموعة أخرى.

الأشكال التالية تبين كيف يمكن أن تقع العناصر المتجانسة معًا في فئة أو مجموعة واحدة وبعدة طرق مختلفة تم استكشافها باستخدام خوارزميات التحليل العنقودي:

تجميع العناصر المتجانسة بالتحليل العنقودي - التجزئة الهرمية بنوعيها التشققية والتجميعية
شكل (2)، تجميع العناصر المتجانسة بالتحليل العنقودي
تجميع العناصر المتجانسة في مجموعات باستخدام التحليل العنقودي -
شكل (3)، تجميع العناصر المتجانسة في مجموعات باستخدام التحليل العنقودية

التحليل العنقودي عالي الأبعاد

التحليل العنقودي عالي الأبعاد أو (بالإنجليزية: High Dimensional Clustering). وهو التحليل الذي يستند عدد كبير من السمات أو خصائص البيانات التي يتم تحليلها.

في جميع خوارزميات التحليل العنقودي غالبًا ما يكون عدد السمات أو الخصائص التي تتم التجزئة باستخدامها قليل نسبيًا. وقد لا يتجاوز عشرة سمات أو خصائص في كثير من الأحيان.

ففي التحليل العنقودي لبيانات زبائن أحد محلات الأجهزة الإلكترونية قد يتم استخدام بعض السمات أو الخصائص الخاصة بالزبون، مثل (العمر، الدخل، حجم المشتريات، الوظيفة،.. إلخ)، وقد لا تتعدى جميعها (10) سمات.

أما إذا كانت السمات كثيرة جدًا فإنه يطلق على التحليل العنقودي الذي يستند على عدد كبير من السمات تحليل عنقودي عالي أو عديد الأبعاد.

ومن أمثلة هذا النوع من التحليل العنقودي هو ما يمكن أن يقوم به مدير المبيعات في محلات الأجهزة الإلكترونية عندما يرغب بتجزئة الزبائن إلى مجموعات بحسب ما قاموا بشراءه من منتجات من المعرض.

مفهوم البيانات متعددة الأبعاد

الجدول التالي يوضح توزيع للزبائن أو العملاء في صفوف مختلفة وتقاطعها مع مشتريات كل زبون من المنتجات المختلفة الموضحة في الأعمدة:

ويتضح من هذا المثال أن السمات أو الخصائص سوف تكون كثيرة، وذلك نظرًا لوجود الآلاف من المنتجات، وهو ما يعني الآلاف من الأبعاد. الأمر الذي يترتب عليه الحاجة إلى إنشاء عدد مماثل من الفئات أو المجموعات الجزئية التي تُشكل عناقيد ضخمة وفوضوية.

ويتم اللجوء في هذه الحالة لأحد طريقتين من أجل حل هذه المشكلة:

الطريقة الأولى

هي التحليل العنقودي أو التجزئة العنقودية لعدد محدود من السمات فقط يتم انتقائها من كل السمات المتوفرة في قاعدة البيانات.

الطريقة الثانية

تخفيض عدد الأبعاد للحصول على عدد معقول أو مناسب نستطيع تطبيق التجزئة العنقودية عليه. وغالبًا ما يتم في هذه الطريقة إنشاء أبعاد جديدة بتركيب عدة أبعاد معًا من الأبعاد الأصلية، أو أية طريقة أخرى من طرق اختزال البيانات.

مثال على استخدام التحليل العنقودي عالي الأبعاد

لو قامت إحدى شركات الأجهزة الإلكترونية بجمع بيانات تقييم الزبائن للمنتجات لتحليلها من أجل التوصية بالمنتجات المناسبة لهم، فإنه يمكنها أن تضع كل التقييمات في مصفوفة حيث يمثل كل صف فيها زبون من الزبائن، كما تجعل كل عمود فيها يمثل أحد المنتجات، وكل قيمة (عنصر) بداخل المصفوفة يمثل تقييم الزبون للمنتج، والتي يمكن أن تكون إحدى القيم التالية:

(جيد أو متوسط أو سيء)

أو أن تكون سلوك معين، مثل:

(شراء أو عدم شراء)

كما في الجدول التالي:

مصفوف الزبائن والمنتجات - التحليل العنقودي
مصفوف الزبائن والمنتجات – التحليل العنقودي

حيث العنصر (ص 11) هو رأي الزبون رقم (1) في المنتج رقم (1)، أو أنه يمثل عملية شراء الزبون رقم (1) للمنتج رقم (1).

كما أن العنصر (ص 21) هو رأي المشتري أو الزبون رقم (1) في المنتج رقم (2)، وهكذا.

ويمكن تحليل هذه المصفوفة باتجاهين، اتجاه الزبائن أو اتجاه المنتجات. حيث يتم تكوين مجموعات الزبائن الذين يتشابهون في تفضيلاتهم أو نمط شرائهم عندما يتم التعامل مع المنتجات باعتبارها سمات. والعكس صحيح إذا قامت الشركة باعتبار الزبائن هي السمات، فإنها تستطيع تنقيب واستكشاف فئات أو مجموعات المنتجات التي تتشابه من حيث اهتمامات الزبائن وتقييمهاتهم.

والأكثر من ذلك، أن الشركة تستطيع تكوين فئات أو مجموعات جزئية من واقع سمات الزبائن والمنتجات معًا بحيث تحتوي كل منها على مجموعة من الزبائن. وبحيث تتضمن مجموعة من المنتجات في نفس الوقت.

مثلا، يمكن تكوين مجموعة من الزبائن الذين يتشابهون في تفضيلهم لمجموعة من المنتجات. وهذه الفئة أو المجموعة سوف تكون مجموعة جزئية من مصفوفة ( الزبائن – المنتجات) الكبيرة.

ومن خلال التحليل العنقودي عالي الأبعاد، يمكن استخدام هذه الفئة أو المجموعة الجزئية في تقديم التوصيات في اتجاهين:

الاتجاه الأول

هو أن تقوم الشركة بالتوصية بالمنتجات للزبائن الجدد الذين يشبهون الزبائن في الفئة أو المجموعة الجزئية، بحيث تكون من نفس أنواع المنتجات التي يفضلونها.

الاتجاه الثاني

هو أن توصي الشركة بمنتجات جديدة تشبه المنتجات الموجودة في الفئة أو المجموعة الجزئية، لهم ولغيرهم من الزبائن الجدد الذين يشبهونهم في السمات.

المصدر

كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى عبيد، دار الفكر العربي، القاهرة، الطبعة الأولى، 2017.