الرئيسية » تنقيب البيانات » اختزال البيانات واستراتيجياته المتنوعة

اختزال البيانات واستراتيجياته المتنوعة

آخر تحديث: مارس 1, 2021

مفهوم اختزال البيانات

إن تحليل وتنقيب كميات هائلة من البيانات يمكن أن يستلزم وقتًا وجهدًا كبيرًا، وهو ما يجعل منها عملية غير قابلة للتطبيق العملي أو غير ممكنة، وتساعد تقنيات اختزال البيانات أو اختصار البيانات في الحصول على تمثيل أقل لها يمكن أن يكون أصغر كثيرًا في الحجم مع الحفاظ على خصائص البيانات الأصلية.

وبذلك فإن تنقيب البيانات المختصرة سيكون أكثر كفاءة ويعطي نتائج شبيهة إلى حد كبير بنتائج تحليل وتنقيب البيانات الأصلية.

سوف نستعرض في هذا الجزء استراتيجيات اختزال البيانات المتنوعة مع شرح مفصل لتقنياتها.

استراتيجيات اختزال البيانات

ويمكن شرح وتبسيط هذه الاستراتيجيات بالتفصيل كما يلي:

1. اختصار الأبعاد أو اختصار المتغيرات

قد تحتوي قاعدة البيانات محل التحليل والتنقيب على عدد كبير من الحقول (المتغيرات أو السمات)، والتي قد يكون معظمها غير ذات أهمية بالنسبة للمسألة محل البحث أو الدراسة.

مثلا إذا كانت المهمة في أحد شركات بيع الأجهزة الإلكترونية هي تصنيف الزبائن من حيث ما إذا كانوا سيُقبلون على شراء منتج جديد أو لا من خلال تحليل البيانات التاريخية لمشترياتهم من الشركة، فإن حقل مثل “رقم الهاتف” في قواعد البيانات، وهو رقم الهاتف الخاص بالزبون، لن يكون ذا أهمية تُذكر في هذه المهمة، بينما يكون حقل “العمر” أو “مستوى الدخل” له أهمية كبيرة.

وبالرغم من ذلك فإنه قد تكون هناك بعض الحقول المُبهمة التي يصعب تقدير مدى أهميتها بالنسبة لمسألة البحث، إلاّ أن تراكم الخبرة لدى المحللين يجعلهم قادرين على استبعاد الحقول غير المهمة والإبقاء على الحقول المهمة والمفيدة وذلك بحسب احتياجات التحليل والأهداف المرجوة منه.

مثال على اختزال البيانات بطريقة الاختصار

مثلا، في قاعدة بيانات أحد المراكز التجارية، إذا كان كل الزبائن في الفرع هم من سكان نفس المنطقة التي يقع فيها الفرع، فإن حقل الفرع وحقل المنطقة يمثلان بيانات متشابهة تقريبًا، وبالتالي يمكن استخدام أسلوب اختصار الأبعاد (بالإنجليزية: Attributes Reduction) لاختصار أحدهما والتركيز على الآخر عند القيام بتحليل وتنقيب البيانات.

مثلا: من دمج قاعدة بيانات الفرع (ل) والفرع (م) لدينا:

مالفرعالزبونالعمرالدخلالمنطقةحجم المشتريات
1لأ401000س200
2لب30800س200
3مج501500ص300
4مد451200ص250
مقطع من جدول أحد المراكز التجارية قبل اختصار بيانات المنطقة
مالفرعالزبونالعمرالدخلحجم المشتريات
1لأ401000200
2لب30800200
3مج501500300
4مد451200250
مقطع من جدول أحد المراكز التجارية بعد اختصار بيانات المنطقة

وحيث أن ل تناظر س، م تناظر ص، فإنه يمكن اختصار البيانات في الجدول الأول لتصبح كما في الجدول الثاني أعلاه.

2. الاختصارات الرقمية بطريقة التوزيع التكراري للفئات

وهي تقنية من تقنيات التحليل الإحصائي للبيانات، ويتم فيها اختزال البيانات عن طريق التعبير عن قيم البيانات الأصلية بطريقة التوزيع التكراري للفئات المستخدمة في التحليل الإحصائي، بحيث يتم تمثيلها بطريقة مختصرة وأصغر حجمًا من طريقة التوزيع التكراري الاعتيادية، كما يتم التعبير عنها باستخدام الرسم البياني.

مثلا، في قاعدة بيانات مبيعات أحد المراكز التجارية، نفرض أنه لدينا مجموعة من المنتجات المباعة خلال فترة زمنية معينة وكانت أسعارها كما يلي، مرتبة ترتيبًا تصاعديًا:

1، 1، 5، 5، 5، 5، 5، 8، 8، 10، 10، 10، 10، 12، 14، 14، 14، 15، 15، 15، 15، 15، 15، 18، 18، 18، 18، 18، 18، 18، 18، 20، 20، 20، 20، 20، 20، 21، 21، 21، 21، 25، 25، 25، 25، 25، 28، 28، 30، 30، 30

فإنه يمكن تمثيل هذه البيانات بطريقة التوزيع التكراري بالشكل البياني التالي:

التوزيع التكراري للمنتجات بحسب الأسعار
شكل (1)، التوزيع التكراري للمنتجات بحسب الأسعار

ثم تتم عملية الاختصار من خلال تجميع التكرارات في ثلاثة فئات لقيمة المتغير “سعر المنتج”، وهي على الترتيب (من1 إلى 10)، (من 11 إلى 20)، (من 21 إلى 30)، بحيث تقع ضمنها كل القيم التي ظهرت في قاعدة البيانات، فيتم بذلك اختصار البيانات بدلا من وجود عدد كبير من الأسعار التي تعبر عنها، ويصبح الشكل البياني الجديد والمبسط كما يلي:

التوزيع التكراري للمنتجات بحسب فئات الأسعار
 شكل (2)، التوزيع التكراري للمنتجات بحسب فئات الأسعار

3. تقنية التحليل العنقودي أو التجزئة العنقودية للبيانات

تقنية التحليل العنقودي أو التجزئة العنقودية (بالإنجليزية: Clustering) هي طريقة لتجزئة البيانات في حالة استهداف تحليل وتنقيب مجموعات منها أو من أجل اختزالها وتبسيطها وإظهار دلالات معينة لها من خلال التجزئة، ويتم في هذه التقنية تجزئة مجموعة البيانات الأصلية إلى مجموعات فرعية تحتوي كل منها على عناصر متشابهة فيما بينها ومختلفة عن عناصر المجموعات الفرعية الأخرى. والتشابه بين العناصر في كل مجموعة يتم تعريفه بأنه مدى التقارب فيما بينها من حيث المسافة التي تفصلها عن بعضها البعض أو عن مركز المجموعة.

وتُستخدم تقنية التحليل العنقودي كطريقة من طرق اختزال البيانات من أجل إتاحة الفرصة للتركيز على مجموعات فرعية منها ودراستها وتحليلها بشكل منفرد، أو من أجل مقارنتها معًا واستكشاف دلالات معينة قد تكون مهمة لأهداف متنوعة.

مثلا، يمكن تجزئة بيانات أحد الشركات إلى مجموعات من البيانات الخاصة بكل فرع من فروع الشركة، من أجل مقارنتها أو من أجل القيام بعمليات التحليل وتنقيب البيانات لكل فرع على حدة، فيتم تجزئة قاعدة البيانات الأصلية لهذا الغرض.

ويُلاحظ أن تقنية التحليل العنقودية تمثل عملية عكسية لعملية الدمج.

4. العينة الإحصائية العشوائية

العينة الإحصائية العشوائية (بالإنجليزية: Random Sample) هي أحد طرق اختيار العينات في البحث العلمي، وهي طريقة في اختزال البيانات تعتمد نفس الأسلوب المستخدم في البحث العلمي، ويتم من خلالها اختيار عينة من البيانات لتحليلها وتنقيبها، وذلك بحسب الاحتياج، بحيث يتم اختزال كميات البيانات الضخمة بكمية صغيرة ومحدودة منها والمتمثلة بالعينة الإحصائية.

ويكثر استخدام هذه الطريقة عند الرغبة في إجراء تحليل أولي للبيانات في المراحل الأولى من مراحل التحليل والتنقيب.

وتوجد أربعة طرق لاختيار العينة الإحصائية وهي كما يلي:

أسلوب العينة العشوائية البسيطة بدون إحلال

يتم في هذه الطريقة اختيار العينة العشوائية دون إحلال للسجلات التي يتم اختيارها في كل مرة، أي يتم استبعاد السجل الذي يتم اختياره من قاعدة البيانات الأصلية، ولكل عدد (ن) من السجلات في قاعدة البيانات يكون احتمال ظهور أي سجل في هذه العينة هو (1/ ن)، وجميع السجلات تتساوى في احتمال الظهور في هذا النوع من العينة، وذلك حسب القاعدة العامة أو القانون العام في نظرية الاحتمالات.

أسلوب العينة العشوائية البسيطة مع الإحلال

وفيها يتم اختيار العينة العشوائية مع إرجاع السجلات المختارة إلى قاعدة البيانات الأصلية، بحيث يمكن أن يُعاد اختياره مرة أخرى.

أسلوب العينة العشوائية التجميعية

يتم في هذه الطريقة تجزئة سجلات قاعدة البيانات إلى مجموعات صغيرة ومنفصلة عن بعضها البعض، ثم يتم اختيار بعض المجموعات بشكل عشوائي بدون إحلال بنفس طريقة اختيار السجلات، بحيث يتم اختيار عدد محدود من تلك المجموعات يكون أقل من العدد الكلي الذي تم الحصول عليه من التجزئة.

العينة الطبقية

العينة الطبقية (بالإنجليزية: Stratified Sample) تُستخدم هذه الطريقة من أجل ضمان تمثيل كل البيانات في قاعدة البيانات وفق تجزئتها من منظور معين، مثلا في قاعدة بيانات مبيعات أحد مطاعم الوجبات السريعة قد يلزم تجزئة الزبائن إلى مجموعات منفصلة بحسب الفئات العمرية ثم البدء باختيار العينة من كل مجموعة بطريقة طبقية بحيث يتم تمثيل الزبائن من جميع الفئات العمرية وبنسبة مماثلة لعدد سجلات كل فئة من الفئات.

5. اختزال البيانات بطريقة التجميع

في بعض الأحيان يمكن أن تكون البيانات المتوفرة خاصة بفترات زمنية متفرقة، ويتم في هذه الحالة استخدام أسلوب التجميع (بالإنجليزية: Aggregation) من أجل تجميع بيانات كل الفترات ومن ثم تحليلها ودراستها من منظور جديد. مثلا، في قاعدة بيانات مبيعات إحدى الشركات قد تتوفر فيها جداول تبين بيانات المبيعات الربع سنوية لعدة سنوات متتالية، فتتم بهذه الطريقة تجميع الأربعة أرباع في كل سنة من السنوات من أجل الحصول على جدول جديد يوضح إجمالي المبيعات السنوية، الشكل التالي يوضح هذا الأسلوب:

اختزال البيانات - تجميع بيانات المبيعات السنوية
شكل(3)، تجميع بيانات المبيعات السنوية

6. مكعب البيانات

مكعب البيانات (بالإنجليزية: Data Cube) هو طريقة من طرق اختزال البيانات وتثستخدم للتعبير عن البيانات باستخدام الأشكال متعددة الأبعاد، ويتم فيها تجميع البيانات بحسب السمات المختلفة لها وبما يحقق احتياجات التحليل والتنقيب، مثلا لو كان لدينا عدة قواعد بيانات لعدد من الفروع لأحد المراكز التجارية فإنه يمكن استخدام مكعب البيانات للتعبير عن مجمل البيانات التي تحتويها كل قواعد البيانات من أجل إظهار السمات المختلفة لها وتقاطعاتها مع بعضها البعض في رسم بياني واحد متعدد الأبعاد، وهو ما يطلق عليه مكعب البيانات Data Cube.

الشكل التالي يبين نموذج لمكعب بيانات، المحور الأول فيه يمثل خصائص أو سمات الزبائن أنفسهم، والمحور الثاني يمثل سمات الموقع، والمحور الثالث يمثل سمات المنتجات التي يتم شرائها، والمحور الرابع يمثل سمات عمليات الشراء من المركز مجمعة حسب الوقت والتاريخ.

مكعب البيانات يُظهر مجموعة من البيانات متعددة الأبعاد - اختزال البيانات
شكل (4)، مكعب البيانات يُظهر مجموعة من البيانات متعددة الأبعاد

وتكمن الفائدة من استخدام مكعبات البيانات في أنها تلخصها وتظهرها كلها في شكل واحد تتقاطع فيه كل السمات لكل السجلات في قاعدة البيانات، كما يمكن تركيز عمليات التحليل والتنقيب على محورين من المحاور في كل مرة بحسب الهدف منها وبحسب طبيعة البيانات المتوفرة وبحسب ما يظهره الرسم البياني في المكعب من دلالات تخص جميع المتغيرات المتقاطعة معًا.

الخلاصة

توجد العديد من الأساليب والخوارزميات التي يتم استخدامها من أجل اختزال البيانات ، وفي الواقع ينبغي ألا يزيد الوقت أو الجهد المستخدم في اختصار البيانات عن الوقت والجهد الذي نستهدف توفيره في مرحلة التحليل والتنقيب نفسها، وإلاّ فإنه من الأولى بدء تحليلها وتنقيبها بدون اختصار لأن اختصارها في هذه الحالة سوف يكون مضيعة للوقت والجهد.

من جهة أخرى، يتطلب الأمر الانتباه جيدًا لنوعية البيانات التي يتم اختزالها أو تجاهلها نتيجة القيام بأحد أساليب الاختزال، وذلك لأن استبعاد أو تجاهل البيانات المهمة سوف يؤدي إلى ضعف نتائج التحليل والتنقيب التي يتم تنفيذها فيما بعد، كما أن الإبقاء على البيانات التي لا تُعتبر مهمة بالنسبة للهدف من التحليل والتنقيب سوف يؤثر سلبًا على النتائج.

المصدر

كتاب التحليل المتقدم وتنقيب البيانات، د.م. مصطفى عبيد، دار الفكر العربي، القاهرة، 2017م.