الرئيسية » تنقيب البيانات » تنظيف البيانات – المقصود به وأهميته وطرقه وإجراءاته

تنظيف البيانات – المقصود به وأهميته وطرقه وإجراءاته

آخر تحديث: مارس 3, 2021

الملخص

أهمية تحضير البيانات للتحليل والتنقيب، ما هو تنظيف البيانات، طرق وإجراءات معالجة القيم المفقودة ومعالجة البيانات المزعجة.

تنظيف البيانات وأهمية تحضير البيانات للتحليل والتنقيب

يعتبر تنظيف البيانات من التقنيات التي تُستخدم في تحضير البيانات قبل بدء التحليل الإحصائي وتنقيب البيانات.

والسبب في ذلك أن التضخم الكبير الذي أضحت عليه قواعد البيانات في هذا العصر يجعلها عرضة لاحتواء الكثير من البيانات المزعجة أو غير المتناسقة أو حتى فقدان بعض البيانات الموجودة فيها، وذلك بسبب ضخامتها وتدفقها من مصادر متعددة.

والبيانات ذات الجودة المنخفضة سوف تؤدي بطبيعة الحال إلى نتائج بجودة منخفضة أيضاَ عند تحليلها والتنقيب فيها.

ومن أجل ذلك ينبغي رفع جودة البيانات أولا ومن ثم يمكننا أن نتوقع ارتفاع كفاءة التحليل والتنقيب فيها وتيسير عملياتها لتكون بالشكل الأمثل.

أساليب تحضير البيانات للتحليل والتنقيب، أولها تنظيف البيانات - طرق وإجراءات معالجة القيم المفقودة ومعالجة البيانات المزعجة
شكل (1)، أساليب تحضير البيانات للتحليل والتنقيب، أولها تنظيف البيانات

ما هو تنظيف البيانات

إن الكميات الكبيرة من البيانات عادة ما تكون عرضة لاحتواء الكثير من البيانات المزعجة أو غير المتناسقة أو حتى عرضة لفقدان بعض البيانات الموجودة فيها، وذلك بسبب ضخامتها وتدفقها من مصادر متعددة.

والبيانات ذات الجودة المنخفضة سوف تؤدي بطبيعة الحال إلى نتائج بجودة منخفضة أيضاَ عند تحليلها.

ومن أجل ذلك ينبغي رفع جودة البيانات أولا قبل البدء بتحليلها.

وتعتبر عمليات تنظيف البيانات من أهم مراحل تحضير البيانات للتحليل والتنقيب، وهي تشتمل  على إجراءات متنوعة بحسب الحاجة.

فمنها ما يهدف لاستكمال البيانات المفقودة ومنها ما يهدف إلى تنظيف البيانات المزعجة وغير المتناسقة وإزالة الضوضاء والتعارض أو التنافر في البيانات.

في هذا الموضوع سوف نتناول بالتفصيل المناسب طرق وإجراءات معالجة القيم المفقودة في البيانات.

كما سوف يتم شرح طرق وإجراءات معالجة البيانات المزعجة.

طرق وإجراءات معالجة القيم المفقودة عند تنظيف البيانات

يمكن معالجة مشكلة القيم المفقودة (بالإنجليزية: Missing Values) في قاعدة البيانات بعدة طرق، ففي قاعدة بيانات زبائن أحد المراكز التجارية مثلا قد يكون هناك فقدان لبعض بيانات الزبائن مثل عمر الزبون.

ويمكن معالجة هذا الأمر بإحدى الطرق التالية:

1. تجاهل الصفوف التي تحتوي على قيم مفقودة

يتم بهذه الطريقة معالجة القيم المفقودة من خلال تجاهل الصفوف التي تعاني من فقدان بعض البيانات فيها، وهي طريقة غير فعّالة، إلاّ إذا كان الصف به بيانات كثيرة مفقودة. وقد تؤثر هذه الطريقة على مجمل نتائج التحليل المزمع تنفيذها إذا كانت هناك بيانات كثيرة مفقودة في عدد كبير من الصفوف (السجلات).

2. تعبئة البيانات المفقودة يدويًا

بشكل عام يمكن اعتبار هذه الطريقة أنها مضيعة للوقت والجهد.

كما أنه قد يستحيل القيام بهذه الطريقة عند معالجة القيم المفقودة في حالة الكم الهائل من البيانات التي بها عدد كبير من القيم المفقودة.

وقد يتم استخدامها فقط في حالة فقدان عدد صغير من البيانات.

3. استخدام ثابت موحد بدلا من القيم المفقودة

يمكن بهذه الطريقة استبدال جميع القيم المفقودة في أحد الحقول بقيمة ثابتة وموحدة أو تسمية مثل “غير معروف”.

ولكن في هذه الحالة عند إجراء عمليات التحليل وتنقيب البيانات سوف يعتقد برنامج التنقيب أن هذه التسمية الشائعة لها مدلول مهم، بخاصة إذا كانت البيانات المفقودة كبيرة نسبيًا.

وسوف تظهر هذه الدلالة في نتائج التحليل، وهو ما قد يؤدي إلى إضعافها.

4. استخدام أحد قيم مقاييس النزعة المركزية بدلا من القيم المفقودة

تستخدم هذه الطريقة في معالجة القيم المفقودة لملئ القيم المفقودة إذا كانت من النوع الرقمي، وذلك بالاستعانة بأساليب التحليل الإحصائي وتحديدًا باستخدام أحد مقاييس النزعة المركزية، مثل:

فمثلا إذا كان لدينا قاعدة بيانات زبائن أحد المراكز التجارية وفيها فقدان لبيانات بعض الزبائن كعمر الزبون، فيمكن حساب متوسط أعمار جميع الزبائن في قاعدة البيانات واستخدامه في ملئ القيم المفقودة في خانة العمر. وبطبيعة الحال سوف تؤدي هذه الطريقة إلى تعزيز تلك القيمة في قاعدة البيانات وزيادة تكرارها غير المرغوب لعدد أكبر من الزبائن، وهو ما قد يؤثر على نتائج التحليل والتنقيب المزكع القيام بها بعد عمليات تنظيف البيانات.

5. استخدام أحد قيم مقاييس النزعة المركزية لفئة البيانات التي تنتمي لها القيم المفقودة

كمحاولة للحصول على نتائج أكثر دقة وأقرب إلى الواقع، يمكن استخدام مقاييس النزعة المركزية.

وتستخدم هذه الطريقة من طرق معالجة القيم المفقودة لملئ القيم المفقودة في قاعدة البيانات من خلال تصنيف الزبائن أولا لفئات مختلفة، بحسب حجم مشترياتهم مثلا، ثم ملئ خانة العمر المفقودة في كل فئة بالمتوسط الحسابي أو الوسيط الخاص بأعمار جميع الزبائن الذين ينتمون لتلك الفئة.

مثلا، إذا كانت لدينا قيمة مفقودة في قاعدة البيانات لأحد الزبائن كالعمر مثلا، وكان حجم المشتريات لديه محدد بقيمة معينة، فإنه  يمكن ملئ خانة العمر بنفس قيمة الوسيط أو المتوسط الحسابي لأعمار الزبائن الذين يتشابهون معه في حجم المشتريات، أو بمعنى آخر ينتمون لهذه الفئة من الزبائن المميزين بهذا الحجم من المشتريات.

6. استخدام القيمة الأكثر احتمالا بالتنبؤ لتعبئة القيم المفقودة

ويتم ذلك من خلال أساليب أكثر تعقيدًا، ومن خلال تقنيات التنقيب المتخصصة وخورازميات التصنيف والتنبؤ، مثل شجرة القرار، التي تهدف للتنبؤ من خلال تنقيب البيانات الأخرى الموجودة والمتوفرة واكتشاف القيم المفقودة والتنبؤ بها بحسب نتائج التحليل.

ويلاحظ في الطرق (3، 4، 5)، أنها قد تؤدي في الكثير من الأحيان إلى تعبئة القيم المفقودة بقيم غير صحيحة.

أما الطريقة رقم (6) فهي إستراتيجية شائعة الاستخدام، ومقارنة بالطرق الأخرى فهي تستخدم المعطيات الموجودة فعلا من أجل التنبؤ بالقيم المفقودة. ونظرًا لصحة كل المعلومات المستخدمة فإنه يمكن التنبؤ بقيم قريبة جدًا من القيم الحقيقية المفقودة كلما كان أسلوب التحليل والتنقيب والتنبؤ يعتمد على عدد أكبر من السمات والبيانات المتوفرة في البيانات.

طرق وإجراءات معالجة البيانات المزعجة عند تنظيف البيانات

الإزعاج في البيانات أو البيانات المزعجة (بالإنجليزية: Noisy Data) هي خطأ عشوائي أو تعدد قيم أحد المتغيرات التي يتم تحديدها باستخدام وحدات القياس المختلفة بشكل يكون مزعجًا بشكل ما لعمليات التحليل والتنقيب.

ويظهر مثل هذا الإزعاج عندما يتم استخدام تقنيات الإحصاء أو تقنيات تصوير البيانات.

كما يمكن أن يُظهر الإزعاج قيمًا متطرفة تمثل أيضًا شكل من أشكال الإزعاج.

مثلا، في قاعدة بيانات مبيعات أحد الشركات، فإن المتغير الخاص بسعر المنتج، وهو من أنواع البيانات الرقمية، يكون له عدد كبير من القيم المختلفة نظرًا لاختلاف أسعار المنتجات المتعددة وندرة تطابق أسعارها، بحيث يُصعّب هذا الأمر من عملية التعبير عن هذا المتغير إحصائيًا كما أنه يؤثر سلبًا على إجراءات التنقيب. لذا يتم اللجوء إلى ما يسمى عملية تنعيم للبيانات (بالإنجليزية: Data Smoothing)، وذلك من أجل جعلها متجانسة وإزالة الإزعاج الموجود فيها.

مثال توضيح معالجة البيانات المزعجة

لو افترضنا مثلا أن القيم التالية تمثل أسعار بعض المنتجات المتنوعة في أحد الشركات التجارية:

11، 15، 22، 24، 26، 31، 36، 41، 43

فعند النظر إلى هذه القيم من منظور إحصائي بهدف تطبيق إجراءات التحليل والتنقيب عليها يلاحظ أن عددها كبير نسبيًا.

فقد يرغب المحلل بإجراء تعديل على البيانات قبل بدء عمليات التحليل والتنقيب، بهدف تنعيمها وجعلها محدودة العدد بما يساهم في رفع كفاءة التحليل والتنقيب وتحقيق أهداف محددة. وبالتالي فهو يقوم هنا بعملية معالجة البيانات المزعجة فيها.

وتشبيه هذا الأمر ما يحدث عند استبدال هذه القيم بقيم جديدة تعبر عن مستوى سعر المنتج بأن يكون أحد المستويات الثلاثة (منخفض، متوسط، مرتفع) فقط كنوع من التنعيم. ومن ثم يتم استخدام هذه القيم الثلاثة في عمليات التحليل والتنقيب من أجل التوصل لحقائق مفيدة مبسطة وواضحة حول حجم المبيعات ومدى الإقبال على شراء هذه المنتجات، كما أن التنعيم بهذه الكيفية، التي نتج عنها تحول في نوع البيانات وإنشاء سمة جديدة، يندرج تحت أسلوب تحويل البيانات الذي سوف يتم التطرق إليه بالتفصيل لاحقًا.

وقد تكون عملية التنعيم محدودة بطريقة لا ينتج عنها تحول في نوعية البيانات أو إنشاء سمات جديدة. ويتم ذلك بأحد الطرق التالية:

1.طريقة التكييس، التجميع في السلات

التكييس (بالإنجليزية: Binning) هي طريقة لتنعيم القيم المتعددة لأحد المتغيرات من خلال تحديد قيم جديدة ومحدودة العدد، بحيث تكون من نفس النوع، وذلك من خلال استشارة القيم المجاورة لها أو المحيطة بها.

يتم في هذه الطريقة أولا توزيع القيم المتوفرة في عدد من السلات، بشكل متساوٍ، يكون في كل سلة عدد متساوي من القيم.

ثم يتم في الخطوة التالية تنعيم القيم بأن تأخذ جميعها قيم جديدة بأحد الطرق التالية:

  1. يتم حساب قيمة المتوسط الحسابي (أو المتوسط) أو الوسيط لكل القيم الموجودة في كل سلة ثم يتم استبدال كل القيم الواردة فيها بقيمة المتوسط الحسابي أو الوسيط.
  2. يتم تحديد القيمتين العليا والصغرى في كل سلة، ثم يتم استبدال كل قيمة وردت في السلة بالقيمة الأقرب لها من القيمتين العظمى أو الصغرى.

مثال على استخدام طريقة التكييس في تنظيف البيانات

بفرض أنه لدينا القيم التالية التي تمثل أسعار بعض المنتجات المتنوعة في أحد الشركات التجارية:

11، 15، 22، 24، 26، 31، 36، 41، 43

ولكي نقوم بإجراء عملية معالجة البيانات المزعجة وتنعيم لهذه البيانات، يتم أولا توزيعها على ثلاثة سلات، كل سلة تحتوي على ثلاثة قيم فقط كما يلي:

  1. السلة الأولى: 11، 15، 22
  2. السلة الثانية: 24، 26، 31
  3. والسلة الثالثة: 36، 41، 43

وفي الخطوة الثانية يتم استبدال القيم الأصلية بالقيم الجديدة كما يلي وبحسب كل حالة:

  • استبدال القيم الأصلية بقيمة المتوسط الحسابي للقيم في كل سلة:
  1. السلة الأولى: 16، 16، 16
  2. السلة الثانية: 27، 27، 27
  3. والسلة الثالثة: 40، 40، 40
  • استبدال القيم الأصلية بالقيمة الأقرب لها من القيم الصغرى والعظمى:
  1. السلة الأولى: 11، 11، 22
  2. السلة الثانية: 24، 24، 31
  3. والسلة الثالثة: 36، 43، 43

ويتضح من هذا المثال كيف تم تنعيم البيانات الذي تمثل في تقليل عدد القيم المختلفة لأسعار المنتجات.

بحيث أنها أصبحت كما يلي:

  • (3) قيم فقط في الحالة الأولى
  • (6) قيم فقط في الحالة الثانية بعد أن كانت (9) قيم في المعطيات الأصلية.

ويلاحظ أنه كلما اتسع الفارق بين القيم الأصلية والقيم المستبدلة بها يزداد تأثير هذه العملية.

وبالمقابل يمكن للسلات أن تحتوي على قيم متساوية إذا كان معدل الفرق بين القيم فيها ثابت.

وتجدر الإشارة إلى أن هذه الطرق تستخدم أيضًا في تقنيات تفريد البيانات (بالإنجليزية: Data Discretization).

وهذه الطرق هي شكل من أشكال تحويل البيانات الذي سيتم التطرق إليه بالتفصيل لاحقًا.

2. تقنية الانحدار

إن إجراءات تنعيم البيانات (بالإنجليزية: Data Smoothing) يمكن تطبيقها أيضًا باستخدام تقنية الانحدار (بالإنجليزية: Regression).

وتقنية الانحدار هي تقنية مهمتها إسناد قيمة المتغير محل البحث إلى قيمة متغير آخر مستقل باستخدام دالة رياضية.

وقد تكون هذه الدالة من النوع الخطي التي تعتمد على متغير مستقل واحد فقط إضافة للمتغير التابع الذي يتم تحديد قيمته الجديدة.

ويسمى الانحدار عندئذٍ بالانحدار الخطي.

وعند معرفة المتغير المستقل يمكن التنبؤ بقيمة المتغير التابع باستخدام الدالة الرياضية.

ويمكن تمثيل الدالة الرياضية بالمعادلة الشهيرة التالية:

س = أ + ب × ص

حيث:

  • س: هو المتغير التابع الذي يتم التنبؤ بقيمته.
  • ص: هو المتغير المستقل الذي تتم معرفة قيمته.
  • أ، ب: ثوابت تحقق شروط المعادلة.

أما الانحدار متعدد الأبعاد فهو عبارة عن دالة رياضية تشتمل على عدة متغيرات.

ويتم تمثيل الدالة بمساحة متعددة الأبعاد في الفراغ بدلا من الخط المستقيم.

ويتم حساب قيمة المتغير التابع بمعرفة قيمة كل المتغيرات التي يعتمد عليها في الدالة الرياضية.

3. تحليل القيم المتطرفة

عندما يتم تجميع البيانات في مجموعات متجانسة باستخدام تقنيات التحليل العنقودي أو التجزئة العنقودية Clustering، يمكن ملاحظة وقوع بعض القيم خارج تلك المجموعات بحيث يتم اعتبارها من القيم المتطرفة (بالإنجليزية: Outliers).

وتتعدد أساليب التعامل مع مثل هذه القيم بحسب الهدف من كل أسلوب.

ففي إجراءات تنظيف البيانات قد يلزم إهمال هذا النوع من البيانات وعدم أخذها بالاعتبار كونها بيانات مزعجة، وذلك حتى لا تؤثر على نتائج التحليل والتنقيب.

ومع ذلك فقد يلزم أخذها بالاعتبار وعدم إهمالها حتى وإن كان لها تأثير على نتائج التحليل والتنقيب.

وفي كل الأحوال فإنه يلزم تحليل هذه القيم وبحث أسباب تطرفها وما إذا كانت ناتجة عن أخطاء في إدخال البيانات أو أي أسباب أخرى، بحيث يتم تحديد طريقة التعامل معها وما إذا كان سيتم اعتبارها بيانات مزعجة ينبغي تنظيفها أو بيانات مهمة ينبغي أخذها بالاعتبار.

وقد تم التطرق بالتفصيل لتنقيب هذا النوع من البيانات في موضوع تنقيب القيم المتطرفة.

توصيف القيم المتطرفة
شكل (2) – توصيف القيم المتطرفة

الخلاصة وإرشادات هامة في تنظيف البيانات

كثيرًا من طرق تنظيف البيانات وتنعيم البيانات، التي تهدف لجعلها بيانات متجانسة، تستخدم أيضًا في أساليب تفريد البيانات واختزال البيانات.

مثلا، تقنية التكييس تقوم بتخفيض عدد القيم المختلفة لكل متغير، وهي عملية تشبه اختزال البيانات من أجل استخدامها في التنقيب، بخاصة المتغيرات ذات القيم المنطقية.

كذلك يمكن للأسلوب الهرمي في تفريد البيانات أن يعتمد على التجانس.

مثلا، يمكن ربط قيم أسعار المنتجات بثلاثة قيم محددة بحيث تكون كما يلي:

  1. سعر مرتفع
  2. سعر متوسط
  3. وسعر منخفض

ويتم بذلك استبدال جميع القيم بالقيم الجديدة تمهيدًا لإجراء عمليات التحليل والتنقيب عليها.

من جهة أخرى، تستخدم تقنيات كثيرة بهدف ضبط الإزعاج في البيانات قبل وقوعه.

ومن أهم هذه التقنيات هي ما يتعلق بإجراءات وضوابط إدخال البيانات التي تستخدم في التحكم بعملية الإدخال ومنع ارتكاب الأخطاء أثناء تلك العملية من المستخدمين مهما تنوعت مهاراتهم وقدراتهم ودقة وكفاءة أداءهم لعملية الإدخال، وبذلك تكون هي الوسيلة المثلى لمنع الإزعاج قبل وقوعه أصلا بحسب مقولة أن الوقاية خير من العلاج. ومن أمثلة هذه الإجراءات ما يتم وضعه من قيود أثناء عملية الإدخال على بعض المتغيرات التي تأخذ قيمًا محددة أو تقع ضمن نطاق معين.

مثلا، في قاعدة بيانات زبائن أحد الشركات يمكن تحديد متغير “عمر الزبون” بأنه ينبغي أن يكون ضمن نطاق محدد وهو:

من صفر إلى 100

ويتم ضبط إدخال القيمة برسالة تنبيه تظهر لمدخل البيانات عندما يقوم بإدخال قيمة خاطئة لا تقع ضمن ذلك النطاق.

وعندما يقوم المستخدم بإدخال القيمة (441) بدلا من (41)، تظهر له رسالة تنبيه وتمنعه من استكمال العملية إلى أن يقوم بتصحيحها.

وهكذا، يتم الحد من الحاجة إلى تنظيف البيانات كلما أمكن ذلك.

أسئلة واختبارات

يمكن تحميل تطبيق اختبارات متعددة التخصصات، وهو تطبيق مجاني من إصدار مركز البحوث والدراسات متعدد التخصصات. ويحتوي التطبيق على العديد من الاختبارات والأسئلة المتخصصة في مجال الرياضيات وعلوم الكمبيوتر، ويهدف إلى توفير آلية للتدريب على الامتحانات والاختبارات الإلكترونية لطلاب المدارس والجامعات. ويجمع التطبيق بين التعليم والترفيه ويوفر آلية للمنافسة بطريقة تساهم في تعميم الفائدة بين المتنافسين.

رابط تحميل التطبيق على متجر جوجل بلاي: تطبيق اختبارات متعددة التخصصات

المصدر

  • كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى عبيد، دار الفكر العربي، القاهرة، الطبعة الأولى، 2017.
تنظيف البيانات - المقصود به وأهميته وطرقه وإجراءاته - تنقيب البيانات