ملخص المحتوى
شرح طرق تقييم كفاءة خوارزميات التصنيف والتنبؤ ومعايير اختيار خوارزمية التصنيف المناسبة بحسب الاحتياج مع التوضيح بالأمثلة التطبيقية، قياس نسبة صحة خوارزميات التصنيف، شرح مشكلة اختلال التوازن في خوارزميات التصنيف، قياس الحساسية والنوعية، قياس الدقة والمثالية، قياس السرعة والمتانة وقابلية التوسع وقابلية التفسير لخوارزميات التصنيف.
المحتويات
مفهوم تقييم كفاءة خوارزميات التصنيف
بعد بناء أحد الخوارزميات نموذج تصنيف معين يمكن أن نبدأ بالتساؤل مثلا عن مدى صحة التوقع أو التنبؤ الذي يقوم به نموذج التصنيف، مثلا لو افترضنا أننا قمنا ببناء خوارزمية تصنيف تتنبأ بالسلوك الشرائي لأحد الزبائن، ولكننا نريد أن نعرف مدى صحة هذا التنبؤ الذي توفره تلك الخوارزمية، أي مدى صحة التنبؤ بإقبال أحد الزبائن على شراء منتج معين.
أو نفرض أننا قمنا ببناء أكثر من نموذج تصنيف للتنبؤ بسلوك هذا الزبون، فكيف يمكننا أن نعرف أي من هذه النماذج هو أكثر صحة وكفاءة من غيره من النماذج ويمكن الاعتماد عليه في التنبؤ الصحيح عند مقارنتهم معًا من حيث وحدات القياس المختلفة مثل مقياس الصحة والمقاييس الأخرى.
إن الإجابة على هذا السؤال يتمثل في توضيح الطرق المختلفة لتقدير مدى كفاءة خوارزميات التصنيف من خلال حساب مقياس الصحة أو مقاييس أخرى مهمة تهدف لتقدير كفاءة الخوارزميات من حيث مدى صحتها وجودتها عند استخدامها من أجل التنبؤ.
مثال لتوضيح مفهوم كفاءة خوارزميات التصنيف
في إحدى قواعد البيانات الخاصة بمبيعات الأجهزة الإلكترونية لإحدى الشركات، نفرض أنه تم بناء نموذج تصنيف مخصص يهدف للتنبؤ بمدى إقبال زبون ما على شراء جهاز كمبيوتر، وكانت مهمة نموذج التصنيف هي التوقع أو التنبؤ بتصنيف كل سجل ليكون منتمي لأحد الفئتين التاليتين:
- فئة السجلات الموجبة (بالإنجليزية: Positives) (م): وهي السجلات التي فيها (شراء كمبيوتر= نعم)
- فئة السجلات السالبة (بالإنجليزية: Negatives) (ن): وهي السجلات التي فيها (شراء كمبيوتر= لا)
وذلك بفرض أن الفئة الأساسية هنا هي فئة السجلات الموجبة، وهي الفئة التي تحتوي على كل السجلات التي يكون فيها التوقع أو التنبوء بالتصنيف أمر إيجابي، وهذا الأمر هو عملية شراء جهاز الكمبيوتر، أما الفئة السلبية فهي التي تحتوي على كل السجلات الأخرى.
ونفرض أنه تم تطبيق هذه الخوارزمية على كل السجلات الموجودة، والتي نعرف بالفعل الفئة التي ينتمون لها، وذلك من أجل التنبؤ بتلك الفئة، بحيث يتم معرفة عدد السجلات التي يتم التنبؤ بفئتها بشكل صحيح أو (بالإنجليزية: True Positives) وليكن هذا العدد يساوي (ت م)، وهو عدد السجلات الموجبة التي تم التنبؤ لها بشكل صحيح باستخدام نموذج التصنيف.
وبالمثل يكون عدد السجلات السالبة الصحيحة أو (بالإنجليزية: True Negatives) وليكن (ت ن) هو عدد السجلات السالبة التي تم التنبؤ لها بشكل صحيح باستخدام نموذج التصنيف.
وعدد السجلات الموجبة الخاطئة (بالإنجليزية: False Positives) (خ م) هو عدد السجلات السالبة التي تنبأ لها نموذج التصنيف بشكل خاطئ وألحقها بالفئة الموجبة، مثلا التنبؤ بالإقبال على شراء الكمبيوتر لأحد السجلات الذي يبين أن الزبون لم يشترِ الكمبيوتر.
وعدد السجلات السالبة الخاطئة أو (بالإنجليزية: False Negatives) (خ ن) هو عدد السجلات الموجبة التي تم اعتبارها بالخطأ سالبة مع أنها موجبة. أي أنها سجلات تنتمي لموجوعة أو فئة (شراء الكمبيوتر = نعم) وقام نموذج التصنيف بالتنبؤ لها بأنها تنتمي للفئة (شراء كمبيوتر= لا).
وضع ملخص نتائج القيم في جدول
يمكن تلخيص كل القيم السابقة في الجدول التالي:
| الفئة التي تم توقعها | ||||
| الفئة الصحيحة | نعم | لا | المجموع | |
| نعم | ت م | خ ن | م | |
| لا | خ م | ت ن | ن | |
| المجموع | م “ | ن” | م + ن |
حيث تخبرنا القيم (ت م) و (ت ن) متى كان نموذج التصنيف يعمل بشكل جيد من حيث التنبؤ بسلوك الزبون، سواء من حيث الإقبال أو عدم الإقبال على الشراء. بينما تخبرنا القيم (خ م) و (خ ن) متى كان نموذج التصنيف يعمل بشكل خاطئ.
ويلاحظ من هذا النموذج بأنه يقوم بالتنبؤ مجموعتين أو فئتين فقط وهي (شراء كمبيوتر = نعم) و(شراء كمبيوتر= لا)، ويمكن توسيعه ليغطي معطيات نموذج تصنيف يتوقع أو يتنبأ بعدة فئات تصنيفية بنفس الطريقة.
نسبة صحة خوارزمية التصنيف
من خلال معرفة جميع أعداد السجلات الواردة في الجدول السابق يمكن حساب نسبة صحة (بالإنجليزية: Accuracy) خوارزمية التصنيف أو نموذج التصنيف وذلك باستخدام المعادلة التالية:
نسبة الصحة = [(ت م) + (ت ن)] / [(م) + (ن)]
أي أن نسبة صحة خوارزمية التصنيف أو (بالإنجليزية Accuracy) هي نسبة عدد السجلات التي تم تصنيفها بشكل صحيح إلى إجمالي عدد السجلات، وتسمى أحيانًا بنسبة إدارك الخوارزمية.
كما يمكن الحديث عن نسبة الخطأ (بالإنجليزية: Error Rate) في نموذج التصنيف بنفس الطريقة، بحيث يكون:
نسبة الخطأ = [(خ م) + (خ ن)] / [(م) + (ن)]
أي أنها نسبة عدد السجلات التي تم التوقع أو التنبؤ بها بشكل خاطئ باستخدام نموذج التصنيف إلى إجمالي عدد السجلات.
كما يلاحظ أن نسبة الصحة = 1 – نسبة الخطأ
مشكلة اختلال التوازن في خوارزميات التصنيف
تظهر هذه المشكلة عندما تكون الفئة المهمة التي يتم استكشافها هي الفئة النادرة، أي أن توزيع البيانات يعكس الأغلبية للفئة السالبة، والأقلية للفئة الموجبة، ومن أمثلة ذلك ما نجده في البيانات الطبية، كأن تكون الفئة النادرة مثل (الإصابة بمرض السرطان) في نموذج تصنيف تكون مهمته تحليل سجلات البيانات الطبية للمرضى، ويتم التنبؤ بأن أحد السجلات الخاص بأحد المرضى يحتمل إصابته بمرض السرطان وذلك بالإجابة بالقيمة (نعم أو لا)، وفي هذه الحالة إذا كانت مثلا نسبة الصحة هي 97% فإنها قد تجعل نموذج التصنيف يبدو وكأنه يتمتع بنسبة صحة عالية، ولكن ماذا إذا لم يكن في قاعدة البيانات غير 3% فقط من السجلات المصابة بالفعل بمرض السرطان؟
من الواضح في هذه الحالة بأن نسبة الصحة 97% قد لا تكون مقبولة بشكل كافٍ أو مُقنع، حيث أنه من الممكن أن يكون هذا النموذج، مثلا، قادرًا على التصنيف الصحيح للسجلات التي لا تحتوي على الإصابة بمرض السرطان وبنفس الوقت يكون ضعيفًا أو غير قادر على تصيف السجلات التي تحتوي على الإصابة بالمرض فعلا.
الحاجة لأنواع أخرى من مقاييس كفاءة خوارزميات التصنيف
ومن هذه المنطلق تظهر لنا الحاجة لأنواع أخرى من مقاييس الكفاءة التي تُبين لنا مدى جودة نموذج التصنيف وقدرته على تمييز أو إدراك القيم الموجبة (السرطان = نعم) ومدى قدرته على إدراك السجلات ذات القيم السالبة (السرطان = لا). وهذه المقاييس الجديدة يتم التعبير عنها بمصطلحات كل من الحساسية والنوعية أو (بالإنجليزية: Sensitivity and Specificity)، وهي مقاييس يتم استخدامها من أجل هذا الغرض على الترتيب.
قياس كفاءة خوارزميات التصنيف من حيث الحساسية والنوعية
الحساسية (بالإنجليزية: Sensitivity) = (ت م) / (م)
النوعية (بالإنجليزية: Specificity) = (ت ن) / (ن)
كما أنه يمكن استنتاج أن نسبة الصحة يمكن التعبير عنها بدلالة الحساسية والنوعية من خلال المعادلة التالية:
نسبة الصحة = الحساسية × [(م) / (م) + (ن)] + النوعية × [(ن) / (م) + (ن)]
مثال توضيح قياس الحساسية والنوعية
الجدول التالي يوضح ملخص تجميعي لنتائج تصنيف سجلات بيانات طبية، وقيم فئات التصنيف في النموذج المستخدم هي (نعم و لا) والتي تعبر عن المتغير أو السمة (الإصابة بمرض السرطان):