الرئيسية » تنقيب البيانات » تنقيب واستكشاف الأنماط النادرة والأنماط السلبية

تنقيب واستكشاف الأنماط النادرة والأنماط السلبية

آخر تحديث: مارس 1, 2021

مفهوم الأنماط النادرة والأنماط السلبية

إن جميع قواعد التبعية والارتباط والأنماط المتكررة التي يتم استكشافها هي تلك التي ترتفع فيها معدلات التكرار في قواعد البيانات، ومع ذلك فقد يكون من الشيق أيضًا أن يتم استكشاف الأنماط قليلة التكرار بدلا من الأنماط كثيرة التكرار، أو استكشاف الأنماط التي تعكس علاقة ارتباط عكسية بين المتغيرات المختلفة، وهذه الأنواع من الأنماط تسمى الأنماط النادرة والأنماط السلبية على الترتيب.

أمثلة الأنماط النادرة والأنماط السلبية

الأنماط النادرة

في قاعدة بيانات مبيعات محل للمجوهرات يمكن ملاحظة ندرة سجلات بيع الساعات المصنوعة من الألماس، ومع ذلك فإنه يمكن أن تمثل تلك السجلات النادرة قاعدة شيقة بالرغم من أنها نادرة الحدوث، حيث أنها تمثل فرصة استثمارية جيدة لصاحب المحل وفيها ربح وفير، الأمر الذي يجعله يهتم بها ويتفحص كل ما يخصها من بيانات، سواء من حيث خصائص الزبائن الذين قاموا بعمليات الشراء أو التوقيت والظروف والأسعار التي كانت سائدة لهذا المنتج وقت شرائه.

الأنماط السلبية

من جهة أخرى، ففي قاعدة بيانات مبيعات أحد المراكز التجارية إذا وجدنا أن الزبائن يشترون بشكل متكرر المشروبات الغازية العادية أو المشروبات الغازية منزوعة السكريات Diet، ولكنهم لا يقومون بشرائها معًا، فإنه في هذه الحالة يمكن اعتبار أن شراء المشروبات الغازية العادية وشراء المشروبات الغازية منزوعة السكريات معًا هو نمط لعلاقة ارتباط عكسية.

التعريف الرياضي: الأنماط النادرة والأنماط السلبية

إذا كان لدينا مجموعتين من العناصر (أ)، (ب) متعددي التكرار في قاعدة البيانات ولكنهما نادرًا ما يحدثون معًا، أي أن:

نسبة تغطية [(أ) مع (ب)] أقل من [(نسبة تغطية (أ) × نسبة تغطية (ب)]

فإن المجموعة (أ) والمجموعة (ب) مرتبطتان عكسيًا، والمجموعة (أ U ب)، “أ اتحاد ب”، هي نمط لعلاقة ارتباط سلبية.

وإذا كانت نسبة تغطية (أ U ب) أقل بكثير من [(نسبة تغطية (أ) × نسبة تغطية (ب)]

فإن المجموعة (أ) والمجموعة (ب) مرتبطتان عكسيًا بقوة، أو بمعنى آخر فإن المجموعة (أ U ب) هي نمط لعلاقة ارتباط سلبية قوية.

مثال تطبيقي

في إحدى قواعد بيانات أحد المراكز التجارية، نفرض أنه لدينا (200) سجل وأن هذه السجلات تحتوي على تكرارات مبيعات المنتج من النوع (أ) بعدد (100) سجل، ومبيعات المنتج (ب) تكرارات بعدد (100) سجل، بشكل منفرد لكل منها، ولكن هناك حالة سجل واحد يُظهر بيع المنتج (أ) والمنتج (ب) معًا، ففي هذه الحالة فإنه يكون:

نسبة تغطية مبيعات المنتج (أ) = 100 / 200 = 0.5

نسبة تغطية مبيعات المنتج (ب) = 100 / 200 =  0.5

ونسبة تغطية مبيعات المنتجين معًا (أ) و (ب) = 1/200 =  0.005

ويكون: نسبة تغطية مبيعات المنتج (أ) × نسبة تغطية مبيعات المنتج (ب) = 0.5 × 0.5 = 0.25

أو أن:

[نسبة تغطية مبيعات المنتجين (أ) و (ب) معًا] أصغر بكثير من [نسبة تغطية مبيعات المنتج أ × نسبة تغطية مبيعات المنتج ب].

لذا فإنه يٌقال أن المنتج (أ) مرتبط عكسيًا مع المنتج (ب)، حيث أن شراء أحدهما لا يُشجع على شراء المنتج الآخر.

موضوع مقترح: تنقيب الأنماط وقواعد الارتباط والتبعية

مركز البحوث والدراسات متعدد التخصصات

التدريب

للتدريب على الاختبارات والأسئلة المتخصصة في مجال الرياضيات وعلوم الكمبيوتر، فيما يلي رابط تحميل تطبيق اختبارات متعددة التخصصات على موقع أو متجر جوجل بلاي: تطبيق اختبارات متعددة التخصصات.

المصدر

كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى عبيد، دار الفكر العربي، القاهرة، 20017م.

تنقيب واستكشاف الأنماط النادرة و الأنماط السلبية