دمج البيانات واعتبارات ضمان صحة تنفيذ عمليات الدمج

ملخص المحتوى

شرح المقصود بعمليات دمج البيانات أو تكامل البيانات وفوائد الدمج الجيد للبيانات بالأمثلة التطبيقية، والاعتبارات المختلفة لضمان صحة تنفيذ عمليات دمج البيانات بالشكل الأمثل، طبيعة البيانات والقيم المستخدمة فيها، نظم القياس المستخدمة، العمليات الحسابية التي يتم تنفيذها عليها وهيكلية البيانات في قاعدة البيانات.

مفهوم دمج البيانات

تتطلب عمليات تحليل وتنقيب البيانات في كثير من الأحيان إجراء عمليات دمج للبيانات (بالإنجليزية: Data Integration) من عدة مصادر، والدمج الجيد يساعد في اختصار البيانات وتجنب التكرارات الزائدة أو التناقضات، وهو ما يساهم في زيادة كفاءة وسرعة ودقة إجراءات التحليل والتنقيب.

إن عدم التجانس في بنية ودلالة البيانات يُشكل تحدياً كبيراً لعمليات دمج البيانات، حيث أنها تتطلب الدمج بطريقة صحيحة مهما تعددت المصادر والبيئات الحاضنة لها بحيث يتم الحصول في النهاية على قاعدة بيانات كاملة ذات هيكلية موحدة وبيانات منظمة وموزعة بدقة في أماكنها المناسبة.

مثال على دمج البيانات

من أمثلة عمليات دمج البيانات أن يتم تجميع قواعد البيانات المخصصة لحفظ وتخزين حركة بيع المنتجات في عدة فروع لأحد المراكز التجارية الكبرى، بحيث يتم في هذه العملية تجميع حركات الشراء بشكل صحيح وبطريقة تُظهر كل البيانات في أماكنها المناسبة، مع إضافة البيانات الخاصة بالفرع نفسه.

الجدول التالي يوضح عملية بسيطة من هذا النوع عند دمج بيانات من مصدرين:

قاعدة بيانات الفرع (ل)

مالزبونالعمرالدخلالمنطقةحجم المشتريات
1أ401000س200
2ب30800س200
…..
مقطع من قاعدة بيانات فرع (ل)

قاعدة بيانات الفرع (م)

مالزبونالعمرالدخلالمنطقةحجم المشتريات
1أ501500ص300
2ب451200ص250
….……
مقطع من قاعدة بيانات فرع (م)

دمج قاعدة بيانات الفرع (ل) والفرع (م)

مالفرعالزبونالعمرالدخلالمنطقةحجم المشتريات
1لأ401000س200
2لب30800س200
3مج501500ص300
4مد451200ص250
….
دمج قاعدة بيانات فرع (ل) مع قاعدة بيانات فرع (م)

اعتبارات مختلفة لضمان صحة تنفيذ عمليات دمج البيانات

توجد اعتبارات مختلفة يجب مراعاتها عند دمج البيانات من مصادر مختلفة، وهي كما يلي:

طبيعة البيانات وطبيعة القيم المستخدمة

من التحديات التي تواجه عمليات دمج البيانات من عدة مصادر مختلفة ما يتعلق بكل من طبيعة و أنواع البيانات و المتغيرات وما تحتويه من قيم ينبغي أن تكون متماثلة ولا تتسبب في ظهور التناقضات. مثلاً في قاعدة بيانات أحد الفروع لأحد الشركات لو تم استخدام التعبير “رقم الزبون” لتخزين رقم بطاقة الزبون الشخصية، وتم استخدام تعبير “رقم بطاقة الزبون” في فرع آخر فإنه سوف ينشأ تعارض عند دمج قاعدتي البيانات معاً.

كما أنه يمكن أن ينشأ التعارض من خلال اختلاف طبيعة القيم التي يتم تخزينها حتى وإن تطابقت أسماء المتغيرات، مثلاً كأن يتم تعريف القيم (1، صفر) لمتغير باسم “حالة التدخين” في قاعدة بيانات أحد فروع المراكز الطبية وبنفس الوقت يتم تخزين القيم (مدخن، غير مدخن) في فرع آخر لنفس المتغير.

نظم القياس المستخدمة

كما قد تظهر التناقضات بين قيم المتغيرات من حيث نظم القياس المستخدمة فيها، كأن يتم استخدام وحدات القياس في النظام الدولي للقياس (أو النظام المتري) عند قياس المسافات بالمتر في قاعدة بيانات أحد الفروع واستخدام النظام الإنجليزي لقياس المسافات بالياردة في قاعدة بيانات فرع آخر، أو بنفس الطريقة عندما يتم استخدام مقاييس مختلفة لدرجات الحرارة كأن يتم استخدام نظام الدرجات المئوية في أحد الفروع ونظام درجات الفهرنهايت في نظام وحدات مختلف.

العمليات الحسابية

كذلك يتطلب الأمر التأكد من العمليات الحسابية التي تتم على بعض المتغيرات، مثل الخصومات والعروض، وما يمكن أن ينشأ عنها من تعارض بين قواعد البيانات المختلفة، مثلاً عند وجود خصم محدد بنسبة معينة على أسعار المنتجات في أحد الفروع وخصم بنسبة مختلفة في فروع أخرى فإن ذلك يمكن أن يؤثر في نتيجة الدمج وينتج عنه تعارض في الأسعار النهائية للمنتجات التي يتم تجميعها في قاعدة بيانات موحدة. ويحدث ذلك بشكل أوضح في سلاسل الفنادق التي لها فروع في عدة بلدان، حيث تختلف أسعار الغرف لأسباب عديدة منها اختلاف العملة المستخدمة في كل بلد بالإضافة لاختلاف الخدمات التي يتم تقديمها مجاناً لكل غرفة، كأن يشمل سعر الغرفة تقديم وجبة فطور مجانية أو استخدام حمامات السباحة في أحد الفروع ولا يشملها في فروع أخرى.

هيكلية البيانات

وفي جميع الحالات قد ينشأ التناقض والتعارض في البيانات، سواء من حيث البنية والهيكلية التي يتم تصميمها لحفظ البيانات أو من حيث المحتوى والقيم الخاصة بكل متغير من المتغيرات التي يتم حفظها وتخزينها. وفي كل الأحوال فإنه يلزم في كثير من الأحيان القيام ببعض الإجراءات الإضافية قبل بدء تنفيذ عملية الدمج، وذلك من أجل ضمان تنفيذ عملية الدمج بالشكل الصحيح وتجنب الأخطاء التي يمكن أن تظهر وتؤدي إلى إضعاف نتائج التحليل والتنقيب المزمع تنفيذها.

وتشتمل الإجراءات الإضافية على عمليات متعددة يتم الاختيار من بينها بما يتناسب مع الاحتياجات والأهداف في كل حالة، ويمكن تنفيذها باستخدام تقنيات تنظيف البيانات التي تم التطرق إليها سابقاً أو باستخدام تقنيات تحويل البيانات وتفريد البيانات والتي سوف يتم التطرق إليها لاحقاً في هذا القسم الخاص بتحضير البيانات للتحليل والتنقيب.

دمج البيانات - صورة غلاف كتاب تنقيب البيانات
صورة غلاف كتاب التحليل المتقدم وتنقيب البيانات
Don`t copy text!