الرئيسية » تنقيب البيانات » دمج البيانات واعتبارات ضمان صحة تنفيذ عمليات الدمج

دمج البيانات واعتبارات ضمان صحة تنفيذ عمليات الدمج

آخر تحديث: مارس 3, 2021

ملخص المحتوى

شرح المقصود بعمليات دمج البيانات أو تكامل البيانات وفوائد الدمج الجيد للبيانات بالأمثلة التطبيقية. والاعتبارات المختلفة لضمان صحة تنفيذ عمليات دمج البيانات أو تكاملها بالشكل الأمثل. طبيعة البيانات والقيم المستخدمة فيها، نظم القياس المستخدمة، العمليات الحسابية أو المنطقية التي يتم تنفيذها عليها. بنية أو هيكلية البيانات في قاعدة البيانات.

مفهوم دمج البيانات

تتطلب عمليات تحليل وتنقيب البيانات في كثير من الأحيان إجراء عمليات دمج للبيانات أو (بالإنجليزية: Data Integration) من عدة مصادر. والدمج الجيد يساعد في اختصار البيانات وتجنب التكرارات الزائدة أو التناقضات. وهو ما يساهم في زيادة كفاءة وسرعة ودقة إجراءات التحليل أو التنقيب.

إن عدم التجانس في بنية ودلالة البيانات يُشكل تحديًا كبيرًا لعمليات دمج البيانات، حيث أنها تتطلب الدمج بطريقة صحيحة مهما تعددت المصادر والبيئات الحاضنة لها بحيث يتم الحصول في النهاية على قاعدة بيانات كاملة ذات هيكلية موحدة وبيانات منظمة وموزعة بدقة في أماكنها المناسبة.

مثال على دمج البيانات

من أمثلة عمليات دمج البيانات أن يتم تجميع قواعد البيانات المخصصة لحفظ وتخزين حركة بيع المنتجات في عدة أقسام أو فروع لأحد المراكز التجارية الكبرى. بحيث يتم في هذه العملية تجميع حركات الشراء بشكل صحيح وبطريقة تُظهر كل البيانات في أماكنها المناسبة، مع إضافة البيانات الخاصة بالفرع أو القسم نفسه.

الجدول التالي يوضح عملية بسيطة من هذا النوع عند دمج بيانات من مصدرين أو فرعين لإحدى الشركات:

قاعدة بيانات القسم أو الفرع (ل)

مالزبونالعمر أو السنالدخلالمنطقةحجم المشتريات
1أ401000س200
2ب30800س200
…..
مقطع من قاعدة بيانات فرع (ل)

قاعدة بيانات القسم أو الفرع (م)

مالزبونالعمر أو السنالدخلالمنطقةحجم المشتريات
1أ501500ص300
2ب451200ص250
….……
مقطع من قاعدة بيانات فرع (م)

دمج قاعدة بيانات القسم أو الفرع (ل) والفرع (م)

مالفرعالزبونالعمر أو السنالدخلالمنطقةحجم المشتريات
1لأ401000س200
2لب30800س200
3مج501500ص300
4مد451200ص250
….
دمج قاعدة بيانات فرع (ل) مع قاعدة بيانات فرع (م)

اعتبارات مختلفة لضمان صحة تنفيذ عمليات دمج البيانات

توجد اعتبارات مختلفة يجب مراعاتها عند دمج البيانات من مصادر مختلفة، وهي كما يلي:

طبيعة البيانات وطبيعة القيم المستخدمة

من التحديات التي تواجه عمليات دمج البيانات من عدة مصادر مختلفة ما يتعلق بكل من طبيعة أو أنواع البيانات والمتغيرات وما تحتويه من قيم ينبغي أن تكون متماثلة من حيث النوع ولا تتسبب في ظهور التناقضات. مثلا، في قاعدة بيانات أحد الفروع لأحد الشركات لو تم استخدام التعبير “رقم الزبون” لتخزين رقم بطاقة الزبون الشخصية، وتم استخدام تعبير “رقم بطاقة الزبون” في فرع آخر فإنه سوف ينشأ تعارض عند دمج قاعدتي البيانات معًا نظرًا لاختلاف اسم الحقل المستخدم في قاعدتي البيانات. كما أنه يمكن أن ينشأ التعارض من خلال اختلاف طبيعة القيم التي يتم تخزينها حتى وإن تطابقت أسماء الحقول أو المتغيرات، مثلا كأن يتم تعريف قيم رقمية مثل (1، صفر) لمتغير باسم “حالة التدخين” في قاعدة بيانات أحد فروع المراكز الطبية وبنفس الوقت يتم تخزين قيم اسمية مثل (مُدخن، غير مُدخن) في فرع آخر لنفس المتغير.

نظم القياس المستخدمة

كما قد تظهر التناقضات بين قيم المتغيرات من حيث نظم القياس المستخدمة فيها عند إجرا عمليات دمج البيانات. كأن يتم استخدام وحدات القياس في النظام الدولي للقياس (أو النظام المتري) عند قياس المسافات بالمتر في قاعدة بيانات أحد الفروع واستخدام النظام الإنجليزي لقياس المسافات بالياردة في قاعدة بيانات فرع آخر. أو بنفس الطريقة عندما يتم استخدام مقاييس مختلفة لدرجات الحرارة. كأن يتم استخدام نظام الدرجات المئوية في أحد الفروع ونظام درجات الفهرنهايت في فرع أو قسم مختلف.

العمليات الحسابية

كذلك يتطلب الأمر التأكد من العمليات الحسابية التي تتم على بعض المتغيرات، مثل الخصومات والعروض، وما يمكن أن ينشأ عنها من تعارض بين قواعد البيانات المختلفة. مثلا عند وجود خصم محدد بنسبة معينة على أسعار المنتجات في أحد الفروع وخصم بنسبة مختلفة في فروع أخرى فإن ذلك يمكن أن يؤثر في نتيجة دمج البيانات وينتج عنه تعارض في الأسعار النهائية للمنتجات التي يتم تجميعها في قاعدة بيانات موحدة. ويحدث ذلك بشكل أوضح في سلاسل الفنادق أو المطاعم التي لها فروع في عدة بلدان. حيث تختلف أسعار الغرف أو الوجبات لأسباب عديدة منها اختلاف العملة المستخدمة في كل بلد بالإضافة لاختلاف الخدمات التي يتم تقديمها مجانًا لكل غرفة. كأن يشمل سعر الغرفة تقديم وجبة فطور مجانية أو استخدام حمامات السباحة في أحد الفروع ولا يشملها في فروع أخرى.

هيكلية البيانات

وفي جميع الحالات قد ينشأ التناقض والتعارض في البيانات، سواء من حيث البنية والهيكلية التي يتم تصميمها لحفظ البيانات أو من حيث المحتوى والقيم الخاصة بكل متغير من المتغيرات التي يتم حفظها وتخزينها. وفي كل الأحوال فإنه يلزم في كثير من الأحيان القيام ببعض الإجراءات الإضافية قبل بدء تنفيذ عملية دمج البيانات. وذلك من أجل ضمان تنفيذ عملية الدمج بالشكل الصحيح وتجنب الأخطاء التي يمكن أن تظهر وتؤدي إلى إضعاف نتائج التحليل أو التنقيب المزمع تنفيذها.

وتشتمل الإجراءات الإضافية لدمج البيانات على عمليات متعددة يتم الاختيار من بينها بما يتناسب مع الاحتياجات والأهداف في كل حالة. ويمكن تنفيذها باستخدام تقنيات تنظيف البيانات التي تم التطرق إليها سابقًا أو باستخدام تقنيات تحويل البيانات وتفريد البيانات والتي سوف يتم التطرق إليها لاحقًا ضمن القسم الخاص بتحضير البيانات للتحليل والتنقيب.

أسئلة واختبارات

للتدريب على الاختبارات والأسئلة المتخصصة في مجال الرياضيات أو علوم الكمبيوتر، يمكن تحميل تطبيق اختبارات متعددة التخصصات، وهو من إصدار نركز البحوث والدراسات متعدد التخصصات. فيما يلي رابط تحميل التطبيق على موقع أو متجر جوجل بلاي:

تطبيق اختبارات متعددة التخصصات

المصدر

كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى فؤاد عبيد، دار الفكر العربي، القاهرة، الطبعة الأولى 2017.

دمج البيانات - تنقيب البيانات