الرئيسية » تنقيب البيانات » التصوير المرئي للبيانات وأساليبه المتنوعة

التصوير المرئي للبيانات وأساليبه المتنوعة

آخر تحديث: مارس 1, 2021

ملخص المحتوى

  • التصوير البكسلي للبيانات
  • تصوير البيانات باستخدام تقنية الإسقاط الهندسي
  • مصفوفة القطع المبعثرة
  • تصوير البيانات باستخدام تقنية الأيقونات
  • تصوير البيانات باستخدام تقنية التصوير الهرمي
  • وتصوير البيانات والعلاقات المعقدة
  • تصوير البيانات وعلاقات الارتباط

التصوير البكسلي للبيانات

التصوير البكسلي للبيانات (بالإنجليزية: Pixel-Oriented Visualization) هي طريقة سهلة للتعبير المرئي عن البيانات أو التصوير المرئي للبيانات (بالإنجليزية: Data Visualization)، ويتم فيها استخدام التنقيط البكسلي Pixel الذي يخصص نقطة سوداء واحدة لكل وحدة من وحدات القياس للبيانات التي يتم التعبير عنها.

وكلما زادت قيمتها يزداد عدد النقاط السوداء المستخدمة في التنقيط وبالتالي تزداد شدة التظليل في الصورة الناتجة.

وبالعكس، كلما قلت القيمة التي يتم التعبير عنها بالتنقيط البكسلي تخف شدة التظليل في الصورة الناتجة.

مثال توضيحي

لو افتراضنا أنه في أحد البنوك تم استخدام وسيلة التنقيط البكسلي لاستكشاف خصائص الزبائن الأكثر إنفاقًا باستخدام بطاقاتهم الإئتمانية الصادرة عن البنك، فإنه يمكن للبنك بناء نماذج مخصصة لتصوير بيانات الزبائن الأساسية المرتبطة بتلك السمة والمراد بحثها واستكشاف علاقتها بزيادة الإنفاق باستخدام البطاقات.

ومن أمثلة البيانات التي يتم تصويرها:

  • الفئة العمرية
  • مستوى الدخل
  • حجم المعاملات التي تمت باستخدام بطاقة الائتمان

ولكي يتم استكشاف العلاقة بين حجم الإنفاق ومستوى الدخل يتم ترتيب البيانات تصاعديًا، أو تنازليًا، بحسب مستوى الدخل.

الشكل التالي يوضح مقارنة لتصوير بيانات زبائن أحد البنوك بالطريقة البكسلية مرتبة تنازليًا حسب مستوى الدخل:

بيانات زبائن أحد البنوك بالطريقة البكسلية
شكل (1)، تصوير بيانات زبائن أحد البنوك بالطريقة البكسلية مرتبة تنازليًا حسب مستوى الدخل

الصورة الأولى من اليمين (أ) توضح تصويرًا لمستوى الدخل وقد تم ترتيبها تنازليًا (باتجاه الأعلى).

والصورة الثانية (ب) توضح الحد الأعلى للبطاقة المستخدمة.

أما الصورة الثالثة (ج) فتبين حجم المشتريات باستخدام البطاقة.

والصورة الرابعة (د) توضح عمر الزبون.

ويُلاحظ أنه عند مقارنة الصورة (ج) مع الصورة (أ) يتضح أن الزبائن من ذوي الدخل المتوسط نسبيًا هم الفئة الأكثر إنفاقًا باستخدام البطاقة.

كما أنهم يتسمون بأنهم يمتلكون بطاقات شراء بحدود متوسطة عند المقارنة مع الصورة (ب).

ولكن الصورة (د) توضح أنهم من فئات عمرية مختلفة ولا ينتمون لفئة عمرية محددة.

وتتضح كل تلك الاستنتاجات من خلال ملاحظة ما يلي:

  • شدة التظليل المرتفعة في منتصف الصورة (ج)، والمناظرة لمنتصف المسافة بين أكبر وأقل قيمة في الصور (أ)، (ب)
  • تداخل المساحات المظللة وعدم انتظامها في الصورة (د).

التصوير المرئي للبيانات باستخدام تقنية الإسقاط الهندسي

تفتقد تقنية التصوير البكسلي للبيانات للقدرة على المساعدة في توضيح وفهم كيفية توزيع البيانات التي تتقاطع في فضاءات متعددة الأبعاد، حيث أنه لا يمكنها أن تُظهر المساحات المظللة فيها مثلما تُظهره في حالة الأعمدة التي تعبر عن البيانات بشكل منفصل.

وتقنية الإسقاط الهندسي (بالإنجليزية: Geometric Projection Visualization) تساعد في إيجاد الإسقاطات الشيقة لفئات البيانات متعددة الأبعاد، وذلك من خلال إظهارها على سطح مستوٍ في حالة البيانات ثنائية الأبعاد أو الأشكال المكعبة المجسمة في حالة البيانات ثلاثية الأبعاد، باستخدام أشكال القطع المبعثرة (بالإنجليزية: Scatter Plot).

الشكل التالي يمثل توزيعا بطريقة القطع المبعثرة ثنائية الأبعاد (بالإنجليزية: 2D-Scatter Plot).

ويبين الشكل توزيع البيانات وفقًا لسمتين X, Y باستخدام نظام الإحداثيات الديكارتية ثنائي الأبعاد.

ويتم إضافة البعد الثالث على الرسم الهندسي باستخدام رموز مختلفة لكل قيمة من القيم وتكون إحداثياتها ممثلة بنقاط التقاطع لقيم كل من X وY التي يتم تحليلها.

في الشكل التالي أحد الأمثلة على هذا النوع من التصوير، ويظهر فيه كيف يمكن ملاحظة وجود ترادف وتقارب مكاني للعلامتين (x، +) حيث تظهر بشكل متكرر جنبًا إلى جنب في عدة أماكن على الرسم:

طريقة القطع المبعثرة ثنائية الأبعاد 2D
شكل (2)، تصوير البيانات بطريقة القطع المبعثرة ثنائية الأبعاد 2D-Scatter Plot

ويمكن لتقنية الإسقاط الهندسي أن تكون ثلاثية الأبعاد (بالإنجليزية: 3d-Scatter Plot).

ويتم التعبير عن التقنية باستخدام نظام الإحداثيات الديكارتية ثلاثي الأبعاد، بحيث تمثل الإحداثيات الثلاثة قيم كل من X, Y, Z ويتم التعبير عن البعد الرابع بالتظليل في أماكن تقاطع القيم الثلاثة.

الشكل التالي أحد أمثلة تصوير البيانات باستخدام تقنية الإسقاط الهندسي ثلاثية الأبعاد.

ويظهر في الشكل توزيع البيانات وفقًا لإحداثيات تقاطع قيم ثلاثة متغيرات x, y, z.

التصوير المرئي للبيانات باستخدام تقنية الإسقاط الهندسي ثلاثية الأبعاد
شكل (3)، تصوير البيانات باستخدام تقنية الإسقاط الهندسي ثلاثية الأبعاد

التصوير المرئي للبيانات باستخدام مصفوفة القطع المبعثرة

مصفوفة القطع المبعثرة (بالإنجليزية: Scatter Plot Matrix) هي وسيلة لتوسيع الفائدة من طريقة الإسقاط الهندسي حتى يتم استخدامها في تصوير البيانات متعددة الأبعاد n×n، بحيث توضح تقاطعات كل بعد مع البعد الآخر وتوزيع البيانات وفقًا للعلاقة البينية بين الابعاد المختلفة.

في الشكل التالي مصفوفة قطع مبعثرة خماسية الأبعاد 5×5، تبين تصوير مجموعة من البيانات الخاصة بدراسة زهرة السوسن، والتي تتألف من 450 نموذج لثلاثة أنواع منها.

وتظهر فيه خمسة أبعاد للبيانات الخاصة بكل من الطول والعرض للجذع والفرع باستخدام وحدات القياس المناسبة بالإضافة للنوع.

التصوير المرئي للبيانات - مصفوفة القطع المبعثرة خماسية الأبعاد 5×5
شكل (4)، مصفوفة قطع مبعثرة خماسية الأبعاد 5×5

تصوير البيانات باستخدام تقنية الأيقونات

يمكن تصوير البيانات مرئيًا باستخدام تقنية الأيقونات (بالإنجليزية: Icon Based Visualization)، وهي تقنية تستخدم الرموز المصغرة من أجل تصوير البيانات ذات القيم متعددة الأبعاد.

ومن أشهر أنواع تقنية الأيقونات:

  1. وجوه شيرنوف
  2. الأشكال الناتئة

وجوه شيرنوف

وجوه شيرنوف أو (بالإنجليزية: Chernoff Faces) ابتكرها العالم الإحصائي شيرنوف، وتُستخدم لاستعراض البيانات متعددة الأبعاد، والتي تصل إلى 18 متغير (بُعد)، باستخدام الوجوه الكرتونية.

وتساعد وجوه شيرنوف في كشف الأنماط المختلفة للبيانات.

وتُمثل مكونات الوجوه المستخدمة، كالعيون والآذان والفم والأنف، قيم المتغيرات من خلال الشكل والحجم والموضع والاتجاه.

مثلا يمكن ربط قيم المتغيرات مع خصائص الوجه المختلفة مثل:

  • حجم العين
  • تباعد العينين
  • طول الأنف
  • عرض الأنف
  • تقوس الفم
  • عرض الفم
  • حجم بؤبؤ العين
  • انحراف حاجب العين

وغيرها من الخصائص.

وتمكّن وجوه شيرنوف من استخدام القدرات العقلية للإنسان في ملاحظة الاختلافات الطفيفة في خصائص الوجوه المستخدمة في تمثيل عدة متغيرات في نفس الوقت.

إن مشاهدة كميات كبيرة من جداول البيانات يُعتبر أمرًا مضجرًا.

واستخدام وجوه شيرنوف يمكن أن يلخص البيانات ويجعلها أسهل للمستخدم حتى يستطيع فهمها واستكشافها.

تقنية وجوه شيرنوف
شكل (5)، تقنية وجوه شيرنوف

وبهذه الطريقة يمكن تسهيل تصوير التناسق والتشابه أو الاختلاف والشذوذ بين كميات كبيرة من البيانات، بالرغم من محدودية هذه الطريقة في قدرتها على استكشاف العلاقات بين البيانات المختلفة.

كما تفتقد تقنية وجوه شيرنوف للقدرة على تصوير أنواع معينة من البيانات.

وحتى في حالة التشابه بين وجهين من وجوه شيرنوف إذا كانا يمثلان مجموعتين من البيانات متعددة الأبعاد فإن البيانات نفسها قد تكون مختلفة وفقًا لترتيب الأبعاد والخصائص المستخدمة في الوجوه.

الأشكال الناتئة

تصوير البيانات باستخدام تقنية الأشكال الناتئة أو (بالإنجليزية: Stick Figures) هي عملية ربط مجموعة من البيانات متعددة الأبعاد بأشكال ناتئة ذات خمسة أطراف، حيث يكون لكل شكل جسم وأربعة أطراف ويتربط متغيرين منهم بمحوري س، ص.

وترتبط بقية المتغيرات بخصائص الأطراف المتبقية، الطول والعرض وزاوية الميل.

الشكل التالي يوضح توزيع بيانات التعداد السكاني لأحد المناطق.

ويمثل كل من العمر والدخل على المحورين س، ص على الترتيب.

وترتبط بقية المتغيرات (الجنس، التعليم، …إلخ) بالأطراف المتبقية للأشكال الناتئة.

وبقدر ما تزداد كثافة الأشكال في توزيعها على إحداثيات المحورين س، ص فإنها تمثل زيادة في قيم تلك المتغيرات وطريقة توزيعها المناظرة على الرسم.

تقنية الأشكال الناتئة
شكل (6) تقنية الأشكال الناتئة

التصوير المرئي للبيانات باستخدام تقنية التصوير الهرمي

تشترك كل التقنيات السابقة في كونها تُستخدم لتصوير البيانات متعددة الأبعاد بشكل متزامن وبنفس الوقت على نفس الرسم، وهو أمر قد يكون صعبًا، وربما مستحيلا، في حالة تصوير البيانات الضخمة متعددة الأبعاد بشكل كبير. وتُعالج تقنية التصوير الهرمي (بالإنجليزية: Hierarchical Visualization) هذا القصور من خلال استخدام أسلوب التجزئة، وذلك من خلال تجزئة كل الأبعاد إلى مجموعات جزئية ومن ثم تصوير تلك المجموعات بطريقة هرمية.

الشكل التالي يوضح تصويرًا باستخدام التقنية الهرمية لبيانات متعددة الأبعاد.

ويتم في الشكل تجزئة البيانات إلى مجموعتين من الأبعاد، لكل منها شكل ديكارتي مخصص لها:

تقنية التصوير الهرمي
شكل (7) تقنية التصوير الهرمي

التصوير المرئي للبيانات والعلاقات المعقدة

قديمًا كانت تُستخدم تقنيات تصوير البيانات بشكل أساسي في حالة أنواع البيانات الرقمية، أما هذه الأيام فإنها تُستخدم بشكل أكبر في تصوير البيانات غير الرقمية، مثل النصوص وبيانات شبكات التواصل الاجتماعي التي باتت متاحة للجميع ويكثر استخدامها بشكل كبير، بحيث أدى هذا الأمر لجعل التصوير والتحليل الإحصائي لتلك البيانات أمرًا شيقًا، وأدى إلى ظهور تقنيات جديدة للتصوير تختص بهذا النوع من البيانات والعلاقات المعقدة (بالإنجليزية: Complex Data Types And Relations).

مثلا، يقوم الكثير من مستخدمي شبكة الإنترنت بوسم الصور والموضوعات والمدونات والمنتجات بوسوم مميزة (بالإنجليزية: Tags).

وتقوم تقنية سحابة الوسوم (بالإنجليزية: Tag-Cloud) بعملية تجميع إحصائي لكل الوسوم المستخدمة وترتيبها أبجديًا أو بحسب أي تفضيل آخر.

ويتم تحديد أهمية كل وسم من الوسوم من خلال حجم الخط المستخدم أو اللون الممنوح له.

الشكل التالي يُظهر تقنية سحابة الوسوم المستخدمة في تصوير الوسوم الشائعة في أحد مواقع الإنترنت مرتبة ترتيبًا أبجديًا:

تصوير مرئي للوسوم المستخدمة في أحد مواقع الإنترنت
شكل (8) تصوير مرئي للوسوم المستخدمة في أحد مواقع الإنترنت

ويتضح من الشكل أنه بالرغم من الترتيب الأبجدي للوسوم إلا أنه يلاحظ أنه كلما ازداد عدد مرات استخدام الوسم إحصائيًا من قِبل المستخدمين في الموقع فإنه يزداد حجم الخط المكتوب به ذلك الوسم، سواء تكرر اسخدامه من نفس الشخص أو من أشخاص متعددين.

وبذلك تقوم عملية التصوير المرئي بإظهار الوسوم الأكثر استخدامًا إحصائيًا بمجرد النظر إلى الشكل.

ومن الأمثلة المشهورة لتقنيات التصوير المرئي في حالة البيانات المعقدة الخريطة الشجرية التي تقسم البيانات إلى مجموعة من المستطيلات.

وكما يظهر في الشكل التالي، والذي يبين طريقة تصوير شجرية لمحتوى الأخبار في جوجل، ويتم فيها تجميع كل محتويات الأخبار في فئات رئيسية تحتوي كل منها على مستطيل كبير وبلون مميز، وفي كل فئة (أي بداخل كل مستطيل) يتم إعادة تجزئة محتويات الأخبار إلى فئات جزئية أصغر:

طريقة تصوير شجرية لمحتوى الأخبار في جوجل
شكل (9)، طريقة تصوير شجرية لمحتوى الأخبار في جوجل

تصوير البيانات وعلاقات الارتباط

بالإضافة لتصوير البيانات المعقدة بهذه الطرق، فإنه يمكن أيضًا تصوير علاقات الارتباط المعقدة بين البيانات (بالإنجليزية: Correlations Visualization).

مثلا، الشكل التالي يستخدم صورة رسم بياني لتأثير الإصابة بعدوى أحد الأمراض وعلاقته بالإصابة بأمراض أخرى.

والدوائر المستخدمة في الرسم تناظرها الأمراض المختلفة، وحجم الدائرة يتناسب طرديًا مع مدى انتشار المرض.

ويصل بين دائرتين خط مستقيم إذا كانت الأمراض المناظرة للدوائر مرتبطة مع بعضها البعض.

كما يتناسب سمك الخط طرديًا مع قوة الارتباط فيما بينها.

تصوير الأمراض المختلفة ومدى انتشارها وعلاقات الارتباط فيما بينها
شكل (10)، تصوير الأمراض المختلفة ومدى انتشارها وعلاقات الارتباط فيما بينها

الخلاصة

توفر تقنيات التصوير المرئي للبيانات أدوات فعّالة لتصوير البيانات، وقد قمنا بسرد مجموعة من طرق التصوير الشائعة والأفكار التي استندت عليها. وهناك العديد من الأدوات والطرق الشيقة التي تستخدمها التقنيات لأهداف مختلفة في تحليل البيانات أو التنقيب في قواعد البيانات. وبالرغم من أن هذه التقنيات يمكن اعتبارها أحد أساليب التحليل والتنقيب القائمة بذاتها، إلا أنه يمكنها أيضًا أن تكون وسيلة إضافية تستخدم لتحضير البيانات للتحليل والتنقيب، وذلك مثلما يحدث عند استخدامها في إظهار الأنماط المستكشفة في أدوات التنقيب الأخرى.

وبشكل عام، تعتبر تقنيات التصوير ذات أهمية كبيرة في هذا العصر، ومسار مهم من مسارات دراسات البحث العلمي وتحليل وتنقيب البيانات، بخاصة مع انتشار استخدام التكنولوجيا في مختلف المجالات.

التدريب

للتدريب على الاختبارات والأسئلة المتخصصة في مجال الرياضيات وعلوم الكمبيوتر، فيما يلي رابط تحميل تطبيق اختبارات متعددة التخصصات على موقع أو متجر جوجل بلاي: تطبيق اختبارات متعددة التخصصات.

المصدر

كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى عبيد، دار الفكر العربي، القاهرة، 20017م.