المعلوماتية الحيوية وأهدافها وخوارزمياتها وقواعد بياناتها

المحتويات

ملخص المحتوى

المعلوماتية الحيوية – شرح وتبسيط مفهومها وأهدافها، نطاقها وتطبيقاتها وحدودها وخوارزمياتها، قواعد البيانات البيولوجية الأولية والثانوية والمتخصصة.

ما هي المعلوماتية الحيوية

المعلوماتية الحيوية (بالإنجليزية Bioinformatics) هي مجال بحث متعدد التخصصات يجمع بين علوم الكمبيوتر والرياضيات والعلوم البيولوجية.

توجد مجموعة متنوعة من التعريفات في الأدبيات وعلى شبكة الإنترنت العالمية للمعلوماتية الحيوية؛ بعضها أكثر شمولية من غيرها.

التعريف الذي اقترحه “Luscombe” وآخرون في تعريف المعلوماتية الحيوية على أنها اتحاد للبيولوجيا والمعلوماتية:

“تنطوي المعلوماتية الحيوية على التكنولوجيا التي تستخدم أجهزة الكمبيوتر للتخزين والاسترجاع والمعالجة وتوزيع المعلومات المتعلقة بالجزيئات البيولوجية الحيوية مثل (DNA) و(RNA) والبروتينات.”
تعريف المعلوماتية الحيوية – “Luscombe” وآخرون

والتركيز في هذا المجال على استخدام أجهزة الحاسوب لأن معظم المهام في تحليل البيانات الجينومية متكررة للغاية أو مُعقدة رياضيًا.

يُعد استخدام أجهزة الكمبيوتر أمرًا لا غنى عنه على الإطلاق في تنقيب البيانات الجينية والجينومات لجمع المعلومات واستكشاف وبناء المعرفة.

المعلومايتة الحيوية وعلم الأحياء الحسابي

تختلف المعلوماتية الحيوية عن مجال آخر ذي صلة يُعرف باسم علم الأحياء الحسابي (بالإنجليزية: Computational Biology).

وتقتصر المعلوماتية الحيوية على التسلسل والتحليل الهيكلي والوظيفي للجينات والجينومات ومنتجاتها المقابلة، وغالبًا ما تُعتبر بيولوجيا جزيئية حاسوبية. ومع ذلك، فإن علم الأحياء الحسابي يشمل جميع المجالات البيولوجية التي تنطوي على الحساب. على سبيل المثال، النمذجة الرياضية للأنظمة البيئية، وديناميكيات السكان، وتطبيق نظرية اللعبة في الدراسات السلوكية، والبناء الوراثي باستخدام السجلات الأحفورية كلها تستخدم أدوات حسابية، ولكنها لا تنطوي بالضرورة على الجزيئات البيولوجية.

بجانب هذا التمييز، تجدر الإشارة إلى أن هناك وجهات نظر أخرى حول كيفية ارتباط المصطلحين.

على سبيل المثال، يعرّف أحد الإصدارات المعلوماتية الحيوية على أنها تطوير وتطبيق الأدوات الحسابية في إدارة جميع أنواع البيانات البيولوجية.

في حين أن علم الأحياء الحسابي يقتصر على التطور النظري للخوارزميات المستخدمة في المعلوماتية الحيوية.

قد يعكس هذا الارتباك في الوقت الحاضر حول التعريف جزئيًا طبيعة هذا المجال الجديد النابض بالحياة وسريع التطور.

أهداف المعلوماتية الحيوية

الهدف النهائي للمعلوماتية الحيوية هو فهم الخلية الحية بشكل أفضل وكيف تعمل على المستوى الجزيئي.

من خلال تحليل التسلسل الجزيئي الخام والبيانات الهيكلية، يمكن لأبحاث المعلوماتية الحيوية أن تولّد رؤى جديدة وتوفر منظورًا عالميًا للخلية. السبب في أن وظائف الخلية يمكن فهمها بشكل أفضل عن طريق تحليل بيانات التسلسل هو في نهاية المطاف لأن تدفق المعلومات الوراثية تمليه “العقيدة المركزية” لعلم الأحياء التي يتم فيها نسخ الحمض النووي (DNA) إلى الحمض النووي الريبي (RNA)، والذي يتم ترجمته إلى البروتينات. ويتم تنفيذ الوظائف الخلوية (من الخلية) بشكل رئيسي عن طريق البروتينات التي يتم تحديد قدراتها في نهاية المطاف من خلال تسلسلها.

لذلك، ثبت أن حل المشكلات الوظيفية باستخدام التسلسل والنهج الهيكلي في بعض الأحيان هو محاولة مثمرة.

نطاق تطبيق المعلوماتية الحيوية

تتكون المعلوماتية الحيوية من مجالين فرعيين:

تطوير الأدوات وقواعد البيانات الحسابية
تطبيق هذه الأدوات وقواعد البيانات في توليد المعرفة البيولوجية لفهم الأنظمة الحية بشكل أفضل.

هذان الحقلان الفرعيان مكملان لبعضهما البعض. يتضمن تطوير الأدوات كتابة برمجيات للتسلسل والتحليل الهيكلي والوظيفي باستخدام لغات البرمجة المتخصصة، بالإضافة إلى بناء وتنظيم قواعد البيانات البيولوجية.

تُستخدم هذه الأدوات في ثلاث مجالات للبحث الجينومي والبيولوجي الجزيئي:

تحليل التسلسل الجزيئي
التحليل الهيكلي الجزيئي
والتحليل الوظيفي الجزيئي

وغالبًا ما تولّد تحليلات البيانات البيولوجية مشكلات وتحديات جديدة تحفّز بدورها تطوير أدوات حسابية جديدة وأفضل.

تحليل التسلسل

محاذاة التسلسل، والبحث في قاعدة بيانات التسلسل، واكتشاف الزخارف والأنماط، وإيجاد الجينات والمروج، وإعادة بناء العلاقات التطورية، وتجميع الجينوم والمقارنة.

التحليلات الهيكلية

تحليل بنية البروتين والحمض النووي والمقارنة والتصنيف والتنبؤ.

التحليلات الوظيفية

التنميط التعبير الجيني، والتنبؤ بالتفاعل بين البروتين-البروتين، والتنبؤ بتوطين البروتين تحت الخلوي، وإعادة بناء مسار التمثيل الغذائي، والمحاكاة.

الجوانب الثلاثة لتحليل المعلوماتية الحيوية ليست معزولة ولكنها غالبًا ما تتفاعل لتحقيق نتائج متكاملة.

على سبيل المثال، يعتمد التنبؤ ببنية البروتين على بيانات محاذاة التسلسل؛ يتطلب تجميع ملفات تعريف التعبير الجيني استخدام طرق بناء شجرة جينية مشتقة من تحليل التسلسل.

يرتبط التنبؤ المعزز القائم على التسلسل بالتحليل الوظيفي للجينات المشتركة في التعبير.

تتضمن التعليقات الجينية عددًا من الأنشطة، والتي تشمل التمييز بين التسلسلات المُشفرة وغير المُشفرة، وتحديد تسلسلات البروتين المترجمة، وتحديد العلاقة التطورية للجين مع الجينات الأخرى المعروفة؛ يستخدم التنبؤ بوظائفه الخلوية أدوات من المجموعات الثلاث للتحليلات.

تطبيقات المعلوماتية الحيوية

لم تصبح المعلوماتية الحيوية ضرورية فقط لأبحاث البيولوجيا الجينومية والجزيئية الأساسية، ولكن أصبح لها تأثير كبير على العديد من مجالات التكنولوجيا الحيوية وعلوم الطب الحيوي. لديها تطبيقات، على سبيل المثال، في تصميم الأدوية القائمة على المعرفة، وتحليل الحمض النووي الشرعي، والتكنولوجيا الحيوية الزراعية. توفر الدراسات الحسابية لتفاعلات بروتين ليجند أساسًا منطقيًا للتحديد السريع للخيوط الجديدة للأدوية الاصطناعية. تسمح معرفة الهياكل الثلاثية الأبعاد للبروتينات بتصميم الجزيئات القادرة على الارتباط بموقع المستقبل للبروتين المستهدف مع تقارب وخصوصية كبيرين. يقلل هذا النهج القائم على المعلوماتية بشكل كبير من الوقت والتكلفة اللازمين لتطوير أدوية ذات فاعلية أعلى، وأعراض جانبية أقل، وسُمّية أقل من استخدام نهج التجربة والخطأ التقليدي.

في الطب الشرعي، تم قبول نتائج التحليل الجزيئي للسلالة كدليل في المحاكم الجنائية.

تم تطبيق بعض الإحصائيات البايزية (النظرية الافتراضية، أو نظرية الاحتمالات) المتطورة والأساليب القائمة على الاحتمالية لتحليل الحمض النووي في تحليل هوية الطب الشرعي. ومن الجدير بالذكر أن علم الجينوم والمعلوماتية الحيوية على استعداد الآن لإحداث ثورة في نظام الرعاية الصحية لدينا من خلال تطوير أدوية شخصية ومخصصة. سيسمح التسلسل الجينومي عالي السرعة إلى جانب تقنية المعلومات المتطورة للطبيب في العيادة بسَلسَلة جينوم المريض بسرعة واكتشاف الطفرات الضارة المحتملة بسهولة والانخراط في التشخيص المبكر والعلاج الفعال للأمراض. يتم استخدام أدوات المعلوماتية الحيوية في الزراعة أيضًا. لعبت قواعد بيانات الجينوم النباتي وتحليلات ملف تعريف الجينات دورًا مهمًا في تطوير أنواع المحاصيل الجديدة التي تتمتع بإنتاجية أعلى ومقاومة أكبر للأمراض.

حدود المعلوماتية الحيوية

بعد التعرف على قوة المعلوماتية الحيوية، من المهم أيضًا إدراك حدودها وتجنب الاعتماد المفرط على إنتاجها المعرفي والإفراط في التوقعات.

في الواقع، لدى المعلوماتية الحيوية عدد من القيود المتأصلة. من نواحِ عديدة، يمكن تشبيه دور المعلوماتية الحيوية في علم الجينوم وأبحاث البيولوجيا الجزيئية بدور جمع الذكاء في ساحات القتال. من الواضح أن الاستخبارات مهمة جدًا في تحقيق النصر في ساحة المعركة. إن خوض معركة بدون ذكاء هو أمر غير فعًال وخطير. يساعد امتلاك معلومات فائقة وذكاء صحيح على تحديد نقاط ضعف العدو وكشف استراتيجية العدو ونواياه. يمكن بعد ذلك استخدام المعلومات التي تم جمعها في توجيه القوات لإشراك العدو وكسب المعركة. ومع ذلك، فإن الاعتماد التام على الذكاء يمكن أن يكون خطيرًا أيضًا إذا كانت الاستخبارات محدودة الدقة. إن الإفراط في الاعتماد على المعلومات الاستخباراتية ذات النوعية الرديئة يمكن أن يؤدي إلى أخطاء باهظة الثمن إن لم تكن فادحة.

ليس من قبيل التشبيه أن مكافحة الأمراض أو المشاكل البيولوجية الأخرى باستخدام المعلوماتية الحيوية يشبه القتال في المعارك بالذكاء. المعلوماتية الحيوية وعلم الأحياء التجريبي أنشطة مستقلة ولكنها مكملة لبعضها البعض. تعتمد المعلوماتية الحيوية على العلوم التجريبية لإنتاج بيانات أولية للتحليل. وتوفر، بدورها، تفسيرًا مفيدًا للبيانات التجريبية والأدلة المهمة لمزيد من البحث التجريبي. إن التنبؤات المعلوماتية الحيوية ليست أدلة رسمية على أي مفاهيم. فهي لا تحل محل طرق البحث العلمي التجريبية التقليدية لاختبار الفرضية أو الفرضيات الإحصائية تطبيقيًا. بالإضافة إلى ذلك، تعتمد جودة التنبؤات المعلوماتية الحيوية على جودة البيانات وتعقيد الخوارزميات المستخدمة وكفاءة تلك الخوارزميات. غالبًا ما تحتوي بيانات التسلسل من تحليل الإنتاجية العالية على أخطاء. إذا كانت التسلسلات خاطئة أو التعليقات التوضيحية غير صحيحة، فإن نتائج التحليل النهائي سوف تكون مُضللة أيضًا.

هذا هو السبب في أنه من المهم للغاية الحفاظ على منظور واقعي لدور المعلوماتية الحيوية.

خوارزميات المعلوماتية الحيوية

المعلوماتية الحيوية ليست بأي حال من الأحوال مجالًا ناضجًا. تفتقر معظم الخوارزميات إلى القدرة والتطور لتعكس الواقع حقًا.

غالبًا ما تقدم الخوارزميات تنبؤات غير صحيحة لا معنى لها عند وضعها في سياق بيولوجي.

يمكن أن تؤثر الأخطاء في محاذاة التسلسل، على سبيل المثال، على نتائج التحليل الهيكلي أو تطور السلالات.

تعتمد نتيجة الحساب أيضًا على قوة الحوسبة المتاحة. لا يمكن استخدام العديد من الخوارزميات الدقيقة والشاملة بسبب بطء معدل الحساب. بدلا من ذلك، يجب استخدام خوارزميات أقل دقة ولكن أسرع. هذه مفاضلة ضرورية بين الدقة والجدوى الحسابية، أو حتى المفاضلة بين الأناقة والبساطة في الخوارزميات كما يُقال في أوساط البرمجة. لذلك، من المهم أن نأخذ في الاعتبار احتمال حدوث أخطاء تنتج عن برامج المعلوماتية الحيوية.

يجب توخي الحذر دائمًا عند تفسير نتائج التنبؤ. من الممارسات الجيدة استخدام برامج متعددة، إذا كانت متوفرة، وإجراء تقييمات متعددة.

يمكن الحصول على تنبؤ أكثر دقة غالبًا إذا توصل المرء إلى توافق من خلال مقارنة النتائج من خوارزميات مختلفة.

للمزيد من القراءة المتعمقة يمكن مراجعة موضوع: خوارزميات التصنيف والتنبؤ وطريقة عملها وأنواعها
موسوعة تنقيب البيانات – مركز البحوث والدراسات متعدد التخصصات

موضوعات جديدة في المعلوماتية الحيوية

بالرغم من بعض مظاهر الفشل، ليس هناك شك في أن المعلوماتية الحيوية هي مجال يحمل إمكانات كبيرة لإحداث ثورة في البحوث البيولوجية في العقود القادمة. حاليا، يشهد الحقل توسعًا كبيرًا. بالإضافة إلى توفير أدوات حسابية وخوارزميات أكثر موثوقية وأكثر صرامة للتسلسل والتحليل الهيكلي والوظيفي، فإن التحدي الرئيسي لتطوير المعلوماتية الحيوية في المستقبل هو تطوير أدوات لتوضيح وظائف وتفاعلات جميع المنتجات الجينية في الخلية. يمثل هذا تحديًا هائلا لأنه يتطلب تكامل المجالات المختلفة للمعرفة البيولوجية ومجموعة متنوعة من أدوات الرياضيات والتحليل الإحصائي والخوارزميات المعقّدة. للحصول على فهم أعمق للوظائف الخلوية، هناك حاجة إلى نماذج رياضية لمحاكاة مجموعة واسعة من ردود الفعل والتفاعلات داخل الخلايا على مستوى الخلية بالكامل.

تُسمى هذه المحاكاة الجزيئية لجميع العمليات الخلوية بيولوجيا الأنظمة.

سوف يمثل تحقيق هذا الهدف قفزة كبيرة نحو الفهم الكامل لنظام حيّ.

هذا هو السبب في أن المحاكاة والتكامل على مستوى النظام تعتبر مستقبل المعلوماتية الحيوية.

تمثل نمذجة مثل هذه الشبكات المعقدة والتنبؤ بسلوكها تحديات وفرصًا هائلة أمام خبراء المعلوماتية الحيوية.

الهدف النهائي من هذا المسعى هو تحويل علم الأحياء من علم نوعي إلى علم كمي وتنبؤي. إنها حقًا فترة مثيرة للمعلوماتية الحيوية.

قواعد البيانات البيولوجية

إحدى السمات المميزة للبحوث الجينومية الحديثة هي توليد كميات هائلة من بيانات التسلسل الخام.

ومع نمو حجم البيانات الجينومية، تنمو الحاجة إلى منهجيات حسابية معقدة لإدارة طوفان البيانات.

وبالتالي، فإن التحدي الأول في عصر الجينوميات هو تخزين ومعالجة الحجم الهائل من المعلومات من خلال إنشاء واستخدام قواعد البيانات.

وبالتالي فإن تطوير قواعد البيانات للتعامل مع الكمية الهائلة من البيانات البيولوجية الجزيئية هي مهمة أساسية للمعلوماتية الحيوية.

تستخدم قواعد البيانات البيولوجية الحالية جميع أنواع هياكل قواعد البيانات الثلاثة:

قواعد بيانات الملفات المسطحة
قواعد البيانات العلائقية
وقواعد البيانات الموجهة نحو الكائنات (الشيئية)

على الرغم من العوائق الواضحة لاستخدام نظام قواعد بيانات الملفات المسطحة، لا تزال العديد من قواعد البيانات البيولوجية تستخدم هذا التنسيق.

المبرر لهذا هو أن هذا النظام يتضمن الحد الأدنى من تعقيدات تصميم قاعدة البيانات ويمكن أن يفهم علماء الأحياء العاملون عليه نتائج البحث بسهولة.

بناءً على محتوياتها، يمكن تقسيم قواعد البيانات البيولوجية تقريبًا إلى ثلاث فئات:

قواعد البيانات الأولية
قواعد البيانات الثانوية
وقواعد البيانات المتخصصة

تحتوي قواعد البيانات الأولية على بيانات بيولوجية أصلية. وهي محفوظات تسلسل أولي أو بيانات هيكلية مقدمة من المجتمع العلمي. GenBank وبنك بيانات البروتين (PDB) أمثلة لقواعد البيانات الأولية. تحتوي قواعد البيانات الثانوية على معلومات معالجة حوسبة أو منسقة يدويًا، استنادًا إلى المعلومات الأصلية من قواعد البيانات الأساسية. تنتمي قواعد بيانات تسلسل البروتين المترجمة التي تحتوي على شرح وظيفي إلى هذه الفئة. ومن الأمثلة على ذلك SWISS-Prot وموارد معلومات البروتين (PIR). قواعد البيانات المتخصصة هي تلك التي تلبي اهتمامات بحثية معينة. على سبيل المثال، قاعدة بيانات Flybase وقاعدة بيانات تسلسل فيروس نقص المناعة البشرية ومشروع قاعدة بيانات الريبوسوم هي قواعد بيانات متخصصة في كائن معين أو نوع معين من البيانات.

قواعد البيانات الأولية

هناك ثلاث قواعد بيانات عامة للتسلسل العام تخزن بيانات تسلسل الحمض النووي الخام التي تم إنتاجها وتقديمها من قبل الباحثين في جميع أنحاء العالم:

قاعدة بيانات (GenBank)
قاعدة بيانات مختبر البيولوجيا الجزيئية الأوروبية (EMBL)
بنك بيانات الحمض النووي الياباني (DDBJ)

وكلها متاحة مجانًا على شبكة الإنترنت.

معظم البيانات الموجودة في قواعد البيانات يساهم بها المؤلفون مباشرة بأقل قدر من التعليقات التوضيحية.

تم إدخال عدد صغير من التسلسلات، وخاصة تلك التي تم نشرها في الثمانينيات، يدويًا من المنشورات المنشورة من قبل موظفي إدارة قواعد البيانات.

في الوقت الحاضر، يُعد تقديم التسلسل إما إلى GenBank أو EMBL أو DDBJ شرطًا مسبقًا للنشر في معظم المجلات العلمية لضمان إتاحة البيانات الجزيئية الأساسية مجانًا. تتعاون قواعد البيانات العامة الثلاث هذه عن كثب وتتبادل البيانات الجديدة يوميًا، وهي تشكل معًا التعاون الدولي لقاعدة بيانات تسلسل النيوكليوتيدات. هذا يعني أنه من خلال الاتصال بأي من قواعد البيانات الثلاثة، يجب على المرء الوصول إلى نفس بيانات تسلسل النوكليوتيدات.

على الرغم من أن قواعد البيانات الثلاثة تحتوي جميعها على نفس مجموعات البيانات الأولية، إلا أن كل واحدة من قواعد البيانات لها نوع مختلف قليلا من التنسيق لتمثيل البيانات.

لحسن الحظ، بالنسبة للهياكل ثلاثية الأبعاد للجزيئات البيولوجية الكبيرة، لا توجد سوى قاعدة بيانات مركزية واحدة، وهي PDB. تقوم قاعدة البيانات هذه بأرشفة الإحداثيات الذرية للجزيئات الكبيرة (البروتينات والأحماض النووية) التي تحددها الأشعة البلورية بالأشعة السينية والرنين المغناطيسي النووي. ويستخدم تنسيق الملفات لتمثيل اسم البروتين والمؤلفين والتفاصيل التجريبية والهيكل الثانوي والعوامل المساعدة والإحداثيات الذرية.

توفر واجهة الويب الخاصة بـ PDB أيضًا أدوات عرض لمعالجة الصور بشكل بسيط.

قواعد البيانات الثانوية

غالبًا ما تكون معلومات التعليقات التتابعية في قاعدة البيانات الأساسية ضئيلة. لتحويل معلومات التسلسل الخام إلى معرفة بيولوجية أكثر تعقيدًا، هناك حاجة إلى الكثير من المعالجة اللاحقة لمعلومات التسلسل. هذا يستدعي الحاجة إلى قواعد البيانات الثانوية، التي تحتوي على معلومات تسلسل معالجة حسابية مشتقة من قواعد البيانات الأولية. يختلف مقدار أعمال المعالجة الحسابية اختلافًا كبيرًا بين قواعد البيانات الثانوية؛ بعضها عبارة عن أرشيفات بسيطة لبيانات التسلسل المترجم من إطارات القراءة المفتوحة المحددة في DNA، بينما يوفر البعض الآخر تعليقات توضيحية ومعلومات إضافية تتعلق بمستويات أعلى من المعلومات فيما يتعلق بالهيكل والوظائف.

أمثلة قواعد بيانات المعلوماتية الحيوية الثانوية

مثال بارز لقواعد البيانات الثانوية هو (SWISS-PROT)، الذي يوفر شرحًا تتابعيًا تفصيليًا يتضمن الهيكل والوظيفة وتعيين عائلة البروتين.

يتم اشتقاق بيانات التسلسل بشكل أساسي من (TrEMBL)، وهي قاعدة بيانات لتسلسلات الحمض النووي المترجمة المخزنة في قاعدة بيانات (EMBL).

يتم تنسيق التعليقات التوضيحية لكل إدخال بعناية من قبل خبراء بشريين وبالتالي فهي ذات نوعية جيدة. يشتمل التعليق التوضيحي للبروتين على الوظيفة، وبنية المجال، والمواقع التحفيزية، وربط العامل المساعد، وتعديل ما بعد الترجمة، ومعلومات المسار الأيضي، وارتباط المرض، والتشابه مع التسلسلات الأخرى. يتم الحصول على الكثير من هذه المعلومات من المؤلفات العلمية ويتم إدخالها من قبل أمناء قواعد البيانات. يوفر التعليق التوضيحي قيمة مضافة كبيرة لكل سجل تسلسلي أصلي. يوفر سجل البيانات أيضًا روابط مرجعية لموارد أخرى مهمة عبر الإنترنت. ميزات أخرى مثل التكرار المنخفض للغاية ومستوى عالِ من التكامل مع قواعد البيانات الأساسية والثانوية الأخرى جعل (SWISS-PROT) شائعًا جدًا بين علماء الأحياء. أدت محاولة حديثة للجمع بين (SWISS-PROT) و(TrEMBL) و(PIR) إلى إنشاء قاعدة بيانات UniProt، والتي تتمتع بتغطية أكبر من أي من قواعد البيانات الثلاثة مع الحفاظ في الوقت نفسه على ميزة (SWISS-PROT) الأصلية ذات التكرار المنخفض، عبر المراجع وجودة التعليقات التوضيحية.

هناك أيضًا قواعد بيانات ثانوية تتعلق بتصنيف عائلة البروتين وفقًا للوظائف أو الهياكل.

تحتوي قواعد بيانات (Pfam) و(Block) على معلومات متوالية لتسلسل البروتين بالإضافة إلى الأشكال والأنماط المشتقة، والتي يمكن استخدامها لتصنيف عائلات البروتين واستنتاج وظائف البروتين.

(DALI) هي قاعدة بيانات هيكلية ثانوية للبروتين وهي حيوية لتصنيف بنية البروتين وتحليل الخيوط لتحديد العلاقات التطورية البعيدة بين البروتينات.

قواعد البيانات المتخصصة

عادة ما تخدم قواعد البيانات المتخصصة مجتمع بحث معين أو تركز على كائن معين. قد يكون محتوى قواعد البيانات هذه متواليات أو أنواع أخرى من المعلومات. قد تتداخل التسلسلات في قواعد البيانات هذه مع قاعدة بيانات أساسية، ولكن قد تحتوي أيضًا على بيانات جديدة مقدمة مباشرة من قبل المؤلفين. نظرًا لأنهم غالبًا ما يكونوا برعاية خبراء في هذا المجال، فقد يكون لديهم أنظمة فريدة وشروح إضافية مرتبطة بالتسلسلات. تقع العديد من قواعد بيانات الجينوم الخاصة بالتصنيف ضمن هذه الفئة. تتضمن الأمثلة (Flybase) و(WormBase) و(AceDB) و(TAIR). بالإضافة إلى ذلك، هناك أيضًا قواعد بيانات متخصصة تحتوي على بيانات أصلية مستمدة من التحليل الوظيفي. على سبيل المثال، تُعد قاعدة بيانات (GenBank EST) وقاعدة بيانات (Microarray) الجينية في المعهد الأوروبي للمعلوماتية الحيوية (EBI) بعضًا من قواعد بيانات التعبير الجيني المتاحة.

الترابط بين قواعد البيانات البيولوجية

إن قواعد البيانات الأولية هي مستودعات مركزية وموزعون لمعلومات التسلسل الخام ومعلومات الهيكل، ويدعمون جميع أنواع قواعد البيانات البيولوجية تقريبًا بطريقة تشبه وكالة أسوشيتد برس التي تقدم موجزًا إخباريًا لوسائل الإعلام المحلية، والتي تقوم بعد ذلك بتخصيص الأخبار لتناسب احتياجاتهم الخاصة. لذلك، في المجتمع البيولوجي، هناك حاجة متكررة لقواعد البيانات الثانوية والمتخصصة للاتصال بقواعد البيانات الأولية والحفاظ على تحميل معلومات التسلسل. بالإضافة إلى ذلك، يحتاج المستخدم غالبًا إلى الحصول على معلومات من قواعد البيانات الأساسية والثانوية لإكمال المهمة لأن المعلومات في قاعدة بيانات واحدة غالبًا ما تكون غير كافية. بدلا من السماح للمستخدمين بزيارة العديد من قواعد البيانات، من المناسب أن يتم إسناد المراجع في قاعدة البيانات وربطها بالإدخالات ذات الصلة في قواعد البيانات الأخرى التي تحتوي على معلومات إضافية أو فيما يُسمى مستودعات البيانات.

كل هذا يخلق الطلب على ربط قواعد البيانات المختلفة.

عوائق الربط

العائق الرئيسي لربط قواعد البيانات البيولوجية المختلفة هو عدم التوافق في تنسيق قواعد البيانات البيولوجية الحالية التي تستخدم جميع أنواع هياكل قواعد البيانات الثلاثة (نظم الملفات، النظم العلائقية، النظم الموجهة نحو الكائنات). تُقيّد هياكل قواعد البيانات غير المتجانسة الاتصال بين قواعد البيانات. أحد حلول الربط الشبكي لقواعد البيانات هو استخدام لغة مواصفات تسمى كوبرا أو (Common Object Request Broker Architecture COBRA)، والتي تسمح لبرامج قواعد البيانات في مواقع مختلفة بالاتصال في أحد شبكات الكمبيوتر من خلال “وسيط الواجهة” دون الحاجة إلى فهم بنية قاعدة بيانات بعضها البعض. يعمل بطريقة مشابهة للغة ترميز النصوص التشعيبية أو بالرموز (HTML) لصفحات الويب، ويُصنف إدخالات قاعدة البيانات باستخدام مجموعة من العلامات الشائعة.

يساعد بروتوكول مشابه يسمى لغة ترميز (eXtensible XML) في ربط قواعد البيانات. في هذا التنسيق، يتم تقسيم كل سجل بيولوجي إلى مكونات أساسية صغيرة يتم تصنيفها باستخدام تداخل هرمي للعلامات. يحسّن هيكل قاعدة البيانات هذا بشكل كبير توزيع وتبادل التعليقات التوضيحية المعقدة بين قواعد البيانات. في الآونة الأخيرة، تم تطوير بروتوكول متخصص لتبادل البيانات المعلوماتية الحيوية. إنه نظام التعليق التوضيحي الموزع، والذي يسمح لجهاز كمبيوتر واحد بالاتصال بخوادم متعددة واسترداد معلومات التعليقات التوضيحية المتسلسلة المشتتة المتعلقة بتسلسل معين ودمج النتائج في تقرير واحد مجمع.

مشكلات قواعد البيانات البيولوجية

إحدى المشاكل المرتبطة بقواعد البيانات البيولوجية هي الاعتماد المُفرط على معلومات التسلسل والشروح ذات الصلة، دون فهم موثوقية المعلومات.

ما يتم تجاهله غالبًا هو حقيقة وجود العديد من الأخطاء في قواعد بيانات التسلسل.

هناك أيضًا مستويات عالية من التكرار في قواعد بيانات التسلسل الأساسي، وهو ما يتعارض مع أهم مبادئ تصميم نظم قواعد البيانات في ضمان عدم تكرار البيانات.

يمكن أيضًا أن تكون التعليقات التوضيحية للجينات خاطئة أو غير كاملة.

وبطبيعة الحال يمكن نقل جميع هذه الأنواع من الأخطاء إلى قواعد بيانات أخرى، مما يتسبب في انتشار الأخطاء.

تحدث معظم الأخطاء في تسلسلات النوكليوتيدات بسبب أخطاء التسلسل. تتسبب بعض هذه الأخطاء في حدوث تغيرات في الإطارات تجعل التعرف على الجينات بالكامل أمرًا صعبًا أو من المستحيل ترجمة البروتين. في بعض الأحيان، تكون سلاسل الجينات ملوثة بسلسلة من ناقلات الاستنساخ. بشكل عام، الأخطاء أكثر شيوعًا في التسلسلات التي تم إنتاجها قبل التسعينات. تم تحسين جودة التسلسل بشكل كبير منذ ذلك الحين. لذلك، يجب توخي الحذر عند التعامل مع تسلسلات مؤرخة أكثر.

التكرار مشكلة رئيسية أخرى تؤثر على قواعد البيانات الأولية. هناك ازدواجية هائلة في المعلومات في قواعد البيانات، لأسباب مختلفة.

تشمل أسباب التكرار:

التقديم المتكرر للتسلسلات المتطابقة أو المتداخلة من قبل المؤلفين أنفسهم أو المختلفين
مراجعة التعليقات التوضيحية
إغراق بيانات علامات التسلسل المعبر عنها
سوء إدارة قاعدة البيانات التي تفشل في الكشف عن التكرار (مثلا باستخدام أدوات تنظيف البيانات).

كل هذا يجعل بعض قواعد البيانات الأساسية كبيرة للغاية وغير عملية لاسترجاع المعلومات.

حلول المشكلات

تم اتخاذ خطوات للحد من التكرار. أنشأ المركز الوطني لمعلومات التكنولوجيا الحيوية أو (NCBI) الآن قاعدة بيانات خالية من التكرار تسمى (RefSeq)، يتم فيها دمج تسلسلات متطابقة من نفس الكائن وأجزاء التسلسل المرتبطة به في إدخال واحد. ترتبط تسلسلات البروتينات المشتقة من نفس تسلسلات الحمض النووي بشكل واضح كإدخالات ذات صلة. يتم التعامل مع متغيرات التسلسل من نفس الكائن مع اختلافات طفيفة للغاية، والتي قد تكون ناجمة عن أخطاء التسلسل، على أنها إدخالات ذات صلة مميزة. يمكن اعتبار قاعدة البيانات المنسقة بعناية قاعدة بيانات ثانوية. إن قاعدة بيانات (SWISS-PROT) لديها أيضًا الحد الأدنى من التكرار لتسلسل البروتين مقارنة بمعظم قواعد البيانات الأخرى. وهناك طريقة أخرى لمعالجة مشكلة التكرار وهي إنشاء قواعد بيانات العنقودية المتسلسلة مثل (UniGene) التي تدمج متواليات (EST) المشتقة من نفس الجين.

المشكلة الشائعة الأخرى هي التعليقات التوضيحية الخاطئة.

في كثير من الأحيان، يتم العثور على نفس تسلسل الجين تحت أسماء مختلفة مما يؤدي إلى إدخالات متعددة وإثارة الارتباك حول البيانات.

أو على العكس، فقد تم العثور على جينات غير ذات صلة تحمل نفس الاسم في قواعد البيانات.

للتخفيف من مشكلة تسمية الجينات، من الضروري إعادة تنظيم الجينات والبروتينات باستخدام مجموعة من المفردات الشائعة والمضبوطة لوصف الجين أو البروتين.

الهدف هو توفير نظام تسمية ثابت ولا لبس فيه لجميع الجينات والبروتينات.

ومن الأمثلة البارزة على هذه الأنظمة علم الوجود الجيني (Gene Ontology).

أخطاء الباحثين في قواعد البيانات البيولوجية

يمكن أن يكون سبب عدم التناسق في التعليق التوضيحي هو الخلاف العلمي بين الباحثين في هذا المجال؛ وقد ينتج البعض الآخر من التخصيص غير الحكيم لوظائف البروتين عن طريق مقدمات التسلسل. هناك أيضًا بعض الأخطاء التي تنتج ببساطة عن السهو أو الأخطاء في الكتابة. يمكن أن تكون الأخطاء في التعليق التوضيحي ضارة بشكل خاص لأن الغالبية العظمى من التسلسلات الجديدة يتم تعيين وظائف لها على أساس التشابه مع التسلسلات في قواعد البيانات التي تم التعليق عليها بالفعل. لذلك، يمكن بسهولة نقل تعليق توضيحي خاطئ إلى جميع الجينات المماثلة في قاعدة البيانات بأكملها.

من الممكن تصحيح بعض هذه الأخطاء على مستوى المعلوماتية من خلال دراسة مجالات البروتين والأسر. ومع ذلك، يجب تصحيح الأخطاء الأخرى في نهاية المطاف باستخدام التجارب العلمية أو البحوث التجريبية.

استرجاع المعلومات من قواعد البيانات البيولوجية

إن الهدف الرئيسي في تطوير قواعد البيانات البيولوجية هو توفير وصول فعّال وسهل الاستخدام إلى البيانات المخزنة.

هناك عدد من أنظمة استرجاع البيانات البيولوجية. أكثر أنظمة الاسترجاع شيوعًا لقواعد البيانات البيولوجية هي نظام (Entrez وSequence Retrieval Systems SRS) التي توفر الوصول إلى قواعد بيانات متعددة لاسترداد نتائج البحث المتكاملة.

لإجراء استعلامات معقدة في قاعدة بيانات، غالبًا ما يتطلب استخدام عوامل تشغيل منطقية. هذا من أجل ربط سلسلة من الكلمات الرئيسية باستخدام مصطلحات منطقية مثل:

وتُستخدم هذه الرموز المنطقية للإشارة إلى العلاقات بين الكلمات الرئيسية المستخدمة في البحث، بحيث:

AND : تعني أن نتيجة البحث يجب أن تحتوي على الكلمتين معًا.
OR : تعني البحث عن نتائج تحتوي على إحدى الكلمتين أو كليهما.
NOT : تستبعد النتائج التي تحتوي على أي من الكلمات المذكورة بعدها.

بالإضافة إلى ذلك، يمكن للمرء استخدام الأقواس () لتعريف مفهوم ما إذا كانت هناك كلمات وعلاقات متعددة، بحيث يعرف الكمبيوتر أي جزء من البحث يتم تنفيذه أولا، تمامًا مثلما نستخدم هذه الأقواس في العمليات الحسابية لفرض ترتيب معين في إجراء تلك الحسابات، بحيث يتم تنفيذ العناصر الواردة بين قوسين أولا.

كما يمكن استخدام الاقتباسات ” ” لتحديد عبارة معينة بالضبط.

في الواقع، تستخدم معظم محركات بحث قواعد البيانات البيولوجية العامة شكلا من هذا الأسلوب المنطقي.

ملخص النقاط الأساسية

قواعد البيانات أساسية للبحث البيولوجي الحديث، وخاصة للدراسات الجينومية.

الهدف من قاعدة البيانات البيولوجية هو هدف ذو شقين:

استرجاع المعلومات
استكشاف المعرفة

يمكن إنشاء قواعد البيانات الإلكترونية إما كملفات مسطحة أو علائقية أو كائنية التوجه.

الملفات المسطحة هي ملفات نصية بسيطة وتفتقر إلى أي شكل من أشكال التنظيم لتسهيل استرجاع المعلومات بواسطة أجهزة الكمبيوتر.

تُنظم قواعد البيانات العلائقية البيانات كجداول ومعلومات مع إمكانية الربط والبحث بين الجداول ذات الميزات المشتركة.

تُنظم قواعد البيانات الكائنية البيانات ككائنات وتربط الكائنات وفقًا للعلاقات الهرمية.

تشمل قواعد البيانات البيولوجية أو الحيوية جميع الأنواع الثلاثة.

تنقسم قواعد البيانات البيولوجية، بناءً على محتواها، إلى قواعد بيانات:

أولية
ثانوية
متخصصة

قواعد البيانات الأساسية ببساطة أرشفة معلومات التسلسل أو الهيكل.

تتضمن قواعد البيانات الثانوية مزيدًا من التحليل حول التسلسلات أو الهياكل.

قواعد البيانات المتخصصة تلبي اهتمامات بحثية معينة.

يجب أن تكون قواعد البيانات البيولوجية مترابطة بحيث يمكن ربط الإدخالات في قاعدة بيانات واحدة بالإدخالات ذات الصلة في قاعدة بيانات أخرى.

يتضمن استرجاع المعلومات الفعّال استخدام عوامل التشغيل المنطقية.

يحتوي (Entrez) على ميزات إضافية سهلة الاستخدام للمساعدة في إجراء عمليات بحث معقدة.

إن بيانات التسلسل في قواعد البيانات هذه أقل من الكمال، هناك أخطاء تسلسل وشروح.

تعاني قواعد البيانات البيولوجية أيضًا من مشاكل التكرار.

هناك العديد من الحلول لتصحيح التعليق التوضيحي وتقليل التكرار، على سبيل المثال:

دمج تسلسلات مكررة في إدخال واحد أو
تخزين تسلسلات زائدة عن الحاجة في قاعدة بيانات منفصلة.

المصادر

Essential Bioinformatics, JIN XIONG, Texas A&M University. Cambridge University Press, 2006. أساسيات المعلوماتية الحيوية، ترجمة وتعريب وإعداد، د. م. مصطفى عبيد.