في المعلوماتية الحيوية، جليمير (بالإنجليزية: GLIMMER)‏ هو محدد للجينات ومحرف ماركوف يستخدم ل البحث عن الجينات في خلايا بدائية النواة الحمض النووي.[1] «إنه فعال في العثور على الجينات في البكتيريا، آرتشيا، الفيروسات، عادة ما تجد 98-99% من جميع طويلة نسبيا جينات ترميز البروتين».[1] كان جليمير النظام الأول الذي استخدم محرف نموذج ماركوف[2] لتحديد مناطق الترميز. برنامج جليمير مفتوح المصدر ويحتفظ بها ستيفن سالزبيرغ، ديلشر الفن، وزملائهم في مركز البيولوجيا الحاسوبية[3] في جامعة جونز هوبكنز. وقد تم تصميم خوارزميات جليميرالأصلي والبرمجيات من قبل الفن ديلشر، سيمون كاسيف وستيفن سالزبرغ وتطبيقها على الشرح الجينوم البكتيرية بالتعاون مع أوين وايت.

إصدارات عدل

GLIMMER 1.0.0 تحديث عدل

النسخة الأولى من جليمير «أي جليمير 1.0» صدر في عام 1998 ونشرت في ورقة تحديد الجينات الميكروبية باستخدام نموذج ماركوف المحرف.[1] تم استخدام نماذج ماركوف لتحديد الجينات الميكروبية في جليمير 1.0. يعتبر جليمير تبعيات تسلسل التكوين المحلي مما يجعل جليمير أكثر مرونة وأكثر قوة بالمقارنة مع ترتيب ثابت نموذج ماركوف.

كانت هناك مقارنة بين محرف ماركوف نموذج المستخدمة من قبل جليمير والنظام الخامس ماركوف نموذج في ورقة تحديد الجينات الميكروبية باستخدام نماذج ماركوف المحرفة.[4] «وجدت خوارزمية جليمير 1680 الجينات من أصل 1717 الجينات المشروح في المستدمية النزلية حيث الترتيب الخامس نموذج ماركوف وجدت 1574 الجينات. العثور على جليمير 209 الجينات الإضافية التي لم تكن مدرجة في 1717 الجينات المشروح حيث الترتيب الخامس نموذج ماركوف وجدت 104 الجينات.»'[1]

بريق 2.0 عدل

النسخة الثانية من جليمير أي جليمير 2.0 صدر في عام 1999 ونشرت في ورقة تحسين تحديد الميكروبات مع جليمير.[5] هذه الورقة[5] يوفر تحسينات تقنية كبيرة مثل استخدام نموذج السياق محرف بدلا من نموذج ماركوف محرف وحل الجينات المتداخلة مما يحسن من دقة جليمير.

محرف يتم استخدام نماذج السياق بدلا من محرف نموذج ماركوف الذي يعطي المرونة لتحديد أي قاعدة. في نموذج ماركوف المحرف يتم تحديد التوزيع الاحتمالي للقاعدة من القواعد السابقة المباشرة. إذا كانت القاعدة السابقة المباشرة غير ذات صلة الأحماض الأمينية الترجمة، لا يزال نموذج ماركوف المحرف يعتبر القاعدة السابقة لتحديد احتمال وجود قاعدة معينة حيث يمكن لنموذج السياق المحرف الذي تم استخدامه في جليمير 2.0 تجاهل القواعد غير ذات الصلة. تم زيادة التوقعات الإيجابية الكاذبة في جليمير 2.0 لتقليل عدد التنبؤات السلبية الكاذبة. يتم حل الجينات المتراكبة أيضا في جليمير 2.0.

تم إجراء مقارنات مختلفة بين جليمير 1.0 وجليمير 2.0 في الورقة تحسين تحديد الميكروبات مع جليمير[6] مما يدل على تحسن في الإصدار الأحدث. «حساسية جليمير 1.0 يتراوح من 98.4 إلى 99.7 ٪ بمتوسط 99.1 ٪ حيث جليمير 2.0 لديه حساسية تتراوح من 98.6 إلى 99.8 ٪ بمتوسط 99.3٪. جليمير 2.0 فعال جدا في العثور على جينات عالية الكثافة. الطفيلي المثقبية البروسية، مسؤولة عن التسبب مرض النوم الأفريقي يتم تحديدها من قبل جليمير 2.0» [5]

جليمير 3.0 عدل

النسخة الثالثة من جليمير، «جليمير 3.0» صدر في عام 2007 ونشرت في ورقة تحديد الجينات البكتيرية والحمض النووي التعايش الداخلي مع جليمير.[7] تصف هذه الورقة العديد من التغييرات الرئيسية التي تم إجراؤها على نظام جليمير بما في ذلك طرق محسنة لتحديد مناطق الترميز والبدء كودون. ويتم التهديف من أورف في جليمير 3.0 في ترتيب عكسي أي بدءا من وقف كودون ويتحرك مرة أخرى نحو كودون البداية. يساعد المسح العكسي في تحديد جزء الترميز من الجين بشكل أكثر دقة والذي يرد في نافذة سياق إم. جليمير 3.0 يحسن أيضا بيانات مجموعة التدريب ولدت من خلال مقارنة أورف طويلة مع توزيع الأحماض الأمينية العالمية من الجينوم البكتيرية المتباينة على نطاق واسع. «غليمر 3.0 لديه متوسط إنتاج أورف طويلة من 57 ٪ للكائنات الحية المختلفة حيث كما غليمر 2.0 لديه متوسط إنتاج أورف طويلة من 39٪.»[7]

جليمير 3.0 يقلل من معدل التوقعات الإيجابية الكاذبة التي زادت في جليمير 2.0 للحد من عدد من التوقعات السلبية الكاذبة. «جليمير 3.0 لديه دقة التنبؤ موقع البداية من 99.5 ٪ ل3'5' مباريات حيث جليمير 2.0 لديها 99.1 ٪ ل3'5' مباريات. جليمير 3.0 يستخدم خوارزمية جديدة لمسح المناطق الترميز، وحدة الكشف عن موقع البداية الجديدة، والهندسة المعمارية التي تدمج جميع التنبؤات الجينية عبر الجينوم بأكمله.»[8]

الحد الأدنى لطول الوصف

الأساس النظري والبيولوجي عدل

ساعد مشروع جليمير إدخال وتعميم استخدام نماذج متغيرة الطول في علم الأحياء الحسابي والمعلوماتية الحيوية التي تم تطبيقها في وقت لاحق إلى العديد من المشاكل مثل تصنيف البروتين وغيرها. كانت النمذجة ذات الطول المتغير رائدة في الأصل من قبل منظري المعلومات ثم تم تطبيقها بشكل مبدع ونشرها في ضغط البيانات (على سبيل المثال. ضغط زيف ليمبل). يرتبط التنبؤ والضغط ارتباطا وثيقا باستخدام الحد الأدنى لطول الوصف المبادئ. الفكرة الأساسية هي إنشاء قاموس للكلمات المتكررة (الزخارف في التسلسلات البيولوجية). الحدس هو أن الزخارف التي تحدث بشكل متكرر من المرجح أن تكون أكثر تنبؤا وغنية بالمعلومات. في جليمير النموذج المحرف هو نموذج خليط من احتمالات هذه الزخارف الشائعة نسبيا. وعلى غرار تطوير همس في علم الأحياء الحسابي، تأثر مؤلفو غليمر من الناحية المفاهيمية بالتطبيق السابق لمتغير آخر من نماذج ماركوف المحرفة للتعرف على الكلام من قبل باحثين مثل فريد جيلينك (آي بي إم) وإريك ريستاد (برينستون). خوارزمية التعلم في جليمير يختلف عن هذه الأساليب السابقة.

التمكن من عدل

جليمير يمكن تحميلها من الصفحة الرئيسية جليمير (يتطلب ج C مترجم). بدلا من ذلك، يتم استضافة نسخة عبر الإنترنت بواسطة نسبي [1].

آلية العمل عدل

  1. جليمير يبحث في المقام الأول لفترة طويلة-أورفس. قد يتداخل إطار القراءة المفتوح مع أي إطار قراءة مفتوح آخر سيتم حله باستخدام التقنية الموضحة في القسم الفرعي. باستخدام هذه أورفس طويلة وبعد بعض الأحماض الأمينية توزيع جليمير يولد مجموعة التدريب البيانات.
  2. باستخدام بيانات التدريب هذه، يقوم جليمير بتدريب جميع نماذج ماركوف الستة لترميز الحمض النووي من صفر إلى ثمانية ترتيب وأيضا تدريب النموذج على الحمض النووي غير المشفر
  3. يحاول جليمير لحساب الاحتمالات من البيانات. استنادا إلى عدد من الملاحظات، يحدد جليمير ما إذا كان استخدام أمر ثابت نموذج ماركوف أو محرف نموذج ماركوف.
    1. إذا كان عدد من الملاحظات أكبر من 400, يستخدم جليمير ترتيب ثابت نموذج ماركوف للحصول على هناك احتمالات.
    2. إذا كان عدد الملاحظات أقل من 400، يستخدم جليمير محرف نموذج ماركوف الذي أوضح لفترة وجيزة في القسم الفرعي التالي.
  4. غليمر يحصل على درجة لكل أورف طويلة ولدت باستخدام جميع نماذج الحمض النووي الترميز ستة وأيضا باستخدام نموذج الحمض النووي غير الترميز.
  5. إذا كانت النتيجة التي تم الحصول عليها في الخطوة السابقة أكبر من عتبة معينة ثم جليمير يتوقع أن يكون الجين.

نظام جليمير عدل

يتكون نظام جليمير من برنامجين. البرنامج الأول يسمى بناء-إم، الذي يأخذ مجموعة مدخلات من متواليات ومخرجات محرف نموذج ماركوف على النحو التالي.

احتمال لكل قاعدة أي، أ، ج، ز، ر للجميع كيه-ميرس إلى عن على 0 k ك computed 8 يتم حسابها. ثم، لكل ك-مير، جليمير يحسب الوزن. يتم حساب احتمال التسلسل الجديد على النحو التالي.

 

أين ن هو طول المتسلسلة   هل أوليغومر في الموضع س.   ، ال   - يتم حساب درجة نموذج ماركوف المقحمة بالترتيب كـ

 

"أين   هو وزن k-mer في الموضع x-1 في التسلسل S و   هو التقدير الذي تم الحصول عليه من بيانات التدريب لاحتمالية القاعدة الموجودة في الموضع x في   نموذج الطلب. " [4] احتمالية القاعدة   بالنظر إلى الأسس السابقة يتم حسابها على النحو التالي.

 

"قيمة   يرتبط مع   يمكن اعتباره مقياسا للثقة في دقة هذه القيمة كتقدير للاحتمال الحقيقي. يستخدم جليمير معيارين لتحديد  . أولها هو حدوث تردد بسيط يكون فيه عدد مرات حدوث سلسلة السياق   في بيانات التدريب يتجاوز قيمة عتبة محددة، ثم   تم تعيين إلى 1.0. القيمة الافتراضية الحالية للعتبة هي 400، مما يعطي ثقة 95٪. عندما تكون هناك حالات عينة غير كافية لسلسلة السياق، بناء-إم توظيف معايير إضافية لتحديد   القيمة. لسلسلة سياق معينة   من طول أنا، بناء-إم مقارنة الترددات المرصودة للقاعدة التالية  ,  ,  ,   مع المحسوبة سابقا محرف احتمالات نموذج ماركوف باستخدام السياق الأقصر التالي،  ,  ,  ,  . باستخدام أ   اختبار، بناء-إم تحديد مدى احتمال أن تكون الترددات الأربعة المرصودة متسقة مع قيم إم من السياق الأقصر التالي."[4]

البرنامج الثاني يسمى جليمير، ثم يستخدم هذا إم لتحديد الجينات المفترضة في الجينوم بأكمله. جليمير يحدد كل فتح إطار القراءة الذي يسجل أعلى من العتبة والتحقق من تداخل الجينات. يتم شرح حل الجينات المتداخلة في القسم الفرعي التالي.

المعادلات وشرح المصطلحات المستخدمة أعلاه مأخوذة من ورقة تعريف الجين الميكروبي باستخدام نماذج ماركوف المقحمة [4]

حل الجينات المتداخلة عدل

في جليمير 1.0، عندما يتداخل جينان أ وب، يتم تسجيل منطقة التداخل. إذا كان أطول من ب، وإذا كان أعلى الدرجات في منطقة التداخل، وإذا كان نقل موقع بدء ب لن يحل التداخل، فسيتم رفض ب.

جليمير 2.0 قدمت حلا أفضل لحل التداخل. في جليمير 2.0، عندما يتداخل جينان محتملان أ وب، يتم تسجيل منطقة التداخل. لنفترض أن الجين أ يسجل أعلى، يتم النظر في أربعة اتجاهات مختلفة.

 
حالة 1

في الحالة المذكورة أعلاه، لا يؤدي نقل مواقع البداية إلى إزالة التداخل. إذا كان A أطول بكثير من B ، فسيتم رفض B أو يطلق على كل من A و B جينات، مع وجود تداخل مشكوك فيه.

 
الحالة 2

في الحالة المذكورة أعلاه، يمكن أن يؤدي تحريك B إلى حل التداخل، ويمكن تسمية A و B بالجينات غير المتداخلة ولكن إذا كانت B أقصر بكثير من A ، فسيتم رفض B.

 
الحالة 3

في الحالة المذكورة أعلاه، يمكن أن يؤدي تحريك A إلى حل التداخل. يتم نقل A فقط إذا كان التداخل هو جزء صغير من A أو تم رفض B.

 
الحالة 4

في الحالة المذكورة أعلاه، يمكن نقل كل من A و B. نقوم أولاً بنقل بداية B حتى تسجل منطقة التداخل أعلى لـ B. ثم ننقل بداية A حتى تسجل درجات أعلى. ثم B مرة أخرى، وهكذا، حتى يتم التخلص من التداخل أو عدم إمكانية إجراء تحركات أخرى.

وقد تم أخذ المثال أعلاه من ورقة 'تحديد الجينات البكتيرية والحمض النووي إندوسيمبيونت مع جليمير'[6]

مواقع ربط الريبوسوم عدل

موقع ربط الريبوسوم (ربس) إشارة يمكن استخدامها للعثور على موقف موقع البداية الحقيقي. يتم تمرير النتائج جليمير كمدخل لبرنامج ربسفيندر للتنبؤ مواقع ربط الريبوسوم. جليمير 3.0 يدمج برنامج ربسفايندر في الجينات التنبؤ وظيفة نفسها.

برنامج إلف (الذي تم تحديده على أنه فعال للغاية في تحديد بنك الاحتياطي الفيدرالي في الورقة[6]) يستخدم لتحديد ربس ومتاح في هذا الموقع الإلكتروني. جيبس أخذ العينات يتم استخدام الخوارزمية لتحديد المشتركة عزر في أي مجموعة من التسلسلات. هذا مشترك عزر وتعطى متواليات وطولها كمدخل لالف. إلف ثم يحسب مصفوفة الوزن الموقف (بوم) التي سيتم استخدامها من قبل غليمر 3 ليسجل أي ربس المحتملة وجدت من قبل ربسفيندر. تتم العملية المذكورة أعلاه عندما يكون لدينا قدر كبير من جينات التدريب. إذا كان هناك عدد غير كاف من الجينات التدريب، جليمير 3 يمكن ألبس الحذاء نفسه لتوليد مجموعة من التنبؤات الجينية التي يمكن استخدامها كمدخل لالف. إلف يحسب الآن بوم وهذا بوم يمكن استخدامها مرة أخرى على نفس مجموعة من الجينات للحصول على نتائج أكثر دقة لمواقع البداية. يمكن تكرار هذه العملية للعديد من التكرارات للحصول على نتائج أكثر اتساقا للتنبؤ بالجينات والتنبؤ بالجينات.

أداء عدل

جليمير يدعم جهود الشرح الجينوم على مجموعة واسعة من البكتيريا، عتيق الطراز، والأنواع الفيروسية. في جهد إعادة التعميم على نطاق واسع في بنك بيانات الحمض النووي في اليابان (ددب، الذي يعكس بنك الجينات). كوسوج وآخرون. (2006)[9] فحص طرق العثور على الجينات المستخدمة ل 183 الجينوم. وأفادوا أنه من بين هذه المشاريع، كان جليمر هو الباحث عن الجينات بنسبة 49 ٪، يليه جينيمارك مع 12 ٪، مع خوارزميات أخرى تستخدم في 3 ٪ أو أقل من المشاريع. (أفادوا أيضا أن 33 ٪ من الجينوم يستخدم برامج «أخرى»، مما يعني في كثير من الحالات أنه لا يمكنهم تحديد الطريقة. باستثناء تلك الحالات، تم استخدام جليمير لـ 73 ٪ من الجينومات التي يمكن تحديد الطرق لها بشكل لا لبس فيه.) تم استخدام جليمير من قبل ددب لإعادة شرح جميع الجينوم البكتيرية في قواعد بيانات تسلسل النوكليوتيدات الدولية.[10] كما يتم استخدامة من قبل هذه المجموعة لتعليم الفيروسات.[11] جليمير هو جزء من خط أنابيب الشرح البكتيري في المركز الوطني لمعلومات التكنولوجيا الحيوية (نسبي),[12] الذي يحافظ أيضا على خادم الويب لجليمير،[13] كما تفعل المواقع في ألمانيا،[14] كندا.[15]

وفقا لجوجل الباحث، اعتبارا من أوائل عام 2011 المادة جليمير الأصلية (سالزبرغ وآخرون., 1998)[4] وقد استشهد 581 مرات، وجليمير 2.0 مقالة-سلعة (ديلشر وآخرون., 1999)[8] تم الاستشهاد به 950 مرة.

مراجع عدل

  1. ^ أ ب ت ث Salzberg، S. L.؛ Delcher، A. L.؛ Kasif، S.؛ White، O. (1998). "Microbial gene identification using interpolated Markov models". Nucleic Acids Research. ج. 26 ع. 2: 544–548. DOI:10.1093/nar/26.2.544. PMC:147303. PMID:9421513.
  2. ^ Salzberg، S. L.؛ Pertea، M.؛ Delcher، A. L.؛ Gardner، M. J.؛ Tettelin، H. (1999). "Interpolated Markov Models for Eukaryotic Gene Finding". Genomics. ج. 59 ع. 1: 24–31. DOI:10.1006/geno.1999.5854. PMID:10395796.
  3. ^ "Center for Computational Biology". Johns Hopkins University. مؤرشف من الأصل في 2022-04-18. اطلع عليه بتاريخ 2013-03-23.
  4. ^ أ ب ت ث ج Salzberg، S. L.؛ Delcher، A. L.؛ Kasif، S.؛ White، O. (1998). "Microbial gene identification using interpolated Markov models". Nucleic Acids Research. ج. 26 ع. 2: 544–548. DOI:10.1093/nar/26.2.544. PMC:147303. PMID:9421513.
  5. ^ أ ب ت Delcher، A.؛ Harmon، D.؛ Kasif، S.؛ White، O.؛ Salzberg، S. (1999). "Improved microbial gene identification with GLIMMER". Nucleic Acids Research. ج. 27 ع. 23: 4636–4641. DOI:10.1093/nar/27.23.4636. PMC:148753. PMID:10556321.
  6. ^ أ ب ت Delcher، A.؛ Harmon، D.؛ Kasif، S.؛ White، O.؛ Salzberg، S. (1999). "Improved microbial gene identification with GLIMMER". Nucleic Acids Research. ج. 27 ع. 23: 4636–4641. DOI:10.1093/nar/27.23.4636. PMC:148753. PMID:10556321.
  7. ^ أ ب Delcher، A. L.؛ Bratke، K. A.؛ Powers، E. C.؛ Salzberg، S. L. (2007). "Identifying bacterial genes and endosymbiont DNA with Glimmer". Bioinformatics. ج. 23 ع. 6: 673–679. DOI:10.1093/bioinformatics/btm009. PMC:2387122. PMID:17237039.
  8. ^ أ ب Delcher، A. L.؛ Bratke، K. A.؛ Powers، E. C.؛ Salzberg، S. L. (2007). "Identifying bacterial genes and endosymbiont DNA with Glimmer". Bioinformatics. ج. 23 ع. 6: 673–679. DOI:10.1093/bioinformatics/btm009. PMC:2387122. PMID:17237039.
  9. ^ Kosuge، T.؛ Abe، T.؛ Okido، T.؛ Tanaka، N.؛ Hirahata، M.؛ Maruyama، Y.؛ Mashima، J.؛ Tomiki، A.؛ Kurokawa، M. (2006). "Exploration and Grading of Possible Genes from 183 Bacterial Strains by a Common Protocol to Identification of New Genes: Gene Trek in Prokaryote Space (GTPS)". DNA Research. ج. 13 ع. 6: 245–254. DOI:10.1093/dnares/dsl014. PMID:17166861.
  10. ^ Sugawara، H.؛ Abe، T.؛ Gojobori، T.؛ Tateno، Y. (2007). "DDBJ working on evaluation and classification of bacterial genes in INSDC". Nucleic Acids Research. ج. 35 ع. Database issue: D13–D15. DOI:10.1093/nar/gkl908. PMC:1669713. PMID:17108353.
  11. ^ Hirahata، M.؛ Abe، T.؛ Tanaka، N.؛ Kuwana، Y.؛ Shigemoto، Y.؛ Miyazaki، S.؛ Suzuki، Y.؛ Sugawara، H. (2007). "Genome Information Broker for Viruses (GIB-V): Database for comparative analysis of virus genomes". Nucleic Acids Research. ج. 35 ع. Database issue: D339–D342. DOI:10.1093/nar/gkl1004. PMC:1781101. PMID:17158166.
  12. ^ "NCBI Prokaryotic Genomes Automatic Annotation Pipeline (PGAAP)". Center for Bioinformatics and Computational Biology. مؤرشف من الأصل في 2022-01-21. اطلع عليه بتاريخ 2012-03-23.
  13. ^ "Microbial Genome Annotation Tools". Center for Bioinformatics and Computational Biology. مؤرشف من الأصل في 2022-05-19. اطلع عليه بتاريخ 2012-03-23.
  14. ^ "TiCo". Institut für Mikrobiologie und Genetik, Universität Göttingen. 11 فبراير 2005. مؤرشف من الأصل في 2022-03-31. اطلع عليه بتاريخ 2012-03-23.
  15. ^ "BASys Bacterial Annotation System". مؤرشف من الأصل في 2012-07-24. اطلع عليه بتاريخ 2012-03-23.

روابط خارجية عدل