معلومة

بيانات التدريب للتنبؤ ببنية البروتين الثانوية باستخدام الشبكة العصبية

بيانات التدريب للتنبؤ ببنية البروتين الثانوية باستخدام الشبكة العصبية


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أحاول العثور على بعض مجموعة بيانات التدريب للتنبؤ بالهيكل الثانوي للبروتين. أواجه مشاكل في العثور عليهم عبر الإنترنت.


مجموعة البيانات المعيارية القياسية هي تلك من Lindahl ، والتي تتكون من 976 × 975 زوجًا من البروتينات المستهدفة.

Lindahl، E. & Elofsson، A. التعرف على البروتينات ذات الصلة على مستوى الأسرة والأسرة الفائقة ومستوى الطيات. مجلة البيولوجيا الجزيئية 295 ، 613-625 (2000).

يتم استخدامه على سبيل المثال في المقالات التالية:

مورد آخر هو SCOP: التصنيف الهيكلي للبروتينات.

تمتلك جميع البروتينات تقريبًا أوجه تشابه بنيوية مع بروتينات أخرى ، وفي بعض هذه الحالات ، تشترك في أصل تطوري مشترك. تهدف قاعدة بيانات SCOP ، التي تم إنشاؤها عن طريق الفحص اليدوي وتحريضها بواسطة مجموعة من الأساليب الآلية ، إلى تقديم وصف مفصل وشامل للعلاقات الهيكلية والتطورية بين جميع البروتينات التي يُعرف هيكلها. على هذا النحو ، فإنه يوفر مسحًا واسعًا لجميع طيات البروتين المعروفة ، ومعلومات مفصلة حول الأقارب المقربين لأي بروتين معين ، وإطارًا للبحث والتصنيف في المستقبل.


بيانات التدريب للتنبؤ ببنية البروتين الثانوية باستخدام الشبكة العصبية - علم الأحياء

1 كلية العلوم ، جامعة النهرين ، بغداد ، العراق

2 كلية هندسة المعلومات ، جامعة النهرين ، بغداد ، العراق

حقوق الطبع والنشر ونسخ 2017 من قبل المؤلفين وشركة Scientific Research Publishing Inc.

هذا العمل مُرخص بموجب رخصة المشاع الإبداعي نَسب المُصنَّف (CC BY 4.0).

تم الاستلام: 7 تشرين الثاني (نوفمبر) 2016 تاريخ القبول: 26 كانون الأول (ديسمبر) 2016 تاريخ النشر: 29 كانون الأول (ديسمبر) 2016

يعتبر التنبؤ بالبنية الثانوية للبروتين (PSSP) أحد المهام الصعبة الرئيسية في المعلوماتية الحيوية ، لذلك تم اقتراح العديد من الحلول لحل هذه المشكلة من خلال محاولة تحقيق نتائج تنبؤ أكثر دقة. الهدف من هذه الورقة هو تطوير وتنفيذ نظام قائم على الذكاء للتنبؤ بالبنية الثانوية للبروتين من تسلسل الأحماض الأمينية الأولية باستخدام خمسة نماذج من الشبكة العصبية (NN). هذه النماذج هي شبكة التغذية العصبية الأمامية (FNN) ، وتكميم ناقلات التعلم (LVQ) ، والشبكة العصبية الاحتمالية (PNN) ، والشبكة العصبية التلافيفية (CNN) ، والضبط الدقيق لـ CNN لـ PSSP. لتقييم مناهجنا تم استخدام مجموعتي بيانات. الأول يحتوي على 114 عينة بروتين ، والثاني يحتوي على 1845 عينة بروتين.

تنبؤ البنية الثانوية للبروتين (PSSP) ، الشبكة العصبية (NN) ، α-Helix (H) ، β-Sheet (E) ، ملف (C) ، تغذية الشبكة العصبية الأمامية (FNN) ، تكميم ناقلات التعلم (LVQ) ، العصبية الاحتمالية الشبكة (PNN) ، الشبكة العصبية التلافيفية (CNN)

تتضمن المعلوماتية الحيوية التكنولوجيا التي تستخدم أجهزة الكمبيوتر لتخزين واسترجاع ومعالجة وتوزيع المعلومات المتعلقة بالجزيئات الكبيرة البيولوجية مثل DNA و RNA والبروتينات. يعد استخدام أجهزة الكمبيوتر أمرًا ضروريًا للغاية في استخراج الجينوم من أجل جمع المعلومات وبناء المعرفة [1].

يتم تصنيف طرق التنبؤ ببنية البروتين تحت المعلوماتية الحيوية وهو مجال واسع يجمع بين العديد من المجالات والتخصصات الأخرى مثل علم الأحياء والكيمياء الحيوية وتكنولوجيا المعلومات والإحصاء والرياضيات [2].

هناك أربعة أنواع مختلفة من البروتينات ، وهي البنية الأولية والثانوية والثالثية والرباعية. يحتوي الهيكل الأساسي على سلسلة من 20 نوعًا مختلفًا من الأحماض الأمينية. يوفر الأساس لجميع أنواع الهياكل الأخرى. يشير الهيكل الثانوي إلى ترتيب التوصيلات داخل مجموعات الأحماض الأمينية لتشكيل ثلاث فئات منظمة مختلفة (H و E و C) [3].

يوفر PSSP خطوة أولى مهمة نحو التنبؤ بالهيكل الثلاثي ، بالإضافة إلى تقديم معلومات حول نشاط البروتين والعلاقة والوظيفة. طي البروتين ، أو التنبؤ بالبنية الثالثة من التسلسل الخطي ، هي مشكلة غير محلولة ومنتشرة في كل مكان تستدعي البحث من العديد من مجالات الدراسة ، بما في ذلك علوم الكمبيوتر والبيولوجيا الجزيئية والكيمياء الحيوية وغيرها. يستخدم الهيكل الثانوي للبروتين أيضًا في مجموعة متنوعة من المجالات العلمية ، بما في ذلك شرح البروتين والجينات. لذلك ، يظل PSSP كمجال نشط للبحث وجزء لا يتجزأ من تحليل البروتين [4].

في هذا البحث ، اقترح المؤلفون خمسة نماذج من NN تم استخدامها ، بما في ذلك FNN و LVQ و PNN و CNN و CNN Fine tuning لـ PSSP. الهدف الرئيسي من هذا العمل هو تحسين دقة التنبؤ (Q3) بحيث تظهر نتائج التنفيذ أن النموذج المقترح (CNN Fine Tuning) يعمل بشكل أفضل من النماذج الأخرى ويبدو واعدًا للمشكلات ذات الخصائص المشابهة لتلك المشكلة (PSSP) من خلال تحقيق دقة التنبؤ مع Q3 = 90.31%.

في هذا القسم ، سنقدم وصفًا لمجموعة البيانات ومقاييس دقة التنبؤ.

تم الحصول على مجموعة البيانات الأولى من عمل matlab الرياضي [5] ومن الأطروحة [3] ، وهي تحتوي على 114 عينة بروتين مقسمة إلى مجموعة بيانات تدريبية تحتوي على 75 عينة بروتين ومجموعة بيانات اختبار تحتوي على 44 عينة بروتين. يحتوي على 28.3٪ α-helix (H) ، 21.3٪-sheet (E) و 50.4٪ coil (C). تتكون مجموعة البيانات الثانية من بروتينات من أربع فئات مختلفة. استخدمنا مجموعة البيانات هذه من معمل معلومات المعلوماتية الحيوية من جامعة ميسوري بالولايات المتحدة الأمريكية ، وهي تحتوي على 1854 بروتين. تُستخدم مجموعة البيانات الأولى لـ (FNN و LVQ و PNN) بينما تُستخدم المجموعة الثانية للضبط الدقيق لـ CNN و CNN.

2.2. مقاييس دقة التنبؤ

لقد استخدمنا طريقة قياس واحدة لتقييم دقة التنبؤ لنماذج NN المنفذة. يتم تعريف دقة الحالات الثلاث (Q 3) على أنها النسبة المئوية للمخلفات التي تم التنبؤ بها بشكل صحيح:

حيث N H و N E و N C هي عدد المخلفات المتوقعة بشكل صحيح من النوع H و E و C على التوالي و Nتي هو العدد الإجمالي للمخلفات في مجموعة البيانات. س 3: الإيجاز كمقياس مفيد لمقارنة طرق التنبؤ المختلفة [6].

في عملنا ، استخدمنا خمسة تراكيب مختلفة من الشبكات العصبية بما في ذلك (Feed Forward NN ، و Learning vector Quantization NN ، و Probabilistic NN). استخدمنا نافذة منزلقة بحجم 17 لكل هيكل من NN يتحرك خلال تسلسل البروتين ويتم تحقيق خرج الشبكة للبقايا في منتصف النافذة ، ونتيجة لذلك ، تشتمل طبقة الإدخال على 17 × 20 = 340 خلية عصبية وطبقة ناتجة تحتوي على 3 خلايا عصبية لكل بنية NN. أثناء التدريب ، يتلقى متجهات الإدخال جنبًا إلى جنب مع متجهات الإخراج المتوقعة. عند إجراء تنبؤات ، تقوم بإرجاع متجهات الإخراج التي تمثل احتمال وجود كل بقايا في (H أو E أو C). يوضح الشكل 1 هيكلًا عامًا لمصنف NN (فقط لـ FNN و PNN و LVQ) الذي يتلقى العديد من متجهات الإدخال ويعيد متجهات الإخراج المتوقعة ، ويقارنها بما يمكن أن يكون التصنيف الصحيح (الناتج المتوقع).

3.1. تغذية الشبكة العصبية إلى الأمام

الهيكل الأول لـ NN المستخدم هو (Feed Forward NN) ، باستخدام طبقة إدخال واحدة وطبقتين مخفيتين مع 10 خلايا عصبية لكل طبقة وطبقة إخراج واحدة كما هو موضح في الشكل 2 الذي يوضح بنية FNN المنفذة باستخدام Matlab Version (R2015a).

في FNN ، ترتبط وحدات المعالجة في كل طبقة مخفية تمامًا بالوحدات الموجودة في الطبقة السابقة ولكنها غير متصلة بوحدات في نفس الطبقة. يتم توصيل مخرجات الوحدة فقط بوحدات الطبقة التالية. لذلك لا توجد تغذية راجعة في النظام [7].


نموذج الشبكة العصبية القائم على تحسين السرب للتنبؤ بالهيكل الثانوي للبروتينات

تشكل البروتينات أساس جميع عمليات الحياة الرئيسية التي تحافظ على الحياة. وظيفة البروتين هي نتيجة مباشرة لبنيته الأساسية. وبالتالي ، فإن التنبؤ ببنية البروتين يعمل على التأكد من وظيفة البروتينات المتشابهة أو غير المتشابهة ، وفقًا لذلك. يمهد التنبؤ بالهيكل الثانوي الطريق للهياكل ثلاثية الأبعاد التي تقرر في النهاية خصائص البروتين. ويهدف أيضًا إلى تسهيل الهياكل المحتملة للبروتينات التي تظل هياكلها غير مكتشفة. على الرغم من أن الأساليب التجريبية كانت فعالة جدًا في استخلاص البنية الثانوية للبروتين من تسلسل الأحماض الأمينية ، إلا أنها غالبًا ما تكون مرهقة وتستغرق وقتًا طويلاً لتحقيق ذلك في المختبر. ومن ثم ، فإن الأساليب الحسابية مطلوبة للتنبؤ بالهياكل الثانوية للأحماض الأمينية المتنوعة التي تشكل هذه البروتينات. ومع ذلك ، فشلت النماذج الحسابية المتاحة في تسجيل دقة تنبؤ جيدة بسبب النمذجة غير الكافية لعلاقة بنية التسلسل. كما أن ندرة الأساليب العالمية القائمة على الاستكشاف تجعلها غير فعالة في تلبية البيانات البروتينية المتطورة. وفقًا لذلك ، تم استكشاف PSO (تحسين سرب الجسيمات) لاقتراح نموذج شبكة عصبية للتنبؤ بالبنية الثانوية للبروتين (PSSP). تم استخدام ستة مجموعات بيانات قياسية وهي PSS504 و RS126 و EVA6 و CB396 و Manesh و CB513 لتدريب واختبار الشبكة العصبية. يتم تقييم النموذج المقترح على أساس دقة Q3 ودقته واسترجاعه. أضعاف 10 و 20 و 30 و 40 عبر المصادقة بالاشتراك مع تحليل الحساسية وتم تنفيذه للتحقق من النتائج. تم العثور على أن النموذج المقترح يتفوق على معظم النماذج الحالية من خلال إظهار متوسط ​​دقة أفضل Q3 أعلى من 81٪ لـ PSSP.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


مقدمة

يتم تحديد البنية ثلاثية الأبعاد للبروتين إلى حد كبير من خلال تسلسل الأحماض الأمينية 1. ومع ذلك ، من الصعب للغاية التنبؤ ببنية البروتين من التسلسل وحده 2. نظرًا لأن بنية البروتين مهمة لتحليل وظيفتها والعديد من التطبيقات مثل تصميم الأدوية و / أو الإنزيم 3،4،5 ، فإن فهم علاقة بنية التسلسل المعقدة يعد أحد أكبر التحديات في علم الأحياء الحسابي 6،7،8. تعتمد بنية البروتين الدقيقة والتنبؤ الوظيفي ، جزئيًا ، على دقة التنبؤ بالهيكل الثانوي 9،10،11،12.

يشير التركيب الثانوي للبروتين (SS) إلى التشكل المحلي للعمود الفقري متعدد الببتيد للبروتينات. هناك نوعان من حالات SS العادية: alpha-helix (H) و beta-strand (E) ، على النحو الذي اقترحه Pauling 13 منذ أكثر من 60 عامًا ونوع SS غير منتظم: منطقة الملف (C). طور Sander 14 خوارزمية DSSP لتصنيف SS إلى 8 حالات دقيقة. على وجه الخصوص ، يقوم DSSP بتعيين 3 أنواع للحلزون (G لـ 310 الحلزون ، H لـ alpha-helix و I لـ pi-helix) ، نوعان للحبال (E لـ beta-strand و B لـ beta-bridge) و 3 أنواع للملف (T لـ beta-turn و S لحلقة انحناء عالية و L لعدم انتظام). بشكل عام ، يمكن اعتبار الهيكل الثانوي للبروتين بمثابة جسر يربط بين التسلسل الأولي والبنية الثالثة ، وبالتالي ، يتم استخدامه بواسطة العديد من أدوات التحليل الهيكلية والوظيفية 15،16،17،18.

تمت دراسة تنبؤ البروتين SS على نطاق واسع 10،11،12،19،20،21،22،23،24،25،26،27،28،29،30،31،32،33،34،35. تم تطوير العديد من الأساليب الحسابية للتنبؤ بكل من 3 حالات SS وعدد قليل للتنبؤ بـ 8 حالات SS. وفي الوقت نفسه ، قد يوفر توقع 8 حالات معلومات أكثر تفصيلاً عن الهيكل المحلي 33،34،36. قد يكون Holley & amp Karplus 19 و Qian & amp Sejnowski 20 أول من استخدم الشبكات العصبية (NN) للتنبؤ بـ SS ، والتي تبعها عدد قليل آخر 19،21،23،24،37. تم تحقيق أهم تحسن في تنبؤات SS بواسطة Rost & amp Sander 23 و Zvelebil وآخرون. 35 من خلال الاستفادة من ملف تعريف التسلسل المشتق من محاذاة التسلسل المتعدد 38،39،40. جونز وآخرون. طور 24 طريقة PSIPRED للشبكة العصبية ذات مرحلتين ، والتي تأخذ ملف تعريف تسلسل PSI-BLAST 41 كمدخلات وتحصل عليها

دقة 80٪ لتنبؤ 3 حالات SS. تتضمن طرق التعلم الآلي الأخرى الشبكات العصبية المتكررة ثنائية الاتجاه 26،34،37 (والتي يمكنها التقاط التبعية المكانية) ، والنماذج الرسومية الاحتمالية 25،29،42 ، وآلات ناقلات الدعم 27،28،30،43 ونماذج ماركوف المخفية 22،31.

مؤخرا جدا بالدي وآخرون. 34 طريقة قائمة على القوالب للتنبؤ بـ SS ، والتي يمكن أن تسفر عن دقة أفضل بكثير من خلال الاستفادة من الهياكل التي تم حلها كقوالب. ومع ذلك ، في حالة عدم توفر القوالب القريبة ، يكون أداء طريقة Baldi أسوأ قليلاً من PSIPRED. تشنغ وآخرون. اقترح 44 نهجًا تعليميًا عميقًا للتنبؤ بثلاث حالات SS باستخدام نموذج شبكة اعتقاد عميق نموذجي ، حيث تكون كل طبقة عبارة عن آلة Boltzmann المقيدة (RBM) 45 ويتم تدريبها عن طريق الاختلاف التباين 46 بطريقة غير خاضعة للإشراف. أبلغ Zhou & amp Troyanskaya 36 عن نهج آخر للتعلم العميق للتنبؤ بـ 8 حالات SS باستخدام شبكة عشوائية توليد خاضعة للإشراف ، والتي قد تكون أفضل توقع من 8 حالات حسب علمنا. ومع ذلك ، لم يبلغ كل من Cheng و Zhou عن دقة أفضل من 80٪ للتنبؤ بثلاث حالات.

عادةً ما يتم تقييم تنبؤات SS بواسطة دقة Q3 أو Q8 ، والتي تقيس النسبة المئوية للمخلفات التي يتم التنبؤ بشكل صحيح بهيكل ثانوي ثلاثي أو 8 حالات 44. حتى الآن أفضل دقة Q3 للتنبؤ ببدء التشغيل (على سبيل المثال ، القوالب غير مسموح بها)

80٪ حصل عليها PSIPRED وعدد قليل من الأساليب الحديثة الأخرى مثل JPRED 47،48. من الصعب للغاية تطوير طريقة يمكنها تحطيم هذا السجل طويل الأمد. قد يكون هذا بسبب أن البنى الضحلة نسبيًا للطرق الحالية لا يمكنها صياغة علاقة هيكل التسلسل المعقدة بشكل جيد. بدلاً من ذلك ، يمكن أيضًا قياس تنبؤ SS ثلاثي الحالات من خلال مقطع من نقاط التداخل (SOV) ، والتي يمكن تفسيرها على أنها دقة تستند إلى مقطع SS. يسمح SOV بالتنبؤات الخاطئة الصغيرة عند نهايات مقطع SS ، لكنه يعاقب أكثر على التنبؤات الخاطئة في المنطقة الوسطى من قطعة SS 49.

في هذه الورقة ، نقدم طريقة التعلم الآلي DeepCNF (الحقول العصبية التلافيفية العميقة) لكل من تنبؤات SS ذات 3 حالات و 8 حالات. يجمع DeepCNF بين مزايا كل من الحقول العصبية الشرطية (CNF) 50 والشبكات العصبية التلافيفية العميقة (DCNN) 51 ، والتي لا تلتقط فقط علاقة بنية التسلسل المعقدة ، ولكن أيضًا نماذج ارتباط تسمية SS بين المخلفات المجاورة. يشبه DeepCNF الحقول العشوائية الشرطية (CRF) 52 و CNF 33 في نمذجة الاعتماد المتبادل بين تسميات SS المجاورة. ومع ذلك ، يستخدم DeepCNF DCNN لاستبدال الشبكات العصبية الضحلة المستخدمة في CNF بحيث يمكنه التقاط علاقة معقدة للغاية بين ميزات الإدخال وتسميات الإخراج. يمكن أن يتضمن DCNN أيضًا معلومات تسلسل أطول مدى (انظر الشكلين 1 و 2).

شبكة عصبية عميقة نموذجية (أ) مقابل شبكة عصبية عميقة تلافيفية (ب). يمكن للشبكة العصبية العميقة التلافيفية التقاط معلومات تسلسل أطول مدى من الشبكة العصبية العميقة النموذجية عندما يستخدم كلاهما نفس حجم النافذة.


تعليق واحد

مهلا،
أنا أبحث حاليًا في العديد من تقنيات التعلم الآلي للتنبؤ ببنية البروتين. لقد قمت بترميز البرنامج في Python وأنا أقوم بتدريبه. لكن المشكلة هي أن بايثون بطيئة حقًا.

لدي 220 مدخلاً وحوالي 18000 عينة (اختبار وتدريب) .. إنه يزحف تحت هذا فقط ..

ومع ذلك ، بالنسبة لتقنيات ML الأخرى ، أخطط لاستخدام برامج جاهزة للاستخدام مثل Weka أو Yale .. خيار آخر هو استخدام مكتبة Orange لبايثون .. ولكن مرة أخرى ، فإن Python بطيئة للغاية.

مصدر إلهامي: حسنًا ، عندما راجعت على الإنترنت حول شبكات ANN المستخدمة حاليًا للتنبؤ ، كنت مفتونًا بتطبيقات العالم الحقيقي الخاصة بهم .. تساءلت عما إذا كانت هذه الصناديق السوداء يمكنها حقًا تعلم أي شيء عن بنية البروتين .. ومن ثم ، حاولت كتابة التعليمات البرمجية شبكة عصبية لنفسي ..


الملخص

لقد أبلغنا عن نهج جديد لاستخدام الدرجات الإحصائية المستندة إلى السياق كميزات مشفرة لتدريب الشبكات العصبية لتحقيق تحسين دقة التنبؤ بالهيكل الثانوي. الدرجات المستندة إلى السياق هي إمكانات زائفة مستمدة من تقييم التفاعلات الإحصائية عالية المستوى بين المخلفات ، والتي تقدر أفضلية البقايا التي تتبنى بعض التشكل الثانوي للهيكل داخل بيئة الأحماض الأمينية الخاصة بها. يوفر ترميز هذه النتائج المستندة إلى السياق كميزات مهمة للتدريب والتنبؤ طريقة لمعالجة صعوبة طويلة الأمد في تنبؤات البنية الثانوية القائمة على الشبكة العصبية لأخذ الاعتماد المتبادل بين الهياكل الثانوية للمخلفات المجاورة في الاعتبار. أظهرت نتائجنا الحسابية أن الدرجات المستندة إلى السياق هي ميزات فعالة لتعزيز دقة التنبؤ لتنبؤات البنية الثانوية. يتم تحقيق دقة Q3 شاملة تم التحقق من صحتها من خلال 7 أضعاف تبلغ 82.74٪ ودقة تداخل القطاعات (SOV) بنسبة 86.25٪ على مجموعة من أكثر من 7987 سلسلة بروتينية مع 25٪ على الأكثر من هوية التسلسل. تعد دقة التنبؤ Q3 على معايير CB513 و Manesh215 و Carugo338 بالإضافة إلى سلاسل البروتين CASP9 أعلى من خوادم تنبؤ البنية الثانوية الشائعة الاستخدام ، بما في ذلك Psipred و Profphd و Jpred و Porter (ab initio) و Netsurf. لوحظ تحسن أكثر أهمية في دقة SOV ، حيث لوحظ أكثر من 4٪ تحسين ، مقارنة بالخادم الذي يتميز بدقة SOV الأفضل. تم العثور أيضًا على دقة Q8 تبلغ 70٪ (71.5٪) في تنبؤات الهيكل الثانوي المكون من ثماني حالات. يتم المساهمة في غالبية تحسين دقة Q3 من تحديد أوراق β و α-helices بشكل صحيح. عندما يتم دمج الدرجات المستندة إلى السياق ، هناك 15.5٪ المزيد من المخلفات المتوقعة بثقة تصل إلى 90٪. عادة ما يكون لهذه التوقعات عالية الثقة دقة عالية إلى حد ما (بمتوسط ​​95٪). تتوفر خوادم التنبؤ بثلاث وثماني حالات (SCORPION) التي تطبق أساليبنا عبر الإنترنت.


الأساليب وقواعد البيانات

الخوارزمية

YASPIN هي طريقة التنبؤ بالهيكل الثانوي للشبكة العصبية المخفية (HNN). تستخدم YASPIN شبكة إدراك تلقيمية مع طبقة مخفية واحدة للتنبؤ بـ SSEs من التسلسل. بعد ذلك ، يتم تصفية هذه التوقعات باستخدام HMM.

تستخدم YASPIN NN وظيفة الانتقال softmax (Bishop ، 1995) مع نافذة من 15 وحدة بنائية. لكل بقايا في هذه النافذة ، يتم استخدام 20 وحدة للنتائج في PSSM ويتم استخدام وحدة واحدة لتحديد المكان الذي تمتد فيه النافذة إلى أطراف سلاسل البروتين. في المجموع ، تحتوي طبقة الإدخال على 315 وحدة (21 × 15). للطبقة المخفية نستخدم 15 وحدة. تتكون طبقة الإخراج من سبع وحدات ، تقابل سبع حالات بنية محلية: بداية الحلزون (Hb) ، اللولب (H) ، نهاية الحلزون (He) ، بداية الخيط (Eb) ، حبلا (E) ، نهاية حبلا (Ee) وملف ( ج). بدايات ونهايات عناصر اللولب والحبال التي نشير إليها هي مواضع بقايا مفردة.

ثم يتم تمرير ناتج NN المكون من 7 حالات عبر HMM ، والذي يستخدم خوارزمية Viterbi (Durbin ، 1998) لتقسيم تنبؤات الحالات السبع على النحو الأمثل. يحدد HMM احتمالات الانتقال بين حالات البنية المحلية السبع (الشكل 1). الناتج النهائي هو توقع هيكل ثانوي من 3 حالات ("H" للحلزون ، و "E" للحبلة و "-" للملف).

اختبار مجموعات البيانات والتدريب

تم تدريب واختبار YASPIN باستخدام قاعدة بيانات SCOP1.65 (Murzin وآخرون. ، 1995 هوبارد وآخرون. ، 1998). تم تصميم مجموعات الاختبار والتدريب باستخدام مجموعة PDB25 (25٪ حد أقصى لتعريف التسلسل) مجمعة معًا بواسطة ASTRAL (Brenner وآخرون، 2000). قبل استخدام مجموعة البيانات PDB25 ، أزلنا جميع إدخالات الغشاء (فئة SCOP f) مما أدى إلى مجموعة غير زائدة عن الحاجة من 4256 بروتينًا بهياكل معروفة. تم استخراج مجموعة الاختبار قبل التدريب عن طريق الاختيار العشوائي من مجموعة PDB25 الكاملة بمعدل 1: 8 تقريبًا. كانت التسلسلات 535 التي تم اختيارها لمجموعة الاختبار (1) متطابقة بنسبة 25 ٪ على الأكثر مع مجموعة التدريب نظرًا لطبيعة مجموعة البيانات PDB25 و (2) لم تكن جزءًا من نفس العائلة الفائقة مثل أي من المتواليات المتبقية من التدريب البالغ عددها 3721. مجموعة ، وفقًا لتعريفات SCOP للأسرة الفائقة.

بالإضافة إلى ذلك ، لإجراء مقارنة أكثر دقة بين جميع الطرق ، بما في ذلك YASPIN ، قمنا أيضًا بقياس جميع الطرق على مجموعة بيانات "Common_set 5" المستقلة (10-2002) من EVA (Koh وآخرون. ، 2003). تحقيقًا لهذه الغاية ، أزلنا أي تسلسلات موجودة في مجموعة تسلسل EVA5 من مجموعة تدريب YASPIN. احتوت مجموعة تدريب YASPIN النهائية على 3553 تسلسلًا بهياكل معروفة.

تدريب NN و HMM

لتدريب YASPIN NN ، استخدمنا خوارزمية الانتشار الخلفي عبر الإنترنت والتحقق من صحة 6 أضعاف (Bishop ، 1995). في تكرار تدريب واحد ، تم فصل كل مجموعة من المجموعات الفرعية الست على التوالي للاختبار ، بينما تم استخدام الخمس مجموعات المتبقية لتدريب الشبكة. في نهاية كل تكرار تدريب ، تم تسجيل متوسط ​​خطأ التنبؤ للشبكات عبر جميع مجموعات الاختبار الفرعية الستة وعندما بدأ متوسط ​​خطأ التنبؤ في الزيادة ، تم إيقاف التدريب. استخدمنا مصطلح الزخم 0.5 ومعدل التعلم 0.0001.

تم الحصول على حالات البنية الثانوية المرجعية المستخدمة لتدريب HMM باستخدام DSSP (Kabsch and Sander ، 1983). تم تجميع تمثيل DSSP للهيكل الثانوي المكون من 8 حالات (H ، G ، E ، B ، I ، S ، T ، -) وفقًا لمخطط 3 حالات الذي اقترحه Rost and Sander (1993) ، أي تم اعتبار H و G اللولب (H) و E و B مثل حبلا (E) وجميع الآخرين كملف (C). تم تحويل هذه التعريفات المكونة من 3 حالات لاحقًا إلى مخطط البنية المحلية المكون من 7 ولايات (الشكل 1). تم تقدير احتمالات انتقال HMM باستخدام مجموعة التدريب.

درجات الموثوقية

توفر خوارزمية التنبؤ YASPIN أربعة درجات ثقة مختلفة خاصة بالتنبؤ (درجات الموثوقية). يتم إنشاء هذه الدرجات بناءً على الاحتمالات التي تنبأت بها NN لكل بقايا في إحدى الحالات السبع المحددة. الدرجات الثلاثة الأولى عبارة عن درجات ثانوية خاصة بالهيكل ، وتمثل ثقة تنبؤ اللولب والحبال والملف ، ويتم إنشاؤها كمجموع الاحتمالات لكل نوع من أنواع البنية الثانوية ذات الصلة. على سبيل المثال ، دع البقايا X لديها احتمال أن تكون في أي من الحالات السبع. ستكون درجة الثقة الحلزونية هي مجموع نقاط Hb و H و He لهذا المركز. تتم تسوية هذه الدرجات الثلاثة لتضيف دائمًا ما يصل إلى 9.

الدرجة الرابعة هي رقم ثقة التنبؤ الخاص بالموضع ، والذي يمثل درجة الحالة التي اختارتها خوارزمية Viterbi في مسار التجزئة الأمثل. يتم تقدير جميع الدرجات الأربعة باستخدام خوارزميات HMM للأمام والخلف.

PSSMs

تم استخدام جميع التسلسلات في مجموعة الاختبار بشكل تسلسلي كاستعلامات في بحث PSI-BLAST مقابل قاعدة البيانات غير الزائدة عن الحاجة (NR). تم اختبار جميع طرق التنبؤ بالهيكل الثانوي على نفس نتائج PSI-BLAST لجعل المقارنة غير متحيزة قدر الإمكان. تم تعيين معلمات البحث لتلبية احتياجات التنسيق والمخرجات لجميع الطرق المعنية وفقًا لاقتراحات مؤلفيها المطابقين. استخدمنا حدًا قدره 0.001 (-ساعة 0.001) كما هو مقترح من إعدادات معلمة PSIPRED ، بحد أقصى ثلاثة تكرارات (-j 3) ، تنسيق الإخراج من النوع 6 الذي يحتاجه JNET ، وكذلك أخيرًا تم إنشاء PSSM والتحقق ملفات لكل تسلسل. كان سطر الأوامر الفعلي "blastpgp -i [تسلسل الاستعلام] -h 0.001 -m 6 -j 3 -d nr -Q [PSSM] -C [CHECKFILE] & gt [BLAST OUTPUT]".

المرجعية

تم إجراء المقارنة المعيارية لـ YASPIN باستخدام الإصدارات المثبتة محليًا من برامج PHDpsi و PROFsec و SSPro2 و JNET و PSIPRED. تم إجراء تنبؤات PHDpsi و PROFsec باستخدام المحاذاة المستخرجة لتشغيل PSI-BLAST. تم تشغيل JNET باستخدام محاذاة PSI-BLAST المستخرجة وملفات PSI-BLAST PSSM وملفات ملف تعريف التردد التي تم إنشاؤها وفقًا لتعليمات المؤلفين. تم تضمين ملفات تعريف HMM فقط في التنبؤ عند توفرها.

تمت مقارنة دقة تنبؤ YASPIN مع PHDpsi و PROFsec و SSPro2 و JNET و PSIPRED باستخدام الهياكل الثانوية المقابلة المشتقة من DSSP كمعيار للحقيقة. تم إجراء الترجمة من تصنيف الهيكل الثانوي المكون من 8 حالات إلى 3 حالات وفقًا لـ EVA (Koh وآخرون. ، 2003) مخطط التحويل. تم قياس دقة التنبؤ لجميع الطرق باستخدام الصيغ القياسية لـ Q3 ، SOV (Zemla وآخرون. ، 1999) ومعاملات ارتباط ماثيو (MCCs) (للمراجعة ، انظر Simossis and Heringa ، 2004) على النحو الوارد في خادم EVA (Koh وآخرون., 2003).

حساب أخطاء التنبؤ

قمنا بفصل أخطاء التنبؤ الخاصة باللولب والحبال إلى أربع فئات وفقًا للتصنيف المستخدم بواسطة McGuffin and Jones (2003): (1) التنبؤ الخاطئ (w) ، (2) التوقع الزائد (o) ، (3) التنبؤ الناقص ( ش) و (4) طول (ل) أخطاء. تم تسجيل أخطاء الطول أيضًا بشكل منفصل كتوقع مفرط ونقص في التنبؤ لأغراض المقارنة بين الطريقتين. يتم توضيح أنواع الأخطاء الأربعة للتوضيح على النحو التالي:

أخطاء uuu lllwwwwwl ll ooooo…


فتح الصندوق الأسود

استخراج القواعد من الشبكات العصبية وتطبيقها. تحتوي تسلسلات الجينوم على بعض المعلومات حول بنية البروتين [89]. كان الشرط الأساسي للكشف عن هذه النتيجة هو تعلم الشفرة الجينية من خلال شبكة عصبية ، أي التعيين بين الأبجدية المكونة من أربعة أحرف للأحماض النووية (DNA) ، والأبجدية المكونة من 20 حرفًا للأحماض الأمينية (البروتينات). اقترح تحليل القواعد التي تعلمتها الشبكة أدلة على سيناريو معين لتطور الشفرة الجينية (الشكل 4). في محاولة مماثلة لاستخراج القواعد من خلال تعديل محدد لإجراءات التدريب ، استخرج Vissotsky و Ganascia قواعد أكثر تعقيدًا من الشبكات التي تعلمت التنبؤ بالبنية الثانوية مما كان متاحًا من خلال التحليل الإحصائي [90]. لسوء الحظ ، لم تعمل هذه المحاولة على تحسين الأداء. اكتشف ماكلين وشافليك الطريقة المعاكسة من خلال دمج قواعد الخبراء في شبكة عصبية وبالتالي تحسين الأداء على الأجهزة الإحصائية البسيطة [91 ، 92]. أثبتت كل هذه الأساليب أن الشبكات العصبية ليست صناديق سوداء ، ولكن يمكن أن تصبح & # 8216 شفافة & # 8217 كنظم قائمة على القواعد. كانت المشكلة في كثير من الأحيان هي الاستفادة من القواعد المعقدة المستخرجة.

نحت علم الأحياء في الشبكات العصبية. هناك مشكلتان شائعتان في معظم طرق التنبؤ بالبنية الثانوية (بما في ذلك الشبكات البسيطة ، الشكل 3): (1) يتم توقع الخيوط عند مستويات عشوائية تقريبًا من الدقة ، (2) ومقاطع البنية الثانوية المتوقعة قصيرة جدًا [61 ، 68]. كان التفسير الشائع للمشكلة الأولى هو أن الخيوط قد استقرت من خلال تفاعلات طويلة المدى غير مرئية في قطعة من 13 إلى 21 من البقايا. كشفت ديناميكيات التدريب للشبكات العصبية أن الشبكات تعلمت تصنيف الحلزون ، والحلقة أسرع بعشر مرات من الخيط [56]. وبالتالي ، كانت الفكرة هي ببساطة زيادة التكرار في تقديم بقايا حبلا أثناء التدريب. أدى هذا التغيير في ديناميكيات التدريب إلى تحسين دقة الخيوط بشكل كبير ، مما يشير إلى أن التنبؤ الأدنى للحبلا لم ينتج بشكل أساسي عن التفاعلات طويلة المدى ، ولكن من المشكلات الفنية. تنشأ المشكلة الثانية للتنبؤ بالمقاطع القصيرة جدًا من حقيقة أن النافذة المنزلقة (الشكل 3) تمحو الارتباط بين المخلفات المتجاورة. تم تصحيح هذا النقص بإدخال شبكة من المستوى الثاني [56] (الشكل 5). تعلم نظام الشبكة هذا الارتباطات بين المخلفات المجاورة. توضح هذه الأمثلة أنه يمكن بسهولة تكييف الشبكات العصبية مع مشاكل معينة.

الشكل 4: تعلم الشفرة الجينية. يتم ترجمة رمز الحمض النووي المكون من أربعة أحرف من الجينوم إلى رمز حمض أميني مكون من 20 حرفًا من البروتينات. ثلاثة أحماض نووية (يطلق عليها كودون واحد) كود واحد لحمض أميني. هذا يعني أن الحمض النووي الأربعة يمكنه ترميز 4 * 4 * 4 = 64 من الأحماض الأمينية ، أي أن الشفرة زائدة عن الحاجة: يتم ترميز بعض الأحماض الأمينية بأكثر من كودون واحد ، ويتم استخدام ثلاثة أكواد لإشارات التوقف أثناء إجراء الترجمة. الحد الأدنى للشبكة التي تعلمت الشفرة الجينية بها وحدتان مخفيتان [93]. تمثل الرسوم البيانية الأربعة الروابط بين الإدخال 20 والوحدتين المخفيتين. (1) تحدد الشبكة غير المدربة ذات الأوزان المخصصة عشوائيًا جميع النقاط البالغ عددها 61 بالقرب من مركز المربع. (2) بعد سبع فترات تدريب ، انتقلت النقاط إلى حد أدنى محلي عابر ، حيث تقترب أنشطة الوحدات الوسيطة من واحدة وتقترب أنشطة جميع وحدات الإنتاج من الصفر. (3) في 30 حقبة ، بدأت المجموعات في الفصل ، لكنها لا تزال مختلطة. (4) أخيرًا في 13000 عصر ، تقوم الشبكة بتجميع 61 كودونًا على حافة المنطقة الدائرية. بعد الفترات الأربعة التي أظهرت أن عدد الكودونات المصنفة بشكل صحيح كان 2 و 6 و 26 و 61 على التوالي. يفصل التجميع النهائي المخلفات الكارهة للماء (أعلى: IMVPF) عن المحبة للماء (يمين الوسط واليسار: YQHKNEDR) ، والبقايا الأخرى (أسفل اليمين: TSAGPCW). الرقم مأخوذ من [93].

شكل 5: المستوى الثاني للشبكة العصبية [56]. (1) نافذة ث يتم إزاحة المخلفات المجاورة من خلال البروتين (هنا w = 5). لكل نافذة هيكل ثانوي متوقع للمخلفات المركزية (تظهر ثلاث نوافذ مع بقايا مركزية S ، P ، S). (2) يتم تغذية التنبؤ بشبكة المستوى الأول في شبكة المستوى الثاني. يتم تحقيق ذلك مرة أخرى عن طريق تحويل نافذة من ث تنبؤات متجاورة من خلال البروتين (للمستوى الثاني ث = 3). التنبؤ النهائي للهيكل الثانوي صالح للبقايا المركزية للنافذة الثانية (هنا أ).

الكشف عن أخطاء قاعدة البيانات أثناء التدريب. تعمم الشبكات العصبية عن طريق استخراج المبادئ الفيزيائية والكيميائية الأساسية من بيانات التدريب. من الواضح أن هذا يتطلب مجموعة تدريب صحيحة. كانت S & oslashren Brunak رائدة في فكرة كشف الأخطاء في مجموعة التدريب من خلال مراقبة العينات التي لا يمكن تعلمها حتى عندما تم تدريب الشبكات حتى الإفراط في ملاءمة البيانات [94 ، 95 ، 96 ، 97 ، 87 ، 98 ، 99]. لم يتم استخدام هذه التقنية بنجاح فقط لتحديد الأخطاء والتناقضات في قواعد البيانات العامة ، ولكن أيضًا لتحسين أداء الشبكات.


العلاقات بين كسور البنية الثانوية للبروتينات الكروية. تحليلات الشبكة العصبية لمجموعات البيانات البلورية

مشاهدات المقالات هي مجموع تنزيلات النصوص الكاملة للمقالات المتوافقة مع COUNTER منذ نوفمبر 2008 (بتنسيق PDF و HTML) عبر جميع المؤسسات والأفراد. يتم تحديث هذه المقاييس بانتظام لتعكس الاستخدام حتى الأيام القليلة الماضية.

الاقتباسات هي عدد المقالات الأخرى المقتبسة من هذه المقالة ، ويتم حسابها بواسطة Crossref ويتم تحديثها يوميًا. العثور على مزيد من المعلومات حول عدد الاقتباسات Crossref.

درجة الانتباه Altmetric هي مقياس كمي للانتباه الذي تلقته مقالة بحثية عبر الإنترنت. سيؤدي النقر فوق أيقونة الكعك إلى تحميل صفحة على altmetric.com تحتوي على تفاصيل إضافية حول النتيجة ووجود وسائل التواصل الاجتماعي للمقالة المحددة. يمكنك العثور على مزيد من المعلومات حول "نقاط الانتباه البديلة" وكيفية احتساب النتيجة.

ملحوظة: بدلاً من الملخص ، هذه هي الصفحة الأولى للمقالة.


بيانات التدريب للتنبؤ ببنية البروتين الثانوية باستخدام الشبكة العصبية - علم الأحياء

أمثلة على استخدام التعلم العميق في المعلوماتية الحيوية

تم نشر هذا العمل رسميًا ، لكننا سنواصل تحديث هذا المستودع لمواكبة الأبحاث الأكثر تقدمًا. إذا كان لديك أي اقتراحات ، فلا تتردد في فتح مشكلة. أنت أيضا موضع ترحيب كبير للمساهمة.

تم تحديد هذه المقالة لصورة الغلاف الخاصة بمشكلة الطرق المقابلة

إذا وجدت البرنامج التعليمي وهذا المستودع مفيدًا ، فيرجى الاستشهاد بمخطوطتنا بالمعلومات التالية:

حقق التعلم العميق ، وهو أمر هائل بشكل خاص في التعامل مع البيانات الضخمة ، نجاحًا كبيرًا في مختلف المجالات ، بما في ذلك المعلوماتية الحيوية. مع تقدم عصر البيانات الضخمة في علم الأحياء ، من المتوقع أن يصبح التعلم العميق ذا أهمية متزايدة في هذا المجال وسيتم دمجه في أغلبية واسعة من خطوط أنابيب التحليل.

لتسهيل العملية ، في هذا المستودع ، نقدم ثمانية أمثلة ، تغطي خمسة اتجاهات بحثية ، وأربعة أنواع من البيانات ، وعددًا من نماذج التعلم العميق التي سيواجهها الأشخاص في المعلوماتية الحيوية. الاتجاهات البحثية الخمسة هي: تحليل التسلسل ، والتنبؤ بالبنية وإعادة البناء ، والخصائص الجزيئية الحيوية والتنبؤ بالوظائف ، ومعالجة الصور الطبية الحيوية وتشخيصها ، والتنبؤ بتفاعل الجزيئات الحيوية ، وبيولوجيا الأنظمة. أنواع البيانات الأربعة هي: البيانات المنظمة ، بيانات التسلسل 1D ، الصورة ثنائية الأبعاد أو بيانات التنميط ، بيانات الرسم البياني. نماذج التعلم العميق المغطاة هي: الشبكات العصبية العميقة المتصلة بالكامل ، ConvNet ، RNN ، الرسم البياني للشبكة العصبية التلافيفية ، ResNet ، GAN ، VAE.

فيما يلي نظرة عامة على الأمثلة الثمانية:

يوضح هذا المثال كيفية استخدام الشبكة العصبية لتحديد الإنزيمات.

  • Model: deep fully connected neural network
  • Data type: structured data
  • Research direction: biomolecular property and function prediction

This example shows how to use the combination of CNN and RNN to predict the non-coding DNA sequence function.

  • Model: CNN, RNN
  • Data type: 1D sequence data
  • Research direction: sequence analysis

This example shows how to use deep learning to predict target gene expression with the landmark gene expression data.

  • Model: deep fully connected neural network
  • Data type: structured data
  • Research direction: biomolecule interaction prediction and systems biology

This example shows how to perform diagnosis with ResNet on the X-ray images.

  • Model: ResNet
  • Data type: 2D image or profiling data
  • Research direction: biomedical image processing and diagnosis

This example shows how to using graph neural network to perform graph embedding and predict protein protein interactions in PPI network.

  • Model: graph convolutional neural network
  • Data type: graph data
  • Research direction: biomolecule interaction prediction and systems biology

This example shows how to perform biological image super resolution with GAN.

  • Model: GAN
  • Data type: 2D image or profiling data
  • Research direction: biomedical image processing and diagnosis

This example shows how to use VAE to reduce the dimensionality of gene expression profile.

  • Model: VAE
  • Data type: 2D image or profiling data
  • Research direction: biomolecule interaction prediction and systems biology

This example shows how to perform RNA-protein binding sites prediction with CNN.


Research about Multilingual Machine Translation Published in ArXiv

نشرت: August 22, 2020

Machine Translation ( MT) is the task of automatically converting one natural language to another, preserving the meaning of the input text, and producing fluent text in the output language. I have tried to collect and curate some publications form Arxiv that related to the multi-lingual machine translation for low resource language, and the results were listed here. Please enjoy it!


شاهد الفيديو: Demonstration neural netwerk (سبتمبر 2022).


تعليقات:

  1. Abdel

    ومن اللافت للنظر أن هذه هي العبارة الثمينة

  2. Mazuzshura

    بالتاكيد. أنا اشترك في كل ما سبق. يمكننا التواصل حول هذا الموضوع.



اكتب رسالة