معلومة

كيف نتنبأ ببنية ثانوية مرنا بتسلسل كبير؟

كيف نتنبأ ببنية ثانوية مرنا بتسلسل كبير؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

عندما أستخدم بعض خوادم الويب للتنبؤ ببنية mRNA الثانوية ، أجد أنها مطلوبة دائمًا في تسلسل صغير الحجم. إذا استخدمت تسلسلًا طويلًا وقطعته إلى أجزاء صغيرة ، فهل تغير هذه الأجزاء الصغيرة الطاقة أو البيانات الديناميكية الحرارية من تسلسل الأصل عند التنبؤ؟ هل هناك أي طريقة فعالة للعثور على المواقع الصحيحة عند قطع التسلسل الطويل؟


نعم ، قد لا يمثل الهيكل الذي تم توقعه عن طريق تقسيم التسلسل الهيكل الفعلي للحمض النووي الريبي كامل الطول. هناك حالة افتراضية بسيطة وهي حالة الحمض النووي الريبي الذي يتفاعل UTR 3 'و 5' لإحداث الدوران.

أخشى أنه لا توجد قاعدة واضحة لاختيار النتائج اللاحقة بحيث يكون تجميع الهياكل الثانوية الفردية أقرب ما يكون إلى الهيكل الفعلي.

قد نتوقع أنه ، مع قوة حسابية أفضل ، يمكن التغلب على القيود المفروضة على حجم التسلسل للتنبؤ بالهيكل الثانوي.

ومع ذلك ، هناك تقنيات تجريبية باستخدام تسلسل الحمض النووي الريبي التي يمكن أن تحدد البنية الثانوية الفعلية - SHAPE-seq (الإصدار 2.0 ؛ Loughrey وآخرون. 2014) وسلسلة الهيكل (Ding et al. 2014). هيكل التسلسل في الواقع ، يحاول تحديد الهياكل الثانوية للحمض النووي الريبي في الجسم الحي وبالتالي قد تكون أداة أكثر قوة.

ومع ذلك ، قلت أنك تعمل مع mRNAs. أعتقد أنه بالنسبة إلى mRNAs ، يمكنك التنبؤ بهياكل UTRs و CDS بشكل منفصل. يعتمد في الواقع على ما تهتم به. لا تحتوي CDS عادةً على أي شكل هيكلي وأي بنية ثانوية في CDS يتم حلها عادةً بواسطة نشاط الهليكاز الخاص بـ eIF4A. ومع ذلك ، يمكن للبنى الثانوية أن تبطئ من معدل استطالة الترجمة (Mao et al. 2010 ، Gorochowski et al. 2015).


  1. لوفري ، دي ، واترز ، كيه إي ، سيتل ، إيه إتش ، ولوكس ، جي بي (2014). SHAPE-Seq 2.0: التحسين المنهجي والتمديد للتحقيق الكيميائي عالي الإنتاجية للهيكل الثانوي للحمض النووي الريبي مع تسلسل الجيل التالي. أبحاث الأحماض النووية، 42 (21) e165.

  2. دينغ ، واي ، تانغ ، واي ، كووك ، سي كيه ، زانغ ، واي ، بيفيلاكوا ، بي سي ، وأسمان ، إس إم (2014). يكشف التوصيف على مستوى الجينوم للهيكل الثانوي للحمض النووي الريبي في الجسم الحي عن ميزات تنظيمية جديدة. طبيعة سجية, 505(7485), 696-700.

  3. ماو ، واي. ، ليو ، هـ. ، ليو ، واي. ، وتاو ، س. (2014). فك رموز القواعد التي تؤثر بها ديناميات البنية الثانوية للـ mRNA على كفاءة الترجمة في Saccharomyces cerevisiae. أبحاث الأحماض النووية, 42(8), 4813-4822.

  4. جوروتشوفسكي ، ت.إ.إغناتوفا ، زد ، بوفنبرج ، ر.أ ، وروبوس ، ج.أ. (2015). المفاضلات بين وفرة الحمض الريبي النووي النقال والبنية الثانوية مرنا تدعم تجانس معدل استطالة الترجمة. أبحاث الأحماض النوويةو gkv199.


إن طرق التسلسل الأحادي المذكورة أعلاه لها مهمة صعبة في اكتشاف عينة صغيرة من الهياكل الثانوية المعقولة من مساحة كبيرة من الهياكل المحتملة. من الطرق الجيدة لتقليل حجم الفضاء استخدام الأساليب التطورية. من المرجح أن تكون الهياكل التي حفظها التطور هي الشكل الوظيفي. الأساليب أدناه تستخدم هذا النهج.

  1. ^عدد التسلسلات: & ltany | عدد & GT.
  2. ^انتقام: يتوقع محاذاة & ltinput | نعم | لا & GT.
  3. ^بنية: يتوقع الهيكل ، & ltinput | نعم | لا & GT.
  4. ^العقد:التنبؤ الكاذب ، & ltyes | لا & GT.

يستخدم RNAsnap2 شبكة عصبية تلافيفية موسعة ذات ميزات تطورية تم إنشاؤها من BLAST + INFERNAL (مثل RNAsol) واحتمالات الاقتران الأساسي المتوقعة من LinearPartition كمدخل للتنبؤ بإمكانية الوصول إلى مذيب RNA. أيضًا ، يمكن للنسخة أحادية التسلسل من RNAsnap2 أن تتنبأ بإمكانية الوصول إلى المذيبات لتسلسل إدخال RNA معين دون استخدام المعلومات التطورية. مصدر الرمز

يستخدم متنبئ RNAsol خوارزمية LSTM للتعلم العميق أحادية الاتجاه مع معلومات تطورية تم إنشاؤها من BLASTN + INFERNAL والبنية الثانوية المتوقعة من RNAfold كمدخل للتنبؤ بإمكانية الوصول إلى مذيب RNA. مصدر الرمز

تعمل العديد من ncRNAs من خلال الارتباط بـ RNAs الأخرى. على سبيل المثال ، تنظم miRNAs التعبير الجيني لترميز البروتين عن طريق الارتباط بـ UTRs 3 ، وتوجه الحمض النووي الريبي النووي الصغير تعديلات ما بعد النسخ عن طريق الارتباط بـ rRNA و U4 spliceosomal RNA و U6 spliceosomal RNA مع بعضها البعض مكونًا جزءًا من spliceosome والعديد من RNAs البكتيرية الصغيرة ينظم التعبير الجيني عن طريق التفاعلات المضادة للحساسية على سبيل المثال GcvB و OxyS و RyhB.

اسم وصف التركيب الجزيئي مقارنة وصلة مراجع
المفترس RNA يستخدم RNApredator نهج برمجة ديناميكي لحساب مواقع تفاعل RNA-RNA. نعم لا قاعدة بيانات للانترنت [93]
غوغل أداة مساعدة للتحديد السريع لمطابقات RNA-RNA مع التهجين المثالي عبر الاقتران الأساسي A-U و C-G و G-U. لا لا قاعدة بيانات للانترنت [94]
IntaRNA تنبؤ فعال للهدف يتضمن إمكانية الوصول إلى المواقع المستهدفة. نعم لا خادم الويب الخاص بـ sourcecode [95] [96] [97] [98] [99]
كوبرا أداة للتنبؤ الهدف sRNA. يحسب تنبؤات الجينوم بالكامل عن طريق مزيج من تنبؤات الجينوم الكامل المتميز IntaRNA. نعم نعم خادم الويب الخاص بـ sourcecode [100] [96]
نعناع أداة تلقائية لتحليل الهياكل ثلاثية الأبعاد لجزيئات الحمض النووي الريبي والحمض النووي ، ومسارات الديناميكيات الجزيئية كاملة الذرة أو مجموعات التشكل الأخرى (مثل الأشعة السينية أو الهياكل المشتقة من الرنين المغناطيسي النووي). لكل تشكيل من الحمض النووي الريبي أو الحمض النووي ، تحدد MINT شبكة الترابط الهيدروجيني التي تحل أنماط الاقتران الأساسية ، وتحدد أشكال البنية الثانوية (الحلزونات ، والوصلات ، والحلقات ، وما إلى ذلك) والعقدة الزائفة. يقدّر أيضًا طاقة التراص والتفاعلات الفوسفاتية مع قاعدة الأنيون. نعم لا خادم الويب الخاص بـ sourcecode [101]
نوباك يحسب وظيفة التقسيم غير المحددة الكاملة للخيوط المتفاعلة في محلول مخفف. لحساب التركيزات ، و mfes ، واحتمالات الاقتران الأساسي للمجمعات المرتبة تحت درجة تعقيد معينة. يحسب أيضًا وظيفة التقسيم والتثبيت الأساسي للخيوط المفردة بما في ذلك فئة الهياكل ذات العقد الكاذب. كما يتيح تصميم المجمعات المرتبة. نعم لا نوباك [102]
OligoWalk / RNAstructure يتنبأ بهياكل ثانوية ثنائية الجزيء مع أو بدون بنية جزيئية. يتنبأ أيضًا بتقارب التهجين للحمض النووي القصير مع هدف الحمض النووي الريبي. نعم لا [1] [103]
بيرنا يحسب وظيفة التقسيم والديناميكا الحرارية لتفاعلات RNA-RNA. إنه يأخذ في الاعتبار جميع الهياكل الثانوية المشتركة الممكنة لاثنين من الأحماض النووية المتفاعلة التي لا تحتوي على عقدة كاذبة أو عقدة كاذبة تفاعلية أو متعرجة. نعم لا لينوكسبيناري [104]
RNAripalign لحساب وظيفة التقسيم والديناميكا الحرارية لتفاعلات RNA-RNA بناءً على المحاذاة الهيكلية. يدعم أيضًا التنبؤ بتفاعل RNA-RNA للتسلسلات الفردية. إنه ينتج هياكل دون المستوى الأمثل بناءً على توزيع Boltzmann. إنه يأخذ في الاعتبار جميع الهياكل الثانوية المشتركة الممكنة لاثنين من الأحماض النووية المتفاعلة التي لا تحتوي على عقدة كاذبة أو عقدة كاذبة تفاعلية أو متعرجة. نعم لا [2] [105]
RactIP التنبؤ السريع والدقيق لتفاعل RNA-RNA باستخدام برمجة عدد صحيح. نعم لا خادم الويب الخاص بـ sourcecode [106]
RNAaliduplex استنادًا إلى RNAduplex مع مكافآت للمواقع المشتركة لا نعم مصدر الرمز [17]
RNAcofold يعمل كثيرًا مثل RNAfold ، ولكنه يسمح بتحديد تسلسلين من RNA يُسمح لهما بعد ذلك بتشكيل بنية باهتة. نعم لا مصدر الرمز [17] [107]
RN يحسب الهياكل الثانوية المثلى ودون الأمثل للتهجين. يتم تبسيط الحساب من خلال السماح فقط بأزواج القواعد بين الجزيئات. لا لا مصدر الرمز [17]
هجين أداة للعثور على الحد الأدنى من تهجين الطاقة الحرة للحمض النووي الريبي الطويل والقصير (≤ 30 nt). لا لا المصدر ، خادم الويب [108] [109]
RNAup يحسب الديناميكا الحرارية لتفاعلات RNA-RNA. يتحلل ارتباط RNA-RNA إلى مرحلتين. (1) أولاً ، يتم حساب احتمال بقاء الفاصل الزمني للتسلسل (مثل موقع الربط) غير متزاوج. (2) ثم يتم حساب طاقة الربط نظرًا لعدم ازدواج موقع الربط على أنه الأمثل لجميع أنواع الارتباطات الممكنة. نعم لا مصدر الرمز [17] [110]

يتضمن الجدول أدناه التفاعلات التي لا تقتصر على UTR.

اسم وصف عبر الأنواع التركيب الجزيئي مقارنة وصلة مراجع
كومتار أداة ويب للتنبؤ بأهداف ميرنا تعتمد بشكل أساسي على الحفاظ على التنظيم المحتمل في الأنواع النباتية. نعم لا لا أداة الويب [111]
RNA22 يوفر الرابط الأول (التنبؤات المحسوبة مسبقًا) تنبؤات RNA22 لجميع نصوص تشفير البروتين في الإنسان والفأر والدودة المستديرة وذبابة الفاكهة. يسمح بتصور التنبؤات داخل خريطة cDNA وأيضًا العثور على النصوص حيث يوجد هدف miR متعدد الفائدة. يجد رابط موقع الويب الثاني (تسلسلات تفاعلية / مخصصة) أولاً مواقع ربط microRNA مفترضة في تسلسل الاهتمام ، ثم يحدد microRNA المستهدف. يتم توفير كلتا الأداتين من قبل مركز الطب الحسابي في جامعة توماس جيفرسون. نعم لا لا متواليات تفاعلية / مخصصة للتنبؤات المحسوبة مسبقًا [112]
هجين أداة للعثور على الحد الأدنى من تهجين الطاقة الحرة للحمض النووي الريبي الطويل والقصير (≤ 30 nt). نعم لا لا المصدر ، خادم الويب [108] [109]
miRBooking يحاكي وضع القياس المتكافئ لعمل microRNAs باستخدام مشتق من خوارزمية Gale-Shapley للعثور على مجموعة مستقرة من الازدواج. يستخدم القياسات الكمية لاجتياز مجموعة أزواج mRNA و microRNA وتكامل البذور لترتيب المواقع وتعيينها. نعم لا لا المصدر ، خادم الويب [113]

تنظم MicroRNAs التعبير الجيني لترميز البروتين من خلال الارتباط بـ UTRs 3 ، وهناك أدوات مصممة خصيصًا للتنبؤ بهذه التفاعلات. لتقييم طرق التنبؤ المستهدفة على البيانات التجريبية عالية الإنتاجية ، انظر (Baek وآخرون.، Nature 2008)، [114] (Alexiou وآخرون.، Bioinformatics 2009)، [115] أو (Ritchie et al.، Nature Methods 2009) [116]


المواد والأساليب

نحن نأخذ في الاعتبار مشكلة وجود تسلسل نيوكليوتيد مع كل من مناطق الترميز وغير المشفرة ، وتعظيم MFE الناتج عن الطيات المحتملة ، عن طريق تغيير النيوكليوتيدات في منطقة التشفير دون تغيير تسلسل الأحماض الأمينية. نحن نستفيد من انحطاط الكود الجيني للبحث عن تسلسل جيني مرادف يزيد من وظيفة الطاقة إلى أقصى حد مرتبطة بقوة البنية الثانوية.

قمنا بتقسيم الطرق إلى أربعة أجزاء: (1) البحث عن أفضل تركيبة كودون ، (2) تطوير وظيفة حساب MFE زائفة سريعة ، (3) تحسين هذه الوظيفة لتعظيم ارتباطها بمقياس MFE دقيق و (4) الانحدار الخطي لتحويل قيم MFE الزائفة إلى حدود أكثر دقة.

استكشاف الجينات المرادف

يعد العثور على تسلسل مرادف مثالي مشكلة اندماجية غالبًا ما يكون غير عملي لحلها في وقت فعال نظرًا لحجم مساحة البحث (تقريبًا للتسلسل مع الكودونات ، باستخدام الكود الجيني القياسي). نتيجة لذلك ، يصبح من الجذاب اللجوء إلى metaheuristics ، مثل الخوارزميات الجينية والتليين المحاكي ، التي تسهل استكشاف التسلسلات المحتملة ، مما يؤدي إلى البحث عبر مناطق مساحة الحل التي تهم المشكلة.

تقريب مبسط لتقدير MFE

يمكن للأدوات الحالية لتقدير البنية الثانوية أن تقيس بدقة MFE الناتج عن ثنية خيط النيوكليوتيدات. ومع ذلك ، يتم تحقيق هذه الدقة من خلال التحليل الشامل للهياكل الثانوية المحتملة ، وتستغرق هذه العملية عدة ثوانٍ ، اعتمادًا على حجم التسلسل. على الرغم من أنها سريعة بما يكفي بشكل عام لتشغيل واحد ، وهو الاستخدام العادي لهذه الأدوات ، فإنها تصبح بطيئة بشكل غير مجد عندما تكون هناك حاجة إلى مكالمات متعددة ، وهذا هو الحال إذا كان المرء يبحث عن التكوين الأمثل للكودونات ويحتاج إلى إعادة تقييم التسلسل باستمرار. على سبيل المثال ، إجراء 1500 مكالمة إلى RNAfold لتطوير mRNA مع 1000 كودون (بدون مناطق غير مشفرة) يستغرق & gt6 h (مع الأخذ في الاعتبار متوسط ​​15 ثانية لكل مكالمة إلى RNAfold ، وهو عمومًا حد أدنى في جهاز كمبيوتر شخصي حديث) . للتغلب على هذه العقبة ، قمنا بتطوير وظيفة تقييم أسرع بكثير في تحليل الهياكل الثانوية ، على حساب النتائج الأقل دقة ، والتي ترتبط ارتباطًا وثيقًا بطاقة MFE الحقيقية. لتقليل التعقيد الزمني من تقدير MFE [لـ RNAfold و MFold ، لتسلسل ن nucleotides] ، قدمنا ​​منهجًا مبسطًا مع تعقيد تربيعي ، والذي يأخذ في الاعتبار جميع المطابقات الممكنة في حلقة جذعية واحدة ويضع متوسط ​​طاقة تفاعلها ، كما هو موضح في الخوارزمية 1.

تأخذ الخوارزمية في الاعتبار كل تشكيل محتمل للهيكل الثانوي للـ mRNA باستخدام طية واحدة فقط (يوجد تقريبًا ⁠) ، ولكل تشكل ، تبحث عن أزواج النوكليوتيدات التي ترتبط (الشكل 1). طاقة كل طية هي عدد الروابط الهيدروجينية المشتركة في مناطق التفاعل. تقوم هذه الطريقة بعد ذلك بإرجاع متوسط ​​الطاقة لجميع الطيات. لا يأخذ هذا التقريب في الاعتبار المطابقات الأكثر تعقيدًا لهياكل حلقة جذعية متعددة أو عقدة زائفة ، والتي تتطلب تركيبات أكثر تعقيدًا ، كما أنها لا تنوي الحصول على قيمة طاقة دقيقة. ومع ذلك ، فإنه يفترض أنه يمكن الحصول على قيمة مجردة تمثل MFE من الطيات الأولية للجزيء ، وهذا بالنظر إلى جميع تفاعلات النوكليوتيدات المحتملة يحدد هذه القيمة لتمثيل رؤية عالمية لقوة البنية. نتيجة لذلك ، تُرجع الخوارزمية قيمة مرتبطة إلى حد كبير بتنبؤات MFE المعقدة.

توضيح خوارزمية تقدير MFE. تؤخذ في الاعتبار جميع الطيات الممكنة لعروة جذعية واحدة ، بدءًا من الطرف 3. في كل طية ، لا تعتبر النيوكليوتيدات القريبة من منطقة الطي متفاعلة. النتيجة هي متوسط ​​مساهمات زوج النيوكليوتيدات لجميع الطيات.

توضيح خوارزمية تقدير MFE. تؤخذ في الاعتبار جميع الطيات الممكنة لعروة جذعية واحدة ، بدءًا من الطرف 3. في كل طية ، لا تعتبر النيوكليوتيدات القريبة من منطقة الطي متفاعلة. النتيجة هي متوسط ​​مساهمات زوج النيوكليوتيدات لجميع الطيات.

صقل تفاعلات النوكليوتيدات

باستخدام هذه الطريقة ، قمنا بزيادة الارتباط الأولي 0.73 إلى 0.91 ، عن طريق تغيير أوزان الزوج من (2 ، 2 ، 3) لـ AU و GU و CG إلى (1 ، 1 ، 3.12). أكدنا أيضًا على الاعتماد الخطي العالي باستخدام معامل ارتباط لحظة المنتج للشخص ، والذي أعاد أيضًا 0.91.

الانحدارالخطي

نظرًا للاعتماد الخطي الكبير الذي تم إنشاؤه في الخطوة السابقة ، تمكنا بسهولة من تحويل القيم التي تم إرجاعها بواسطة وظيفة تقدير MFE لتشبه عن كثب تلك الخاصة بـ MFE الدقيق. على الرغم من أن هذه الخطوة ليست ضرورية ولا تغير الارتباط النهائي ولا نتائج التحسين ، فإن القيم المحولة تصبح قابلة للمقارنة بشكل واضح مع تلك الخاصة بالقياسات الدقيقة ، مما يسمح بالتقييم والمقارنة السريعة لقيم MFE.

باستخدام المربعات الصغرى العادية ، أجرينا انحدارًا خطيًا بسيطًا باستخدام قيم الطاقة للخوارزمية 1 كمتغير إدخال و MFE المعطى بواسطة RNAfold كمتغير مرصود. للتنبؤ بشكل أفضل بـ MFE ، أنشأنا انحدارين ، الأول للجينات من النوع البري والثاني للجينات المحسنة (انظر المواد التكميلية للصيغ والنتائج).


مقدمة

MicroRNA (miRNA) هي فئة من الحمض النووي الريبي الصغير غير المشفر والتي تعتبر ضرورية لتطور العديد من الأنواع وتشارك بشكل متكرر في مجموعة متنوعة من الأمراض الوراثية ، بما في ذلك السرطان [1] ، [2] ، [3] ، [4 ]. بشكل عام ، تعمل microRNAs من خلال التنظيم السفلي للتعبير الجيني عبر آلية استهداف على mRNA [5]. يعتقد أن الثدييات تشترك في آلية مشتركة للتكوين الحيوي للـ microRNA [6]. أولاً ، يتم نسخ microRNAs الأولية (المسماة pri-microRNAs) من الجينوم ومعالجتها إلى سلائف microRNAs (pre-microRNAs) في النواة بواسطة مجمع معالج دقيق يتكون من Drosha (إنزيم RNase III) [7] وعامله المساعد DGCR8 (المعروف أيضًا باسم باشا) [8]. تمتلك الـ Pre-microRNAs بنية قاسية نموذجية من -60-70 nt ، والتي تتميز بتراكب ∼2 nt عند الطرف 3 [9]. يتم بعد ذلك نقل الرنا الميكروي المسبق إلى السيتوبلازم بواسطة ناقل تصدير خاص بالرنا الميكروي سابقًا ، Exportin 5 ، والذي يكون مصحوبًا بعامل مساعد Ran-GTP [10] ، [11] ، [12]. يتم بعد ذلك شق الـ pre-microRNA بواسطة Dicer (إنزيم RNase III آخر) لإنتاج microRNA مزدوج مع 3′-overhang من ∼2 nt [13] ، [14] ، [15]. عادةً ، تظل خصلة واحدة من الدوبلكس بمثابة الرنا الميكروي الناضج ويتم دمجها في مجمع الإسكات الناجم عن الحمض النووي الريبي (RISC). سوف يستهدف RISC بعد ذلك mRNAs بناءً على تكامل التسلسل الجزئي [16]. من الواضح أن تسلسل الرنا الميكروي الناضج يلعب دورًا رئيسيًا في التعرف على الأهداف [17] ، [18] ، [19]. يتم اتخاذ خطوات المعالجة المذكورة أعلاه بواسطة معظم الرنا الميكروي ، على الرغم من أن بعض الدراسات أظهرت أن مجموعة فرعية صغيرة من الرنا الميكروي الموجودة في إنترونات قصيرة يمكنها تجاوز خطوة دروشا عبر مسار آخر يسمى ميرترون [20].

الأساليب التجريبية مثل التسلسل والاستنساخ تستخدم على نطاق واسع لتحديد العديد من الرنا الميكروي في حالتها الناضجة [21] ، [22] ، [23]. ومع ذلك ، فإن هذه الأنواع من الأساليب منحازة حتمًا نحو تلك microRNAs التي يتم التعبير عنها بكثرة. أثبتت تقنية التسلسل العميق الحديثة فعاليتها في اكتشاف الرنا الميكروي الجديد ، ومع ذلك ، فإن اكتشاف الرنا الميكروي الحقيقي من العدد الهائل من "القراءات" التي يتم إنتاجها من Solexa أو غيرها من آلات التسلسل العميق يصبح تحديًا آخر [24] ، [ 25].

تهدف معظم الطرق الحسابية التي تم تطويرها حتى الآن إلى تحديد جينات الرنا الميكروي المحتملة من جينومات الأنواع المختلفة [9] ، [26] ، [27] ، [28] ، [29] من خلال تحديد هياكل الحلقة الجذعية التي تحتوي على ما قبل microRNAs ، بدلاً من التنبؤ بالتسلسل الدقيق الناضج للـ microRNAs ، على الرغم من أن بعضها يتضمن دراسة التسلسل الناضج كإجراء مضمن [9] ، [26] ، [30]. على سبيل المثال ، تم تضمين محاذاة التسلسل في miRseeker [26] لتحديد المناطق التي تشمل microRNA الناضج. في proMIR [9] ، تم تقديم نموذج ماركوف المخفي (HMM) للعثور على منطقة microRNA ناضجة. بعد ذلك ، تم تصميم المعالجات الدقيقة SVM بعناية للتنبؤ بموقع معالجة Drosha الذي يحدد أحد طرفي microRNA الناضج في الجينوم البشري باستخدام أكثر من 600 ميزة لمصنف SVM [13]. في الآونة الأخيرة ، تم الإبلاغ عن MatureBayes والتي تحدد على وجه التحديد الرنا الميكروي الناضج [31].تستخدم هذه الأداة مصنف Naïve Bayes للتنبؤ بموضع بدء microRNA الناضج على السلائف ثم تحدد التسلسل الناضج وفقًا لطول 22 nt.

هنا ، نقدم أداة جديدة ، MiRmat ، لتحديد تسلسل microRNA الناضج من بنية الحلقة الجذعية الموجودة في pri-microRNA. تعتمد الطريقة على مبدأ الطاقة الحرة في تفاعل الجزيئات وعملية التكوُّن الحيوي للـ microRNA الناضج. أولاً ، يتم تقديم نمط توزيع الطاقة الحرة لهيكل الحلقة الجذعية المستمدة من pri-microRNA للتنبؤ بمواقع معالجة Drosha ، أي التنبؤ الدقيق قبل microRNA. بعد ذلك ، يتم تطبيق السمات الهيكلية لـ pre-microRNA للتنبؤ بموقع معالجة Dicer ، بحيث يتم إنتاج تسلسل microRNA الناضج.

قد ينثني الرنا الميكروي pri إلى الهيكل الثانوي الذي يحتوي على حلقة جذعية واحدة (أو أكثر من حلقات جذعية) والتي تكون عادةً جذعًا بمقدار 33 نقطة أساس مع حلقة في أحد طرفيها وتحيط بسلاسل مفردة في الطرف الآخر. عادة ، من الصعب معرفة الطول الدقيق لـ pri-microRNA [32] ، [33] ، [34]. للراحة ، يُطلق على هذا النوع من هياكل الحلقة الجذعية التي تحتوي على ما قبل microRNA المقابل اسم دبوس الشعر microRNA أو حلقة جذعية microRNA. في هذه الورقة ، نعتبر الجانب الذي يحتوي على الحلقة الطرفية في اتجاه المنبع بينما يُطلق على الاتجاه المعاكس المصب. وفقًا للدراسات السابقة ، يرتبط Drosha بـ pri-microRNAs من خلال dsRBD (مجال ربط RNA مزدوج تقطعت به السبل) مصحوبًا بجزيء شريك DGCR8 ، مما يساعد على تثبيت مجمع المعالج الدقيق Drosha في الموضع الصحيح على هيكل pri-microRNA [35 ]. هان ، ج وآخرون. (2006) حسبت ملامح الاستقرار الديناميكي الحراري للهياكل الثانوية pri-microRNA واقترح أن مسافة حوالي 11 نقطة أساس في اتجاه مجرى التيار من تقاطع الجذع-ssRNA من المحتمل أن تكون موقع معالجة Drosha ، في حين أن منطقة المنبع للهيكل بالقرب من الحلقة هي القليل من الأهمية [36]. من الواضح أن التحديد الدقيق لمواقع معالجة Drosha لا يمكن أن يعتمد ببساطة على هذه القيمة ، حيث أن التشكيلات الجانبية الفعلية المحسوبة من التسلسلات والهياكل تختلف اختلافًا كبيرًا بين دبابيس الشعر microRNA. في MiRmat ، قمنا ببناء نموذج جديد لتحليل أنماط الطاقة المجانية لدبابيس الشعر microRNA وتطبيق خوارزمية Random Forest (RF) لتحديد موقع معالجة Drosha. بناءً على تحليل أجري على الرنا الميكروي لـ 12 نوعًا ، وجدنا أن نمط الطاقة الحرة المشتق من نموذجنا يمكن حفظه بين الفقاريات.

بينما يحدد موقع معالجة Drosha أحد طرفي تسلسل microRNA الناضج ، يتم تحديد الطرف الآخر من تسلسل microRNA الناضج بواسطة موقع معالجة Dicer. Dicer هو إنزيم من مجالات متعددة بما في ذلك المجال N-terminal DexH-box RNA يشبه الهليكاز ، ومجال PAZ ، ومجالان RNase III (RNase IIIa و RNase IIIb) ، و dsRBD ومجال غير معروف (DUF283) [37 ]. وفقًا لنموذج سابق ، يعمل Dicer كحاكم جزيئي يقيس ويقطع العديد من النيوكليوتيدات من نهاية الرنا المزدوج الجديلة [38]. يتم تحديد طول المنتجات من خلال المسافة بين مجالات RNase III ومجال PAZ ، والتي تبلغ حوالي 65 بوصة الجيارديا المعوية ويطابق الطول الممتد بمقدار 25 نقطة أساس من الحمض النووي الريبي [38]. ومع ذلك ، فإن هذا الطول يتأثر بسهولة لأن الإنزيم يؤدي في كثير من الأحيان إلى تغيير توافقي للحمض النووي الريبي مزدوج الشريطة من أجل انقسام فعال ودقيق. من خلال الإحصائيات المتعلقة بالهيكل الثانوي قبل microRNA وطول تسلسل microRNA الناضج ، وجدنا العلاقات الممكنة بين المعلمتين. لذلك ، تم اختيار مجموعة من الميزات الهيكلية لتطبيق Random Forest لتحديد مواقع معالجة Dicer على الرنا الميكروي المسبق.

من خلال التطبيق التسلسلي لأنماط توزيع الطاقة المجانية للهياكل الثانوية لدبابيس الشعر microRNA والسمات الهيكلية التي تمثل طول تسلسل microRNA الناضج ، تمكنت MiRmat من تحديد 31.9 ٪ من مواقع Drosha لـ microRNAs الفقارية في المواضع المشروحة تمامًا التي توفرها miRBase وموقع معالجة دايسر بنسبة 45٪. إذا تم السماح بانحراف 2 nt عن الموقع الحقيقي ، فإن معدل المواقع المحددة لـ Drosha يقترب من 80٪ بينما معدل التنبؤ لموقع Dicer يتجاوز 90٪. استنادًا إلى اختبارات نفس مجموعات البيانات ، يُظهر MiRmat أداءً أفضل من الأساليب الحالية الأخرى.


3 نتائج

تم تقييم الإصدارات المختلفة من RNATracker على مجموعتي بيانات التوطين الخلوي mRNA. تم الحصول على الأول بواسطة CeFra-seq في خلايا HepG2 ، ويحتوي على 11373 نسخة تم تحليلها في الأجزاء النووية والخلوية والأغشية والكسور غير القابلة للذوبان (Benoit Bouvrette وآخرون.، 2018). تم إنتاج الثانية باستخدام APEX-RIP على خلايا HEK 293 T ، وتحتوي على 13860 تم تحليلها في الكسور ER ، والميتوكوندريا ، والخلوي الخلوي والنووي (Kaewsapsak وآخرون.، 2017). يوضح الشكل 3 توزيع قيم التوطين الطبيعي لكل من الكسور الخلوية الأربعة CeFra-seq ، مما يؤكد الملاحظة التي تم إجراؤها مسبقًا بأن الكسور السيتوبلازمية والنووية وغير القابلة للذوبان تحتوي على عدد أكبر من النصوص المترجمة بشدة ، مقارنةً بكسر الغشاء. ترتبط قيم التوطين الطبيعي للكسور المختلفة بشكل سلبي بشكل عام ، باستثناء كسور العصارة الخلوية والغشائية ، والتي ترتبط ارتباطًا إيجابيًا بشكل غير مفاجئ بسبب التشارك الفيزيائي (الشكل التكميلي S2). سيكون لهذا عواقب مهمة على النتائج المقدمة لاحقًا. علاوة على ذلك ، تميل النصوص المترجمة إلى العصارة الخلوية إلى أن تكون أقصر. انظر أيضًا الشكلين التكميليين S3 و S4 للتحليلات المماثلة لبيانات APEX-RIP.

إحصائيات موجزة لمجموعة بيانات CeFra-Seq. (أ) توزيع قيم التوطين المقيسة لكل جزء تحت خلوي. (ب) عدد ومتوسط ​​طول النصوص التي يكون توطينها السائد في كل من الكسور الأربعة

إحصائيات موجزة لمجموعة بيانات CeFra-Seq. (أ) توزيع قيم التوطين المقيسة لكل جزء تحت خلوي. (ب) عدد ومتوسط ​​طول النصوص التي يكون توطينها السائد في كل من الكسور الأربعة

3.1 أداء RNATracker

استخدمنا التحقق المتقاطع 10 أضعاف لتقييم أداء الإصدارات المختلفة من RNATracker والمتنبئين الأساسيين لملف تعريف k-mer ، في كل من مجموعات بيانات CeFra-seq و APEX-RIP. للحد من العبء الحسابي ، تم إجراء تحليلات أكثر تفصيلاً لبعض مكونات النموذج الرئيسية مثل أوزان الانتباه وزخارف التسلسل المكتسبة حصريًا على مجموعة بيانات CeFra-Seq.

يقارن الشكل 4 قيم التوطين الحقيقية بتلك التي تنبأ بها RNATracker على مجموعة بيانات ceFra-seq (انظر الشكل التكميلي S5 لتحليل مجموعة بيانات APEX-RIP). تختلف معاملات الارتباط التي تم الحصول عليها من 0.54 للكسور النووية والغشائية إلى 0.705 لفصيل السيتوبلازم ، وكلها تختلف اختلافًا كبيرًا عن الصفر (ص-القيمة ≈ 0). في بيانات APEX-RIP ، تكون الدقة أقل قليلاً ، وتتراوح من 0.456 (جزء نووي) إلى 0.626 (ER) ، ولكن مرة أخرى جميعها ذات أهمية عالية (ص-القيمة ≈ 0).

RNATrackerفيما يليها تنبؤات مجموعة بيانات CeFra-Seq بواسطة الكسور ، مدربة بنصوص كاملة الطول. كل نقطة عبارة عن نسخة مكتوبة بقيمة الترجمة الحقيقية الموضحة على ملف x-المحور والقيمة المتوقعة المعروضة على ذ-محور. (أ) جزء عصاري خلوي (ب) جزء الانصهار (ج) جزء الغشاء (د) جزء نووي

RNATrackerفيما يليها تنبؤات لمجموعة بيانات CeFra-Seq بواسطة الكسور ، مدربة بنصوص كاملة الطول. كل نقطة عبارة عن نسخة مكتوبة بقيمة الترجمة الحقيقية الموضحة على ملف x-المحور والقيمة المتوقعة المعروضة على ذ-محور. (أ) جزء عصاري خلوي (ب) جزء الانصهار (ج) جزء الغشاء (د) جزء نووي

يقارن الجدول 1 معاملات ارتباط بيرسون بين قيم التوطين التجريبية والمتوقعة للطيات المدمجة ، التي تم الحصول عليها بواسطة متنبئين مختلفين. هذا يكشف عن عدة ملاحظات. أولاً ، لكل من مجموعات البيانات وعبر جميع الكسور ، يتم الحصول على أفضل النتائج باستخدام RNATracker المطبق على متواليات كاملة الطول (أي بدون تقليم / حشو) وبدون معلومات بنية ثانوية لـ RNA. تكون معاملات الارتباط هذه أعلى بنسبة 10-25٪ باستمرار من تلك التي تم الحصول عليها بواسطة الشبكة العصبية القائمة على k-mer ، وأعلى بنسبة 2-14٪ من تلك التي تم الحصول عليها بواسطة RNATracker التي تعمل على متواليات ثابتة الطول. تعتبر المكاسب مقارنة بالتسلسلات ذات الطول الثابت ذات أهمية خاصة لجزء الغشاء (CeFra-seq) و ER (APEX-RIP) ، مما يشير إلى أن التوطين لتلك الكسور قد يتم توسطه غالبًا عن طريق التسلسلات الموجودة في نهاية 5 من النص. هذا أمر منطقي لأن استهداف غشاء ER معروف بأنه يتم التوسط فيه من خلال تسلسل الإشارة الذي يمكن العثور عليه في mRNAs التي تشفر البروتينات المفرزة (Hermesh and Jansen ، 2013). نلاحظ أيضًا أن المتغيرين اللذين يستخدمان معلومات البنية الثانوية للحمض النووي الريبي يؤديان باستمرار بنسبة 1-3٪ أسوأ من الإصدار الذي يستخدم معلومات التسلسل وحدها (يتم إجراء التحليل فقط في إعداد الطول الثابت ، لأسباب تتعلق بوقت التشغيل).

معاملات ارتباط بيرسون عن طريق الكسر الخلوي لمختلف إعدادات النموذج والإدخال. الأرقام بالخط العريض هي الحد الأقصى لصفهم

. . مدخلات RNA كاملة الطول. مدخلات ذات طول ثابت (4 كيلو بايت). 5Mer المدخلات.
مجموعة البيانات. حجرة . RNATrackerفيما يليها . NoLSTM. RNATrackerفيما يليها . أي اهتمام . تسلسل + هيكل. Seq × هيكل. DNN-5Mer. NN-5
سيفرا تسلسل العصارة الخلوية 0.7050.676 0.685 0.625 0.666 0.652 0.637 0.558
لا يتحلل في الماء 0.6410.626 0.619 0.557 0.604 0.591 0.552 0.478
غشاء 0.5400.509 0.469 0.306 0.451 0.409 0.421 0.384
نووي 0.5420.515 0.502 0.379 0.475 0.449 0.485 0.432
APEX-RIP ER 0.6260.554 0.485 0.150 0.469 0.394 0.407 0.368
ميتوكوندريا 0.4820.449 0.423 0.139 0.376 0.320 0.292 0.224
العصارة الخلوية 0.5610.522 0.501 0.259 0.493 0.423 0.446 0.363
نووي 0.4560.402 0.397 0.235 0.384 0.338 0.332 0.238
. . مدخلات RNA كاملة الطول. مدخلات ذات طول ثابت (4 كيلو بايت). 5Mer المدخلات.
مجموعة البيانات. حجرة . RNATrackerفيما يليها . NoLSTM. RNATrackerفيما يليها . أي اهتمام . تسلسل + هيكل. Seq × هيكل. DNN-5Mer. NN-5
سيفرا تسلسل العصارة الخلوية 0.7050.676 0.685 0.625 0.666 0.652 0.637 0.558
لا يتحلل في الماء 0.6410.626 0.619 0.557 0.604 0.591 0.552 0.478
غشاء 0.5400.509 0.469 0.306 0.451 0.409 0.421 0.384
نووي 0.5420.515 0.502 0.379 0.475 0.449 0.485 0.432
APEX-RIP ER 0.6260.554 0.485 0.150 0.469 0.394 0.407 0.368
ميتوكوندريا 0.4820.449 0.423 0.139 0.376 0.320 0.292 0.224
العصارة الخلوية 0.5610.522 0.501 0.259 0.493 0.423 0.446 0.363
نووي 0.4560.402 0.397 0.235 0.384 0.338 0.332 0.238

ملحوظة: NoLSTM و NoAttention هما اختبارا الاجتثاث بدون LSTM ثنائي الاتجاه أو وحدة الانتباه.

معاملات ارتباط بيرسون عن طريق الكسر الخلوي لمختلف إعدادات النموذج والإدخال. الأرقام بالخط العريض هي الحد الأقصى لصفهم

. . مدخلات RNA كاملة الطول. مدخلات ذات طول ثابت (4 كيلو بايت). 5Mer المدخلات.
مجموعة البيانات. حجرة . RNATrackerفيما يليها . NoLSTM. RNATrackerفيما يليها . أي اهتمام . تسلسل + هيكل. Seq × هيكل. DNN-5Mer. NN-5
سيفرا تسلسل العصارة الخلوية 0.7050.676 0.685 0.625 0.666 0.652 0.637 0.558
لا يتحلل في الماء 0.6410.626 0.619 0.557 0.604 0.591 0.552 0.478
غشاء 0.5400.509 0.469 0.306 0.451 0.409 0.421 0.384
نووي 0.5420.515 0.502 0.379 0.475 0.449 0.485 0.432
APEX-RIP ER 0.6260.554 0.485 0.150 0.469 0.394 0.407 0.368
ميتوكوندريا 0.4820.449 0.423 0.139 0.376 0.320 0.292 0.224
العصارة الخلوية 0.5610.522 0.501 0.259 0.493 0.423 0.446 0.363
نووي 0.4560.402 0.397 0.235 0.384 0.338 0.332 0.238
. . مدخلات RNA كاملة الطول. مدخلات ذات طول ثابت (4 كيلو بايت). 5Mer المدخلات.
مجموعة البيانات. حجرة . RNATrackerفيما يليها . NoLSTM. RNATrackerفيما يليها . أي اهتمام . تسلسل + هيكل. Seq × هيكل. DNN-5Mer. NN-5
سيفرا تسلسل العصارة الخلوية 0.7050.676 0.685 0.625 0.666 0.652 0.637 0.558
لا يتحلل في الماء 0.6410.626 0.619 0.557 0.604 0.591 0.552 0.478
غشاء 0.5400.509 0.469 0.306 0.451 0.409 0.421 0.384
نووي 0.5420.515 0.502 0.379 0.475 0.449 0.485 0.432
APEX-RIP ER 0.6260.554 0.485 0.150 0.469 0.394 0.407 0.368
ميتوكوندريا 0.4820.449 0.423 0.139 0.376 0.320 0.292 0.224
العصارة الخلوية 0.5610.522 0.501 0.259 0.493 0.423 0.446 0.363
نووي 0.4560.402 0.397 0.235 0.384 0.338 0.332 0.238

ملحوظة: NoLSTM و NoAttention هما اختبارا الاجتثاث بدون LSTM ثنائي الاتجاه أو وحدة الانتباه.

تمت مقارنة RNATracker القائم على LSTM أيضًا بنموذج CNN النقي (NoLSTM) ، مما كشف عن زيادة ثابتة بنسبة 3-7 ٪ في معاملات الارتباط بسبب مكون LSTM. وبالمثل ، تم تقييم إصدار من RNATracker بدون وحدة الانتباه ولكن كان أداؤه أسوأ بكثير من نظيره القائم على الانتباه (خاصة على بيانات APEX-RIP ، حيث يتراوح الفرق من 25٪ إلى 30٪). تظهر هذه النتائج أن كلاً من LSTM وطبقات الانتباه ضروريان للحصول على دقة تنبؤ جيدة. ومع ذلك ، فإن وقت التدريب الأقصر بشكل كبير يجعل التدريب ذو الطول الثابت بديلاً قابلاً للتطبيق عندما تكون الموارد محدودة.

قمنا بعد ذلك بتقييم قدرة RNATracker على تحديد الترجمة السائدة لنسخة معينة ، والتي تم تعريفها على أنها الكسر حيث يكون تعبير النص هو الأعلى. بدلاً من إعادة تدريب RNATracker على مهمة التصنيف الجديدة هذه ، قمنا ببساطة بتحويل هذا الانحدار إلى مصنف بجعله ينتج الكسر بأعلى قيمة توطين متوقعة. يشير الشكل التكميلي S6 إلى خصائص تشغيل المستقبِل (ROC) ومنحنيات الاسترجاع الدقيق (PR) لكل متنبئ ، متوسط ​​الصغر عبر الكسور الأربعة. تمشيا مع النتائج في مهمة الانحدار ، تم تدريب RNATracker بتسلسلات كاملة الطول بشكل طفيف على جميع الطرز الأخرى ، على الرغم من وجود هامش ضيق مقارنة بالإصدار ذي الطول الثابت. تؤكد هذه النتائج أيضًا الفائدة القوية لوحدة الانتباه ، والتأثير الضار قليلاً لتضمين معلومات البنية الثانوية للحمض النووي الريبي. يمكن إجراء ملاحظات مماثلة لمجموعة بيانات APEX-RIP (الشكل التكميلي S7).

لتوضيح الفرق بين النماذج المختلفة بشكل أفضل ، استخدمنا اختبار Delong من حزمة R pROC (Robin وآخرون.، 2011) لمقارنة منحنيات ROC ، مما يؤكد أن مكاسب الأداء من الإصدار الثابت إلى الإصدار الكامل ذو دلالة إحصائية (ص- القيمة = 6.1 × 10 - 9 ⁠) ، وكذلك فوائد LSTM ووحدة الانتباه (كلاهما ص- القيم & lt 2.2 × 10 - 16).

نظرًا لأدائها المتفوق قليلاً ، بالنسبة لبقية هذا القسم ، نركز على تحليل RNATracker بتسلسلات إدخال كاملة الطول ولكن بدون بنية ثانوية لـ RNA ، ومع LSTM وطبقات الانتباه. يوضح الشكل التكميلي S6 C و D أداء التنبؤ لكل جزء خلوي. تمشيا مع نتائج الارتباط الموضحة سابقًا في الشكل 4 ، تتمتع RNATracker بأفضل أداء لجزء العصارة الخلوية (ROC AUC = 0.851 ، PR AUC = 0.716) ، أفضل قليلاً من النتائج على الفصائل غير القابلة للذوبان والنووية ، وأفضل بكثير من تلك الموجودة على الغشاء جزء. عدة عوامل قد تفسر هذه الاختلافات. أولاً ، تم العثور على عدد قليل جدًا من النصوص (∼1000) في الغالب في جزء الغشاء ، ولا يوجد تقريبًا أي منها يحتوي على قيمة توطين غشاء أكبر من 0.5 (انظر الشكل 3 أ). ثانيًا ، تميل النصوص المترجمة في الغالب إلى الجزء السيتوبلازمي إلى أن تكون أقصر بكثير من غيرها (انظر الشكل 3 ب) ، وهو دليل يستفيد منه المتنبئ.

3.2 تشريح وحدة الانتباه

كما هو موضح سابقًا ، فإن آلية الانتباه مفيدة للتنبؤ بملفات تعريف الترجمة. لفهم دورها بشكل أفضل ، درسنا كيف يرجح الانتباه αأنا تختلف على طول التسلسل ، تحت إعداد الطول الثابت. يوضح الشكل 5 أن معظم وزن الانتباه يتركز عند ∼400 nt في 3 نهاية النص. من المحتمل أن يكون سبب هذا عاملين. أولا ، قلة تتميز جيدا رابطة الدول المستقلة- تميل عناصر تنظيم التعريب إلى أن تكون موجودة في 3 UTR (Chin and Lecuyer ، 2017) ، لذلك من المحتمل أن يكون هذا هو المكان الذي توجد فيه الإشارة الأكثر أهمية. ثانيًا ، يتم دائمًا تقديم الحشو الصفري الذي يتم إدخاله في النصوص الأقصر من 4 كيلو بايت في النهاية 5 ، مما يجعل هذه المنطقة أقل إفادة بشكل عام. ومع ذلك ، تجدر الإشارة إلى أن RNATracker قادر تمامًا على تحديد الرموز البريدية الموجودة خارج تلك المنطقة (انظر الشكل التكميلي S1).

أوزان الانتباه αأنا، بالنسبة إلى RNATracker مع مدخلات ذات طول ثابت ، يتم حساب متوسطها على النصوص المترجمة في الغالب إلى كل من الكسور الأربعة ، كدالة للموضع في النص

أوزان الانتباه αأنا، بالنسبة إلى RNATracker مع مدخلات ذات طول ثابت ، يتم حساب متوسطها على النصوص المترجمة في الغالب إلى كل من الكسور الأربعة ، كدالة للموضع في النص

3.3 تحليل الزخارف المتسلسلة

الأوزان التي تعلمتها المرشحات البالغ عددها 32 مرشحًا من طبقة CNN الأولى تشبه مصفوفات وزن الموضع المستخدمة في تحليل التسلسل الكلاسيكي. استخدمنا weblogo (Crooks وآخرون.، 2004) لتصور الزخارف المكتسبة ، و Tomtom (Bailey وآخرون.، 2009) لتعيين الزخارف المكتسبة لتفضيلات ربط RBPs المعروفة (Ray وآخرون.، 2013) (مع الأخذ في الاعتبار التحذير القائل بأن هذا كتالوج غير مكتمل وأن الزخارف المطابقة لممارسات RBPs عرضة للخطأ). تم العثور على ما مجموعه 9 من 30 مرشحات تلافيفية لتطابق ملف تعريف الارتباط لـ RBP معروف (Tomtom ص- القيمة & لتر 0.05). يتم عرض أمثلة تمثيلية في الشكل 6 أ ، مع تطابق قوي مع RBPs TIA1 (ص-القيمة = 7.63 × 10-4) و BRUNOL5 (ص- القيمة = 1.64 × 10 - 6 ⁠).

(أ) تصور نماذج التسلسل المكتسبة المختارة (أعلاه) المعينة لتلك الخاصة بـ RBPs المعروفة (أدناه) من Ray وآخرون. (2013) التي هي TIA1 (أعلى) و BRUNOL5 (أسفل). (ب) تجميع هرمي لـ 32 مرشحًا مع 1024 نصًا مترجمًا بشدة (256 نسخة لكل جزء) ، باستخدام مسافة جيب التمام بين متجهات 1024 بعدًا لمتوسط ​​قيم التنشيط ، بمتوسط ​​طول النص

(أ) تصور نماذج التسلسل المكتسبة المختارة (أعلاه) المعينة لتلك الخاصة بـ RBPs المعروفة (أدناه) من Ray وآخرون. (2013) التي هي TIA1 (أعلى) و BRUNOL5 (أسفل). (ب) تجميع هرمي لـ 32 مرشحًا مع 1024 نصًا مترجمًا بشدة (256 نسخة لكل جزء) ، باستخدام مسافة جيب التمام بين متجهات 1024 بعدًا لمتوسط ​​قيم التنشيط ، بمتوسط ​​طول النص

لفهم دور الأشكال الـ 32 التي تعلمتها RNATracker بشكل أفضل ، والطريقة التي تجمعها بها للحصول على تنبؤات ، قمنا بتجميعها بناءً على تكراراتها المشتركة عبر مجموعة فرعية من 1024 نسخة تتكون من 256 نسخة مترجمة بشدة لكل منها من الكسور الأربعة. تظهر مجموعتان عريضتان من الزخارف. يحتوي الجزء الأول (النصف العلوي من خريطة الحرارة) على العديد من الأشكال الغنية بـ C / G بالإضافة إلى أشكال أكثر تعقيدًا ، والتي ترتبط ارتباطًا وثيقًا بالنصوص السيتوبلازمية. يتميز النصف الثاني (النصف السفلي من خريطة الحرارة) ، بزخارف غنية بـ A / U ، بالإضافة إلى مكررات ثنائي النوكليوتيد A / G أو U-G ، والتي توجد في الغالب في نسخ من الكسور النووية وغير القابلة للذوبان.

لدراسة كيفية استخدام RNATracker لأشكال التسلسل الفردية للحصول على تنبؤات التوطين الخاصة به ، قمنا بشكل متكرر بتصفية مخرجات جميع المرشحات باستثناء واحدة ، وحسبنا معامل ارتباط Pearson بين قيم التوطين المتوقعة في النموذج الكامل والصفري ، بشكل منفصل من أجل كل جزء. بهذه الطريقة ، نحن قادرون على عزل مساهمة كل مرشح التفاف واحد بشكل فظ في التنبؤ النهائي.

3.4 تحديد موقع الرموز البريدية داخل النصوص

يُعتقد عمومًا أن توطين الحمض النووي الريبي دون الخلوي مرتبط بوجود عناصر تنظيمية متجاورة منفصلة تسمى الرموز البريدية الخاصة بالتوطين. من خلال إخفاء أجزاء صغيرة من النص بشكل متكرر ودراسة كيفية تغير التوطين المتوقع ، يمكن للمرء تحديد الرموز البريدية المرشحة ، والتي يتم تحديدها على أنها مناطق يغير إخفاءها بشكل كبير تنبؤات التوطين (انظر القسم 2 والشكل التكميلي S1 للحصول على أمثلة على نصوص محددة).يمكن أيضًا تعيين رمز بريدي مرشح لتسمية محسّنة أو قمعية لكسر معين ، اعتمادًا على ما إذا كان إخفاءه يؤدي إلى تقليل أو زيادة درجة التوطين المتوقعة لهذا الكسر. يوضح الشكل 7 عدد مناطق الرمز البريدي الإيجابية والسلبية المحددة عند مستويات صرامة مختلفة (قطع KL). عند قطع KL البالغ 0.0075 ، نحدد 374 رمزًا بريديًا إيجابيًا فريدًا ، ولكن فقط 167 رمزًا بريديًا سلبيًا فريدًا.

العدد (على اليسار) والحفظ بين الأنواع [تم قياسه باستخدام إحصائيات KS (يمين) لتحسين مناطق الرمز البريدي المرشحة القمعية المحددة عند نقاط فاصلة صارمة على نحو متزايد في KL]

العدد (على اليسار) والحفظ بين الأنواع [تم قياسه باستخدام إحصائيات KS (يمين) لتحسين مناطق الرمز البريدي المرشحة القمعية المحددة عند نقاط فاصلة صارمة على نحو متزايد في KL]

نظرًا لأن عدد الرموز البريدية التي تم تمييزها تجريبيًا صغير جدًا (أقل من اثني عشر رموزًا في الإنسان) ، فقد كان علينا الاعتماد على مقاييس غير مباشرة لتقييم صحة عناصر الرمز البريدي المتوقعة. نظرًا لدورها المهم في تنظيم التعبير الجيني المناسب ، نتوقع أن تكون معظم الرموز البريدية قيد الاختيار السلبي ، وبالتالي يتم الحفاظ عليها بدرجة أكبر عبر الأنواع أكثر من المناطق المجاورة لها. وهكذا استخدمنا درجة الحفاظ على PhyloP (Pollard وآخرون.، 2010) ، محسوبة من محاذاة الجينوم المتعددة لـ 100 من الفقاريات والمتاحة من متصفح الجينوم UCSC (Haeussler وآخرون.، 2019). بالتركيز على 2392 نسخة تظهر توطينًا خلويًا قويًا (أقصى قيمة توطين و gt0.5) ، قمنا بمقارنة توزيع متوسط ​​درجات PhyloP ضمن أعلى 541 رمزًا بريديًا متوقعًا لتوزيع نقاط PhyloP للمناطق ذات 3 UTRs التي لا يُتوقع أن تكون أكواد zipcodes (الشكل الشكل 1). 8). في حين أن التوزيعين يتداخلان إلى حد كبير ، فإن درجات الحفظ الكبيرة (& gt1) أكثر تكرارًا مرتين تقريبًا في الرموز البريدية المرشحة مقارنة بأي مكان آخر ، والتوزيعان لهما وسائل مختلفة بشكل كبير [ص-قيمة قريبة من الصفر باستخدام اختبار Kolmogorov – Smirnov (KS)]. يوضح هذا أن الرموز البريدية المتوقعة تخضع لاختيار سلبي أقوى من بقية UTRs الثلاثة ، على الرغم من أن هذا قد يكون ناتجًا عن وظائف أخرى غير الترجمة. عند تغيير عتبة KL المستخدمة لتحديد الرموز البريدية ، نلاحظ أنه تم الحصول على إحصائيات أعلى لـ KS (أي قيم حفظ أعلى بين الأنواع) لمعظم توقعات الثقة لدينا (الشكل 7). مع التحذير المذكور أعلاه ، يشير هذا إلى أنه يمكن استخدام درجة KL الخاصة بـ RNATracker كمؤشرات لموثوقية التنبؤ بالرمز البريدي.

من المتوقع أن يكون توزيع متوسط ​​درجات PhyloP لـ 541 منطقة عبارة عن عناصر رمز بريدي (درجة KL ≤ 0.0076 ، باللون الأزرق) و 3688436 منطقة من المتوقع ألا تكون (درجة KL ≤ 0.0076 ، باللون الأحمر). تشير الخطوط العمودية المنقطة إلى متوسط ​​التوزيعين

من المتوقع أن يكون توزيع متوسط ​​درجات PhyloP لـ 541 منطقة عبارة عن عناصر رمز بريدي (درجة KL ≤ 0.0076 ، باللون الأزرق) و 3688436 منطقة من المتوقع ألا تكون (درجة KL ≤ 0.0076 ، باللون الأحمر). تشير الخطوط العمودية المنقطة إلى متوسط ​​التوزيعين


المواد والأساليب

جمع البيانات

تسلسل الترميز

تسلسل الترميز (CDS) من خميرة الخميرة تم تنزيل S288C من خادم FTP الخاص بالمركز الوطني لمعلومات التكنولوجيا الحيوية. بالنظر إلى أن التنبؤ بالبنى الثانوية للتسلسلات الطويلة يتطلب الكثير من الموارد ، فقد استبعدنا CDS أطول من 2000 nt. في المجموع ، تم الحصول على 5369 تسلسل.

الهياكل الثانوية مرنا المحددة تجريبيا

تم تنزيل البيانات من دراسة Kertesz وآخرون. (27) ، والتي قدمت تحليلًا متوازيًا لدرجات بنية الحمض النووي الريبي (PARS) في جميع المواقع والهياكل الثانوية المدعومة بـ PARS لـ 3002 CDS (2534 CDS أقصر من 2000 NT). تقيس درجة PARS احتمالية أن يكون النيوكليوتيد في شكل مزدوج الشريطة ، والذي يرتبط بشكل كبير بالحد الأدنى من الطاقة الحرة القابلة للطي (الشكل التكميلي S1).

وفرة البروتين

تم الحصول على بيانات وفرة البروتين من PaxDb (42). في المجموع ، 2974 بيانات حول س. الخباز تم استخدامها عند تحليل العلاقة بين درجة PARS ووفرة البروتين.

نقل أرقام نسخ الجينات RNA

نقل أرقام نسخ الجينات RNA (tRNA) من س. الخباز تم تنزيله من قاعدة بيانات الجينوم tRNA (43).

حساب قبل-قوة mF وقوة mF

قبلتم تعريف قوة -mF على أنها متوسط ​​احتمال الاقتران الأساسي المتوقع (PP) لـ CDS. تم توقع PPs لـ CDS بواسطة RNAfold في حزمة Vienna RNA (44) باستخدام المعلمات الافتراضية. أثناء الترجمة ، تم تعريف قوة mF على أنها متوسط ​​PP لـ CDS مع قيود ريبوزومية (انظر النص التالي).

العلاقة بين مسافة الريبوسوم وقوة mF

لاستبعاد تأثير المواضع الريبوزومية التي قمنا بتعيينها بشكل عشوائي ، تكررت العمليات المذكورة أعلاه خمس مرات ، وتم الحصول على القيمة المتوسطة لمسافة الريبوسوم من خلال حساب متوسط ​​القيم بنفس المسافة. بالإضافة إلى ذلك ، تم تقسيم جميع mRNAs إلى خمس مجموعات بناءً على قبل- قوة mF من الأعلى إلى المنخفض (G1 – G5) ، والتي تم استخدامها لاختبار ما إذا كان النمط الذي قدرناه خاصًا بالتسلسل.

حساب مؤشر تكيف الحمض الريبي النووي النقال

محاكاة عملية الترجمة من خلال مراعاة التفاعلات بين ترجمة الريبوسومات واستخدام الكودون والبنى الثانوية لمرنا

نموذج

مستوحاة من الدراسات السابقة التي أبلغت عن وجود علاقة إيجابية كبيرة بين متوسط ​​درجة PARS لـ CDS ووفرة البروتين (الشكل التكميلي S2) (17 ، 35) ، قررنا التحقيق في كيفية تأثير البنية الثانوية لـ mRNA على كفاءة الترجمة ، حيث يوجد العديد منها خطوط الأدلة في المختبر مما يكشف أن البنية الثانوية لـ mRNA تقلل من معدل الاستطالة. تحقيقا لهذه الغاية ، قمنا بتطوير نموذج حسابي جديد (الشكل 2) لمحاكاة عملية الترجمة. تنقسم عملية الترجمة إلى ثلاث مراحل: البدء والاستطالة والإنهاء. في نموذجنا ، تصل الريبوسومات إلى موقع البداية بمعدل بدء ⁠. في الكودون الأخير ، تفصل الريبوسومات البروتينات وتحررها بمعدل إنهاء ⁠. أثناء الاستطالة ، تتكون دورة الترجمة من خطوتين. الخطوة الأولى هي أن الحمض الريبي النووي النقال المشابه يصل إلى موقع الريبوسوم A (كودون i) بمعدل ⁠ ، وأن الريبوسوم يفك الأزواج الأساسية الموجودة في الكودون i + L / 2 (L مضبوط على 42 nt) مع معدل في وقت واحد. الخطوة الثانية هي الانتقال. معدل النقل سريع ومستقل عن الشفرة ، وبالتالي تم استخدام معدل ثابت. لذلك ، يتم تحديد معدل انتقال الريبوسوم من الكودون الحالي إلى الكودون التالي بواسطة و (انظر القسم الفرعي التالي للحصول على التفاصيل). علاوة على ذلك ، لا يمكن للريبوسوم أن ينتقل إذا احتل الريبوسوم السابق الكودون التالي. بالإضافة إلى ذلك ، يمكن للريبوسومات أن تلتقط الحمض النووي الريبوزي المشابه عندما ينتظرون الكودون التالي ليصبح شاغرًا.

الموديل. في نموذجنا ، تصل الريبوسومات إلى موقع بدء الترجمة بمعدل ⁠ ، وتطلق البروتينات بمعدل ⁠. أثناء الاستطالة ، تنتظر ترجمة الريبوسومات وصول الحمض الريبي النووي المشابه لها في الموضع i وفي نفس الوقت فك الأزواج الأساسية الموجودة في الموضع i + L / 2 (L = 42 nt). (أ) يُظهر الهيكل الذي يواجهه الريبوسوم الأول (الريبوسوم الأول أزرق). (ب) يوضح الهيكل الذي يواجهه الريبوسوم الثالث. يتم إضعاف البنية الثانوية للـ mRNA بسبب قيود الريبوسومات. في نموذجنا ، نفترض أن الريبوسومات المختلفة قد تواجه بنية ذات قوة طي مختلفة في نفس الموقع لأن نمط طي الرنا المرسال قد يتغير عندما ترتبط الريبوسومات بـ mRNA (انظر النص للحصول على التفاصيل).

الموديل. في نموذجنا ، تصل الريبوسومات إلى موقع بدء الترجمة بمعدل ⁠ ، وتطلق البروتينات بمعدل ⁠. أثناء الاستطالة ، تنتظر ترجمة الريبوسومات وصول الحمض الريبي النووي المشابه لها في الموضع i وفي نفس الوقت فك الأزواج الأساسية الموجودة في الموضع i + L / 2 (L = 42 nt). (أ) يوضح الهيكل الذي واجهه الريبوسوم الأول (الريبوسوم الأول أزرق). (ب) يوضح الهيكل الذي يواجهه الريبوسوم الثالث. يتم إضعاف البنية الثانوية للـ mRNA بسبب قيود الريبوسومات. في نموذجنا ، نفترض أن الريبوسومات المختلفة قد تواجه بنية ذات قوة طي مختلفة في نفس الموقع لأن نمط طي الرنا المرسال قد يتغير عندما ترتبط الريبوسومات بـ mRNA (انظر النص للحصول على التفاصيل).

الأهم من ذلك ، على عكس النماذج الأخرى التي تستخدم الهياكل الثانوية للـ mRNA الثابتة ، فإن نموذجنا يأخذ في الاعتبار الهياكل الديناميكية أثناء الترجمة ، مما يعني أن الريبوسومات المختلفة قد تخضع لقوة طي مختلفة في نفس الكودون (الشكل 2). يعتمد هذا الافتراض على اكتشافنا أن قوة الطي للمنطقة بين الريبوسومات المجاورة تعتمد بشدة على مسافة الريبوسومات (الشكل 3). علاوة على ذلك ، نركز على سلوك الطي للهيكل الثانوي للـ mRNA أثناء الاستطالة وتأثيره على مسافة الريبوسوم. تم التحكم في العوامل الأخرى التي تؤثر على مسافة الريبوسوم. لذلك ، تم استخدام معدل نسبي بدلاً من المعدل المطلق في النموذج. وضعنا قيمة عشوائية لـ ⁠. للحصول على معدل الاستطالة النسبي ، وتم ضربه بالأوزان و ⁠ على التوالي (انظر النص التالي للحصول على التفاصيل). ما لم يُذكر خلاف ذلك ، استخدمنا القيم المدرجة في الجدول 1 لجميع عمليات المحاكاة.

تباين قوة mF مقابل مسافة الريبوسوم. تم تقسيم جميع الرنا المرسال إلى خمس مجموعات (G1-G5) على أساسها قبل- قوة mF من الأعلى إلى الأقل. (أ) لا يوجد فرق كبير في (انظر قسم "المواد والطرق" لحساب) بين المجموعات الخمس عندما تكون مسافة الريبوسوم أطول من 5 nt. (ب) عندما تكون المسافة أقصر من 5 nt ، لا توجد بنية بين الريبوسومات المجاورة ، يتم تحديدها بواسطة قبل-قوة mF.

تباين قوة mF مقابل مسافة الريبوسوم. تم تقسيم جميع الرنا المرسال إلى خمس مجموعات (G1-G5) على أساسها قبل- قوة mF من الأعلى إلى الأقل. (أ) لا يوجد فرق كبير في (انظر قسم "المواد والطرق" لحساب ⁠) بين المجموعات الخمس عندما تكون مسافة الريبوسوم أطول من 5 nt. (ب) عندما تكون المسافة أقصر من 5 nt ، لا توجد بنية بين الريبوسومات المجاورة ، يتم تحديدها بواسطة قبل-قوة mF.

المعلمات المستخدمة في المحاكاة

معامل . قيمة . الأوصاف.
8 معدل (معدلات) البدء.
0.1 معدل (معدلات) الإنهاء.
0.5 وزن ⁠.
1.0 وزن ⁠.
0.12 / متنوع استقر وقتًا في رمز ناتج عن استخدام (استخدامات) الكودون. عند فحص وظيفة البنية الثانوية لـ mRNA دون مراعاة تأثير استخدام الكودون ، يتم استخدام معدل متساوٍ لجميع الكودونات (0.12). عند التحقيق في التأثير المشترك للهيكل الثانوي لـ mRNA واستخدام الكودون ، تعتمد قيمة على tAI الخاص بالكودون (مختلف).
متنوع استقر وقتًا في كودون ناتج عن بنية (هياكل) mRNA الثانوية. يعني مختلف أن القيمة تعتمد على PP من الكودون.
42 طول المنطقة مقيد بواسطة الريبوسوم (nt).
ثابت وقت (أوقات) النقل. وقت النقل يساوي وقت التشغيل الذي يتحرك فيه الريبوسوم من الكودون الحالي إلى التالي.
معامل . قيمة . الأوصاف.
8 معدل (معدلات) البدء.
0.1 معدل (معدلات) الإنهاء.
0.5 وزن ⁠.
1.0 وزن ⁠.
0.12 / متنوع استقر وقتًا في رمز ناتج عن استخدام (استخدامات) الكودون. عند فحص وظيفة البنية الثانوية لـ mRNA دون مراعاة تأثير استخدام الكودون ، يتم استخدام معدل متساوٍ لجميع الكودونات (0.12). عند التحقيق في التأثير المشترك للهيكل الثانوي لـ mRNA واستخدام الكودون ، تعتمد قيمة على tAI الخاص بالكودون (مختلف).
متنوع استقر وقتًا في كودون ناتج عن بنية (هياكل) mRNA الثانوية. يعني مختلف أن القيمة تعتمد على PP من الكودون.
42 طول المنطقة مقيد بواسطة الريبوسوم (nt).
ثابت وقت (أوقات) النقل. وقت النقل يساوي وقت التشغيل الذي يتحرك فيه الريبوسوم من الكودون الحالي إلى التالي.

المعلمات المستخدمة في المحاكاة

معامل . قيمة . الأوصاف.
8 معدل (معدلات) البدء.
0.1 معدل (معدلات) الإنهاء.
0.5 وزن ⁠.
1.0 وزن ⁠.
0.12 / متنوع استقر وقتًا في رمز ناتج عن استخدام (استخدامات) الكودون. عند فحص وظيفة البنية الثانوية لـ mRNA دون مراعاة تأثير استخدام الكودون ، يتم استخدام معدل متساوٍ لجميع الكودونات (0.12). عند التحقيق في التأثير المشترك للهيكل الثانوي لـ mRNA واستخدام الكودون ، تعتمد قيمة على tAI الخاص بالكودون (مختلف).
متنوع استقر وقتًا في كودون ناتج عن بنية (هياكل) mRNA الثانوية. يعني مختلف أن القيمة تعتمد على PP من الكودون.
42 طول المنطقة مقيد بواسطة الريبوسوم (nt).
ثابت وقت (أوقات) النقل. وقت النقل يساوي وقت التشغيل الذي يتحرك فيه الريبوسوم من الكودون الحالي إلى التالي.
معامل . قيمة . الأوصاف.
8 معدل (معدلات) البدء.
0.1 معدل (معدلات) الإنهاء.
0.5 وزن ⁠.
1.0 وزن ⁠.
0.12 / متنوع استقر وقتًا في رمز ناتج عن استخدام (استخدامات) الكودون. عند فحص وظيفة البنية الثانوية لـ mRNA دون مراعاة تأثير استخدام الكودون ، يتم استخدام معدل متساوٍ لجميع الكودونات (0.12). عند التحقيق في التأثير المشترك للهيكل الثانوي لـ mRNA واستخدام الكودون ، تعتمد قيمة على tAI الخاص بالكودون (مختلف).
متنوع استقر وقتًا في كودون ناتج عن بنية (هياكل) mRNA الثانوية. يعني مختلف أن القيمة تعتمد على PP من الكودون.
42 طول المنطقة مقيد بواسطة الريبوسوم (nt).
ثابت وقت (أوقات) النقل. وقت النقل يساوي وقت التشغيل الذي يتحرك فيه الريبوسوم من الكودون الحالي إلى التالي.

المعلمات المطلوبة للمحاكاة

استخدمنا الخيوط المتعددة في Perl 5.12 (الملفات التكميلية: Simulation.pl) لمحاكاة عملية الترجمة (الشكل 2 والشكل التكميلي S3). المعلمات المطلوبة للمحاكاة هي:

معدل البدء (⁠⁠): على الرغم من أن معدل بدء mRNA الفردي قد تم تقديره من خلال الدراسات السابقة بناءً على كثافة الريبوسوم أو استخدام الكودون (39 ، 48) ، فقد حددنا معدلًا متساويًا لجميع الرنا المرسال لاستبعاد تأثير معدل البدء على الريبوسوم كثافة.

معدل الإنهاء (): من المفترض أن تكون عملية الإنهاء سريعة مقارنة بالعمليات الأخرى (مثل الاستطالة) (49). لذلك ، تم إهمال تأثير الإنهاء. تم استخدام معدل ثابت (0.1 ثانية) لجميع الرنا المرسال.

أين هي قيمة تكيف كودون k. خاصه، من كودون CGA كبير جدًا (الجدول التكميلي S1) مقارنة بالآخرين. لذلك ، تم استبعاد هذا الرمز عند حساب كل كودون. من هذا الرمز تم تعيينه ليكون مساويًا للقيمة القصوى لـ (1.0 ، الجدول التكميلي S1). بالإضافة إلى ذلك ، عند التحقيق في وظائف البنية الثانوية للـ mRNA دون مراعاة تأثير استخدام الكودون ، تكون قيم جميع الكودونات متساوية ويتم ضبطها على 0.12 (الجدول 1).

معدل النقل (⁠⁠): أثناء المحاكاة ، تم تعيين معدل النقل ليكون مساويًا لوقت التشغيل الذي يتحرك فيه الريبوسوم من الكودون الحالي إلى الكودون التالي. الوقت قصير جدًا (الشكل التكميلي S5) وبالتالي يتم التعامل معه على أنه "ثابت".

تقدير المعلمات

لكل مرنا ، قمنا بمحاكاة عمليات ترجمة لـ 60 ريبوسوم. بشكل عام ، تصل الترجمة إلى الحالة المستقرة (يظل عدد الريبوسومات على الرنا المرسال دون تغيير ، الشكل التكميلي S6) عندما ينفصل الريبوسوم العاشر. قدرنا المعلمات من خلال حساب متوسط ​​قيم 11 ريبوسوم (من 30 إلى 40 ريبوسوم ، الملفات التكميلية: Para.pl و Pause.pl). المعلمات هي عدد الريبوسومات لكل مرنا ، المسافة بين الريبوسومات المجاورة ، يعني وقت الإقامة في كل كودون (متوسط ​​القيم في نفس موضع الرنا المرسال) ، الوقت الذي يكمل فيه الريبوسوم دورة الترجمة (وقت الترجمة) ، يعني الوقت المنقضي بعد بدء (وقت الاستطالة ، متوسط ​​القيم في نفس موضع mRNAs) ، ومواقع الإيقاف المؤقت والنسبة المئوية لمواقع التصادم لكل mRNA والعلامة في كل كودون (متوسط ​​القيم في نفس موضع mRNAs). هنا ، استخدمنا علمًا لتسجيل ما إذا كان يتم استخدام البنية الثانوية لـ mRNA أثناء الاستطالة. إذا حددت البنية الثانوية لـ mRNA المعدل عند كودون (⁠⁠ ، يتم تعيين العلم في هذا الرمز على 1 ، وإذا كان المحدد هو استخدام الكودون (⁠⁠ ، يتم تعيين العلم على 2.

حساب الارتباط

جميع الارتباطات الواردة في هذه الدراسة هي ارتباطات رتبة سبيرمان.


ملاحظة الناشر: تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.

الشكل التكميلي 1 عناصر تحكم DMS-seq وتغييرات هيكل mRNA أثناء MZT.

أعرض تخطيطي ل في الجسم الحي و في المختبر فحص DMS على مستوى الجينوم. تمثل النجوم الحمراء النيوكليوتيدات المعدلة بـ DMS. ب، كارتون يظهر بروتوكول DMS-seq. تسلط الخطوط المتقطعة الضوء على تحديد الحجم الثاني الذي يلتقط منتجات النسخ العكسي التي تتوقف قبل الأوان بسبب تعديلات DMS. ج، نسبة قراءة DMS-seq من النيوكليوتيدات المعدلة DMS في الجسم الحي بسرعة 2 حصان (+ DMS) (انظر الطرق). د, ه، بيانات DMS-seq قابلة للتكرار عبر التكرارات البيولوجية في كل نسخة (د) والنيوكليوتيدات (ه) قرارات في الجسم الحي في 2 حصان F، تم التحقق من صحة الهيكل الثانوي لـ رباعية الغشاء ribozyme (Rz) (مقتبس من Walter، N.، Woodson، R. T. & amp Batey، R. T. RNAs غير البروتين. (Springer Science & amp Business Media ، 2008). في اللوحات المكبرة (المقابلة للمناطق P2 و P9 و P4-5-6) ، تمت إضافة إمكانية الوصول إلى DMS-seq على الهياكل الثانوية المعروفة. في الجزء الأوسط العلوي من الشكل ، يمثل مخطط الصندوق الاتساق بين إمكانية الوصول وحالة الاقتران بالنيوكليوتيدات. ص-قيمة محسوبة باستخدام جانب واحد مان ويتني يو-test (ss، ن = 66 دس ، ن = 89). المربع يمتد أولاً إلى الربع الأخير والشعيرات تمثل 1.5 × النطاق الربيعي. ز, في الجسم الحي ملف تعريف إمكانية الوصول الخاص بـ dgcr8 مرنا. يتم تمييز إمكانيات الوصول المقابلة للهياكل الثانوية المحفوظة المشروحة (المستطيلات الرمادية). يتم عرض الهيكل الثانوي المفصل أيضًا ، حيث في الجسم الحي تم تراكب إمكانيات الوصول للقواعد A و C ، بينما تم تصوير Gs و Us باللون الأبيض. ح، مربع مؤامرة مقارنة توزيع في الجسم الحي إمكانيات الوصول وحالة الاقتران لقواعد A و C الموجودة في ثلاثة هياكل ثانوية محفوظة تستخدم كعناصر تحكم (selt1a, سلت 2 و dgcr8). ص-قيمة محسوبة باستخدام جانب واحد مان ويتني يو-test (ss، ن = 41 دس ، ن = 59). المربع يمتد أولاً إلى الربع الأخير والشعيرات تمثل 1.5 × النطاق الربيعي. أنا، مقارنات لإمكانية الوصول العالمية DMS-seq لكل نسخة بين التكرارات (يسار ، ن = 899) وعبر مراحل النمو (يمين ، ن = 1309). معاملات ارتباط سبيرمان (رو) و ص- يتم عرض القيم. ي، نسبة النوافذ ذات التنظيم التفاضلي (انظر الطرق) عبر المراحل التنموية الثلاثة ، معبرًا عنها كنسبة مئوية من النوافذ الهيكلية التفاضلية - المرتبطة بإجمالي النوافذ التي تم تحليلها - (أسود) ، والنسبة المئوية لتحليل mRNAs التي تحتوي على هذه النوافذ (رمادي). ك، نسبة النوافذ ذات التنظيم التفاضلي التي تزيد (البرتقالية) أو النقصان (الفيروز) في بنية الحمض النووي الريبي ، لكل مقارنة زوجية ، بناءً على اتجاهية تغييرها في مؤشر جيني. يتم تحديد اتجاه التغيير فيما يتعلق بآخر مرحلة تطورية ، لكل مقارنة زوجية. ل، الارتباط بين التغييرات لكل نص في كفاءة الترجمة وإمكانية الوصول لكل منطقة نص (5’-UTR (663) ، CDS (1337) و 3’-UTR (1،050)) بين 2 و 6 حصان. معاملات ارتباط سبيرمان (رو) و ص- يتم عرض القيم

الشكل التكميلي 2 يقوم الريبوسومات بفك هياكل الحمض النووي الريبي في 5 UTR و CDS ، بما في ذلك المنطقة المحيطة بـ AUG.

أ، التوزيعات التراكمية لإمكانيات الوصول العالمية للنيوكليوتيدات الخمسين المنبع من AUG (2،110) ، CDS (2526) أو 50 نيوكليوتيدًا في اتجاه مجرى كودون STOP (2،364) معروضة من أجل في الجسم الحي (أعلى)، في المختبر (وسط) و في الجسم الحي ضد في المختبر (أسفل) عينات بقوة 2 حصان. تم إهمال الرنا المرسال في خُمس وفقًا لكفاءة الترجمة (TE). ص- تم حساب القيم باستخدام اختبار تصنيف موقع من جانب ويلكوكسون واختبار مان ويتني من جانب واحد يو-test للمقارنات داخل وعبر الحالات متعدية ، على التوالي. ب, ج، العلاقة بين كفاءة الترجمة وإمكانيات الوصول إلى CDS (يسار) و 3’-UTR (يمين) ، لكليهما في الجسم الحي (ب) و في المختبر (ج) شروط (CDS في الجسم الحي (ن = 2507) و في المختبر (ن = 2523) 3’-UTR في الجسم الحي (ن = 2263) و في المختبر (ن = 2374)). معاملات ارتباط سبيرمان (رو) و ص- يتم عرض القيم. د، يُظهر كارتون المنطقة المحيطة بكودون بدء AUG المستخدم للتنبؤ بالبنية الثانوية للحمض النووي الريبي ويسلط الضوء على منطقة كوزاك (5’-NNNNAUGNNN-3 '). ه، العلاقة بين كفاءات الترجمة وإمكانيات الوصول في كود بدء AUG لكليهما في الجسم الحي (يسار) و في المختبر (الحق) الشروط. معاملات ارتباط سبيرمان (رو) و ص- يتم عرض القيم. F، تم حساب البنية الثانوية للحمض النووي الريبي والطاقة الحرة جيبس ​​(ΔG ') لكل كودون بدء AUG. تم حساب الطاقة المطلوبة لفتح منطقة كوزاك (ΔΔG) بطرح ΔG من طاقة الهيكل حيث يُجبر تسلسل كوزاك على أن يكون منفردًا (ΔG). ز، العلاقة بين كفاءة الترجمة و ΔΔG لكليهما في الجسم الحي (يسار) و في المختبر (الحق) الشروط. لم يلاحظ أي ارتباط في كلتا الحالتين ، مما يشير إلى أن بنية تسلسل كوزاك ليست عاملاً رئيسياً يقود الترجمة في الجنين المبكر. معاملات ارتباط سبيرمان (رو) و ص- يتم عرض القيم. التحليلات الهيكلية لرموز بدء AUG (د-ز) على مجموعة من 2360 كودون بدء

تعزز الريبوسومات التكميلية الشكل 3 مطابقة الحمض النووي الريبي البديلة مع انخفاض الاستقرار في الخلية.

أ، التوزيعات التراكمية لـ 5’-UTR (659) ، CDS (763) و 3’-UTR (736) إمكانية الوصول العالمية في العينات المعالجة وغير المعالجة باتا. ص- تم حساب القيم باستخدام اختبار تصنيف موقع ويلكوكسون على الوجهين. ب، مخططات القوس من DMS-seq تنبؤات الهيكل الثانوي RNA الموجهة لمناطق إشغال الريبوسوم العالية الموجودة في نسون 2 و ddit4 الجينات ، لظروف / عينات مختلفة. ج، مقارنات زوجية لاختلافات الطاقة الحرة جيبس ​​(ΔΔG غير المعالجة-في المختبر، باتا-في المختبر و CHX-في المختبر) من النوافذ ذات الكثافة العالية لبصمة الريبوسوم (728 نافذة غير متداخلة تغطي 332 جينًا ، باللون الرمادي) وبدون آثار أقدام ريبوسوم (728 نافذة غير متداخلة تغطي 312 جينًا ، باللون الأبيض) (انظر الطرق). يشير موجب ΔΔG إلى بنية أقل استقرارًا في الحالة الأولى (غير المعالجة ، PatA أو CHX) ، مقارنةً بـ في المختبر، بينما يشير G السالب إلى بنية أكثر استقرارًا في الحالة الأولى ، مقارنةً بـ في المختبر. لاحظ الانخفاض في ثبات الهياكل التي تتكون من المناطق الغنية بالريبوسوم (الرمادي) في العينات غير المعالجة والمعالجة بـ CHX ، ولكن ليس في العينة المعالجة بالريبوسوم الخالية من الريبوسوم أو في المناطق التي لا تحتوي على الريبوسوم (أبيض). تتميز مؤامرة الكمان بتقدير كثافة النواة وتمثل الخطوط الربعية للتوزيع. ص- تم حساب القيم باستخدام اختبار تصنيف موقع من جانب ويلكوكسون واختبار مان ويتني من جانب واحد يو-اختبار ، للمقارنات عبر ظروف الفحص لنفس المجموعة وبين المجموعات ضمن حالة معينة ، على التوالي. د، تمثيل كارتون يصور تأثير CHX ، جنبًا إلى جنب مع التوزيع التراكمي المقابل لنسب الوصول إلى CDS (غير المعالجة / CHX) للارتفاع (ن = 356) ومتواضع (ن = 356) mRNAs المترجمة بسرعة 2 حصان. لاحظ الزيادة الطفيفة في إمكانية الوصول في mRNAs المترجمة بشكل ضعيف بعد علاج CHX (السهم الأزرق). ص- تم تحديد القيمة باستخدام مان ويتني من جانب واحد يو-اختبار. ه، مخططات القوس من DMS-seq الموجهة لتنبؤات البنية الثانوية للحمض النووي الريبي للطول الكامل ملف ctcf, ماي و نسون 2 mRNAs باستخدام SeqFold لظروف / عينات مختلفة. منطقة CDS مظللة باللون الرمادي

الشكل التكميلي 4 ترجمة uORF يعيد تشكيل بنية 5′-UTR.

أ، عرض تخطيطي لإعادة تشكيل هيكل 5’-UTR RNA الذي يحدث عند ترجمة إطارات القراءة المفتوحة المنبع (uORF). ب، التوزيعات التراكمية لـ في الجسم الحي (أعلى) و في المختبر (أسفل) وصول uORF إلى درجة عالية (أحمر ، ن = 196) ومتواضع (أزرق ، ن = 196) ترجمة uORFs. ص- تم تحديد القيم باستخدام من جانب واحد مان ويتني يو- الاختبارات. ج، توزيعات ribo-seq (اللوحة العلوية) واختلافات إمكانية الوصول (في الجسم الحيفي المختبر) (اللوحة السفلية) لملف مؤتمر نزع السلاح 25 5’-UTR، الذي يحتوي على اثنين من uORFs مترجم (مظلل باللون الرمادي). زيادة إمكانية الوصول في الجسم الحي يظهر باللون الأحمر ، في حين انخفضت إمكانية الوصول في الجسم الحي يظهر باللون الأزرق. د، مؤامرة قوس تصور المتوقع مؤتمر نزع السلاح 25 5’-UTR البنية الثانوية ، مسترشدة بأي منهما في الجسم الحي (أصفر) أو في المختبر (باللون الأخضر) إمكانية الوصول إلى تسلسل DMS. يمثل كل قوس تفاعل زوج أساسي

الشكل التكميلي 5 بولي (أ) يعتمد إعادة تشكيل هيكل الرنا المرسال المعتمد على طول الذيل على الترجمة.

أ، مقارنة بين إمكانيات الوصول لكل منطقة (الألواح العلوية لـ CDS واللوحات السفلية 3’-UTR) وطول الذيل بولي (A) لكل نسخة ، عند 2 حصان (اللوحات اليسرى) و 4 hpf (اللوحات اليمنى) (CDS 2 hpf (CDS 2 hpf (ن = 1،238) و 4 حصان (ن = 1،138 3’-UTR 2 hpf (ن = 1،221) و 4 حصان (ن = 1،014)). معاملات ارتباط سبيرمان (رو) و ص- يتم عرض القيم. ب, ج، مقارنة بين إمكانيات الوصول إلى CDS وأطوال ذيل بولي (A) لكل نسخة في PatA المعالجة (ب, ن = 1،671) و في المختبر عينات معاد طيها (ج, ن = 1،663) من 2 حصان أجنة. معاملات ارتباط سبيرمان (رو) و ص- يتم عرض القيم. د، مقارنة بين النوافذ ذات التنظيم التفاضلي (DS) (2 مقابل 4 hpf) الموجودة في 483 miR-430 هدفًا (أحمر) و 1000 مجموعة من 483 تم اختيارها عشوائيًا غير miR-430 mRNAs (رمادي)

الشكل 6 التكميلي الاختلافات بين هياكل الحمض النووي الريبي في الجسم الحي وفي المختبر ليست موزعة بشكل موحد على طول النصوص.

أ، التوزيعات التراكمية العالمية 5’-UTR (837) ، CDS (1،122) و 3’-UTR (1،051) إمكانية الوصول في الجسم الحي و في المختبر من نسخة أجنة 2 hpf. النصوص فقط مع تغطية 85٪ كحد أدنى لـ As و Cs ومع ما لا يقل عن 10 قراءات في المتوسط ​​لكل من As و Cs لكليهما في الجسم الحي و في المختبر يتم عرض تجارب DMS-seq. ص- تم حساب القيم باستخدام اختبارات تصنيف موقع ويلكوكسون على الوجهين. ب، توزيع النوافذ ذات التنظيم التفاضلي على طول نصوص أجنة 2 حصان ، مقارنة في الجسم الحي و في المختبر شروط. نوافذ ذات هيكل متزايد في الجسم الحي تم تصويرها باللون البرتقالي ، في حين تم تصوير تلك ذات البنية المنخفضة في الجسم الحي تظهر باللون الفيروزي. تمت تسوية كل منطقة نص (5’-UTR، CDS، 3’-UTR) من خلال طولها ، بالإضافة إلى العدد الإجمالي للنوافذ التي تم تحليلها في كل منطقة. تم تجميع النصوص في خُمس بناءً على كفاءة الترجمة الخاصة بها ، والتي تم تحديدها باستخدام بيانات التنميط الريبوسوم

توفر إشارة الشكل التكميلي 7 DMS-seq معلومات عن تشكيل الحمض النووي الريبي المفضل عند ربط عاملين متعددين مختلفين.

أتم تحديد شعار تسلسل KHSRP باستخدام iCLIP. ب، كارتون يصور حالة ربط KHSRP بهدفه في المختبر و في الجسم الحي. ج، مقارنة بين نسبة الوصول (في الجسم الحي / في المختبر) للمناطق المرتبطة بـ KHSRP (سماوي) ومطابقة عناصر التحكم غير المنضمة (الرمادي) ، مما يشير إلى أن ربط KHSRP يساعد في الحفاظ على تشكل RNA أحادي الشريطة في الخلية. تم تحديد مواقع ربط KHSRP باستخدام تجارب iCLIP وقصرها على تلك الموجودة ضمن 3’-UTRs (انظر الطرق). ص-القيمة محسوبة باستخدام وجه واحد مان ويتني يو-اختبار. المربع يمتد أولاً إلى الربع الأخير والشعيرات تمثل 1.5 × النطاق الربيعي. د، تمثيل تخطيطي لتأثير ربط KHSRP على بنية RNA في الجسم الحي حفظ الحمض النووي الريبي المربوط في شكل أحادي الخيط. ه، رسم كاريكاتوري يصور حالة الربط لمجمع Ago2-miR-430 مع هدفه في ظروف مختلفة. F، مقارنة نسب الوصول (عبر الظروف والنقاط الزمنية) لبذور miR-430 (سماوي) وعناصر التحكم المطابقة (باللون الرمادي). تتوافق بذور miR-430 مع أي مواقع ربط miR-430 بطول 8 و 7 أمتار موجودة في أهداف 3’-UTR الخاصة بأهداف miR-430 (انظر الطرق). تم اختيار مناطق التحكم 8-nt بشكل عشوائي داخل بذرة miR-430 التي تحتوي على 3’-UTRs (انظر الطرق). تم حساب إمكانيات الوصول إلى البذور والتحكم MiR-430 من خلال حساب متوسط ​​إمكانية الوصول إلى قواعد A و C الموجودة في كل تسلسل 8-nt. ص- القيم المحسوبة باستخدام جانب واحد مان ويتني يو- الاختبارات. المربع يمتد أولاً إلى الربع الأخير والشعيرات تمثل 1.5 × النطاق الربيعي ز، التحليل التلوي لمتوسط ​​إمكانيات الوصول عند 2 و 4 hpf (الألواح العلوية) ومحتوى النيوكليوتيدات (الألواح السفلية) في كل موضع لبذور miR-430 (ن = 74 ، اللوحات اليسرى) ومناطق التحكم (ن = 75 ، اللوحات اليمنى) . تتوافق كل منطقة مع نافذة 100-nt تتمحور حول 8-nt miR-430 بذرة أو تسلسل تحكم مظلل باللونين السماوي والرمادي ، على التوالي. تتوافق الخطوط المنقطة مع متوسط ​​إمكانية الوصول إلى metaplot لكل مرحلة من مراحل النمو. تشير أشرطة الخطأ إلى sem

الشكل التكميلي 8 في الجسم الحي ، تؤثر هياكل 3′-UTR المحددة على نشاط ميرنا والتعبير الجيني.

أ, ب, في الجسم الحي و في المختبر الهياكل والاستقرار الثانوي المتوقع (ΔG) للمنطقة 200-nt المتمركزة على موقع الهدف miR430 الموجود في أهداف غير miR-430 (rab33ba, zgc: 55733 و pgk1 أ) وأهداف miR-430 (فام 171a1, znf706 و rtkn2a ب). تظهر المناطق المكملة لبذور miR-430 ومنطقة الربط التكميلية الخاصة بها داخل 3’-UTR باللونين السماوي والأحمر ، على التوالي. تظهر التغييرات في وفرة mRNA أثناء MZT للنصوص الذاتية في ظروف النوع البري (أسود) أو في الظروف التي يتم فيها تثبيط نشاط miR-430 بواسطة جزيء صغير من LNA مكمل لبذور miR-430 (أخضر) لكل جين. تتميز أهداف MiR-430 بزيادة الاستقرار عند 6 حصان عند انخفاض نشاط miR-430 (-miR-430) (ب). يتم عرض متوسط ​​تجربتين مستقلتين للدورة الزمنية لـ RNA-seq لظروف WT بينما تأتي القيم من ظروف –miR-430 من تجربة دورة زمنية واحدة لـ RNA-seq

يكشف الشكل التكميلي 9 الهياكل الديناميكية 3′-UTR عن عناصر الاضمحلال أثناء MZT.

أ، إثراء التسلسلات المحفوظة في مناطق 3’-UTR بهيكل ديناميكي بين 4 و 6 hpf (6v4) ، مقارنة بجميع مناطق UTR 3 التي تم تحليلها. تتوافق الهياكل الديناميكية مع تلك التي لديها اختبار KS ص- القيمة & لتر 0.05. المربع يمتد أولاً إلى الربع الأخير والشعيرات تمثل 1.5 × النطاق الربيعي. ص-قيمة محسوبة باستخدام جانب واحد مان ويتني يو-اختبار. ب، نشأ نشاط الاضمحلال للمناطق ذات البنية الديناميكية (العمود الأيسر ، الأحمر) والبنية الثابتة (العمود الأيمن ، أسود) من نفس 3’-UTR ، المحسوبة من تجربة RESA. ج، تسوس (أزرق) وأنشطة الاستقرار (برتقالي داكن) لجميع مناطق 200-nt 3’-UTR مع تغطية قراءة كافية من تجربة RESA (انظر الطرق). لاحظ إثراء المناطق ذات البنية الديناميكية بين عناصر الانحلال (الأزرق). د، اختبار KS لكل نص ص-قيمة الملف الشخصي (أعلى) والحفظ (أسفل) ل igf2bp3 مرنا ، مقارنة 4 و 6 حصان. تم حساب ملفات التعريف عن طريق تحليل النوافذ المنزلقة 100-nt في جميع أنحاء النص (انظر الطرق). يتم تمييز أمثلة مناطق 3’-UTR المحفوظة مع بنية ديناميكية (حمراء) وبدون تغيير هيكلي (أسود). ص- القيم بين 1 و 0.2 موضحة باللون الرمادي ، وبين 0.2 و 0.05 باللون الأصفر و lt0.05 باللون الأحمر. ه، القياس الكمي لنشاط الانحلال للهياكل الديناميكية (الحمراء) وغير المتغيرة (السوداء) الموجودة في igf2bp3 3’-UTR ، وفقًا لحساب RESA. يتم تمثيل البيانات على أنها متوسط ​​± SD (ن = 3 مكررات مستقلة). طالب ر-اختبار ص- يشار إلى القيم على أنها ** & lt 0.01. F، مسارات الجينوم لتجارب الدورة الزمنية RNA-seq التي تمثل مستويات mRNA من ccna1 (أعلى) و نانوج (أسفل) النصوص في 2 و 4 و 6 hpf في النوع البري (يسار) و alpha-amanitin (يمين) الظروف. يثبط ألفا أمانيتين تنشيط الجينوم الزيجوتيكي ، ويسلط الضوء على تأثير العوامل الملقحة في إزالة ccna1 وبقدر أقل ، نانوج مرناس


صعوبة في الحصول على تسلسل ترميز الرنا المرسال الكامل في منطقة 5 '(5' قطعة أثرية من الرنا المرسال): الأسباب والعواقب في علم الأحياء والطب والحلول الممكنة للحصول على تسلسل الأحماض الأمينية الفعلي للبروتينات (مراجعة)

منذ أواخر التسعينيات ، أدى توافر قواعد البيانات العامة الكبيرة التي تحتوي على معلومات متزايدة حول الجينات ومنتجات الجينات (RNAs والبروتينات) والجينومات والوظائف الجزيئية إلى تغيير جذري في النهج التقليدي لاكتشاف الجينات وتوصيفها. يعد الجمع بين البيانات المودعة حول الجزيئات المعلوماتية (1،2) التي تم الحصول عليها من أنواع متعددة طريقة مباشرة لاكتساب معرفة سريعة حول بنية جينات الكائن الحي والمنتجات الجينية ، والتي بدورها يمكن استخدامها للحصول على أدلة تتعلق بوظيفة كل منها الجين الفردي. في حين أن هذا الاحتمال قد سمح بتوليد كمية من البيانات لا تضاهى مع ما تم الحصول عليه من خلال طرق البيولوجيا الجزيئية الكلاسيكية المستخدمة في عصر ما قبل الجينوم (3) ، فإن حقيقة أن جودة ودرجة المعلومات المتاحة للجين الفردي قد تميل لتقليل أقل وضوحا. على سبيل المثال ، إذا أخذنا في الاعتبار توصيف الرنا المرسال (mRNA) الذي يعبر عنه موضع بشري ، خلال الثمانينيات والتسعينيات من القرن الماضي ، كان من المعتاد الحصول على معلومات دقيقة حول الحجم الكلي للـ mRNA وتوزيع الأنسجة عن طريق تحليل اللطخة الشمالية وحول بدء النسخ المواقع عن طريق رسم خرائط نوكلياز S1 وتمديد التمهيدي ومقايسات الجريان (4). في السنوات اللاحقة ، تم الحصول على تسلسلات كاملة الطول mRNA من خلال تجارب مصممة خصيصًا لتضخيم تفاعل البلمرة المتسلسل (PCR) لتضخيم الحمض النووي التكميلي لنهايات الحمض النووي الريبي (cDNA) [التضخيم السريع لنهايات cDNA (RACE)] ، معلومات الربط البديلة بواسطة cDNA في الجسم الحي وفي الاستنساخ في المختبر للأشكال الإسوية الفردية للحمض النووي الريبي ، وتسلسل البروتين عن طريق الترجمة المختبرية والتحليل الكيميائي الحيوي متعدد الببتيد. في الواقع ، كانت الجينات تُدرس عادةً على أساس واحد تلو الآخر ، وكانت هناك إمكانية للتحقق من البيانات المتاحة من خلال طرق مختلفة (5). مثال على ذلك هو مقارنة طول mRNA المستنتج من النشاف الشمالي (مع الأخذ في الاعتبار الذيل متعدد الأدينيلات) وواحد من cDNA المعزول (6) ، أو مقارنة الوزن الجزيئي لبروتين معروف (7) والواحد من عديد الببتيد المتوقع أن يتم تشفيره بواسطة إطار القراءة المفتوح (ORF) / تسلسل التشفير (CDS) الخاص بـ cDNA النسبي.

لا يمكن أن تصل الأساليب الجديدة واسعة النطاق دائمًا إلى حل الأساليب السابقة ، بينما تضع معيارًا جديدًا للطرق المستخدمة في علم الوراثة ، يظل التحليل الأكثر تفصيلاً الذي يهدف إلى توصيف كل جين فردي ضروريًا لتجنب المعرفة غير الكاملة أو الخاطئة للجين التركيب والوظيفة. ومع ذلك ، فإن معلومات مقياس الجينوم بدورها كانت لا تقدر بثمن في التوجيه الفعال لمزيد من التحقيقات اللازمة لكل موضع جيني باستخدام الطرق الكلاسيكية. وقد ظهر هذا على وجه الخصوص بالنسبة للجينوم البشري ، من خلال مجموعة كبيرة من الملايين من التسلسلات القصيرة (بضع مئات من الأزواج الأساسية في الطول) والتي تم اشتقاقها عن طريق التسلسل الجزئي أحادي التمرير لاستنساخ cDNA من الحمض النووي الريبي لأنسجة معينة ( 8). وقد تراكمت في قاعدة بيانات علامة التسلسل المُعبَّر عنها (EST) منذ إنشائها منذ 20 عامًا مضت (9). تم بعد ذلك استخدام مجموعة متنوعة من الأساليب القائمة على EST (10،11) للاستنساخ السريع للجينات في السيليكو (12) ، وتحديد التعبير الجيني التفاضلي (13) ، وتمييز الأشكال البديلة للنصوص المستمدة من التضفير البديل (14 ، 15) ، وتحديد ORF كامل واحد على الأقل (16) لكل مرنا. هذه النقطة الأخيرة هي قضية معروفة في البيولوجيا الجزيئية وعلم الجينوم ، مع عواقب ذات صلة بالتنبؤ بهيكل ووظيفة منتج الجين ، وسيتم تحليلها بالتفصيل في هذه المراجعة.

2. القطعة الأثرية 5 end mRNA

وفقًا للعقيدة المركزية للبيولوجيا الجزيئية الكلاسيكية ، فإن المستجيب النهائي للمعلومات الجينية هو البروتين (سلسلة من الأحماض الأمينية) المشفرة من جين معين ، وبالتالي من الضروري معرفة التركيب الأساسي الأساسي للبروتين (تسلسل الأحماض الأمينية) ). كان أحد المعالم البارزة في هذا المجال هو تسلسل سلسلتي الأحماض الأمينية المكونة للأنسولين البشري بواسطة سانجر (17). يتميز تسلسل البولي ببتيد بميزة تحديد الهيكل الأساسي الطبيعي لسلسلة البولي ببتيد ، وعلى وجه الخصوص الحمض الأميني الأول الفعلي للتسلسل ، وذلك بفضل قدرة فلورودينيتروبنزين على التفاعل مع المجموعة الأمينية N- الطرفية في أحد طرفي السلسلة.تمثلت التطورات اللاحقة الرئيسية في الاعتراف بأنه ، بسبب العلاقة الخطية للأحماض النووية والبروتينات وآليات ترجمة mRNA ، يتم ترميز الأحماض الأمينية الطرفية بنهاية 5 من الرنا المرسال (18). لذلك ، عندما اقترح Sanger et al طريقة فعالة جديدة لتسلسل الحمض النووي (19) ، أصبح من الواضح أنه كان أكثر ملاءمة لتسلسل الأحماض النووية بدلاً من البروتينات ، وأنه يمكن استنتاج تسلسل الأحماض الأمينية للمنتجات الجينية بسهولة من تسلسل النيوكليوتيدات النسبي المستنسخة (كدنا). أدى هذا التغيير في النموذج التجريبي إلى "علم الوراثة العكسي" (20) ، وهو الانتقال من تسلسل الحمض النووي إلى وظائفها بدلاً من العكس كما هو الحال في علم الوراثة الكلاسيكي ، وكان له نتيجة أساسية أنه في الواقع ، منذ أواخر السبعينيات ، كانت الغالبية العظمى من لم يعد يتم تحديد تسلسل البروتين بشكل مباشر ، ولكن تم التنبؤ به بعد تسلسل cDNAs النسبية وفقًا لقواعد التعرف على كودون البداية (قاعدة AUG الأولى ، سياق التسلسل الأمثل) والرمز الجيني (21).

بينما أدى هذا التقدم إلى تسريع وتيرة توافر تسلسل البروتين إلى حد كبير ، يجب أن يوضع في الاعتبار أن جميع الطرق التجريبية القياسية لاستنساخ (كدنا) تتأثر بعدم القدرة المحتملة على استنساخ منطقة 5 من الرنا المرسال في اكتمالها ( 22). ويرجع ذلك إلى فشل النسخ العكسي (RT) في تمديد أول حبلا (كدنا) على طول الطول الكامل لقالب الرنا المرسال نحو نهايته 5 (22) (الشكل 1) ، وهي عملية يعتمد نجاحها على المعالجة الطبيعية للـ إنزيم ، بالإضافة إلى جودته ، وسلامة الحمض النووي الريبي ، والهياكل الثانوية التي تفترضها منطقة 5 من الرنا المرسال تعيق تقدم RT وظروف التفاعل (23).

شكل 1

قطعة أثرية 5 end mRNA. عادة ما يتم الحصول على (كدنا) من خلال البلمرة بدء التمهيدي من المنطقة 3 من الرنا المرسال عن طريق النسخ العكسي. قد تعيق العملية الطبيعية للإنزيم ، فضلاً عن جودته ، وسلامة الحمض النووي الريبي والهياكل الثانوية التي تفترضها منطقة 5 من الرنا المرسال ، تقدم النسخ العكسي ، مما يتسبب في فشل بلمرة الشريط الأول (كدنا). على طول قالب mRNA بالكامل باتجاه نهايته 5 ، مما يؤثر على جميع التجارب الإضافية ، بما في ذلك تعيين كودون AUG الأول. ss ، واحد تقطعت بهم السبل ، مزدوج الذين تقطعت بهم السبل.

يجب تسليط الضوء هنا على أنه نظرًا للآليات الوظيفية الجوهرية للبوليميرات القادرة على توليد نسخ DNA من mRNAs ، يتم الحصول على (كدنا) عادةً من خلال البلمرة البادئة من المنطقة 3 من الرنا المرسال [على سبيل المثال ، بولي (dT) قليل النوكليوتيد الاقتران مع ذيل poly (dA) الموجود في الغالبية العظمى من mRNAs]. هذا يعني أن مجموعة (كدنا) يتم إثرائها بحكم تعريفها في مناطق 3 من الرنا المرسال ، وبالتالي من المتوقع أن يكون التنبؤ بتسلسل الأحماض الأمينية عند الطرف الكربوكسي للمنتج الجيني أكثر دقة من تلك الموجودة على الطرف الأميني. . تم التعرف على هذه المشكلة في وقت مبكر ، في نشر أول تسلسل cDNA البشري ، وهو واحد لسلسلة β من الهيموغلوبين في عام 1977 عندما كانت المنطقة 5′ غير المترجمة (UTR) هي آخر منطقة تم الإبلاغ عنها في ديسمبر (24) التالية الأوصاف السابقة لـ 3′-UTR في أبريل (25) و CDS في يوليو (26): "لقد أثبت استنساخ (كدنا) أنه الأسلوب الأكثر قيمة لتسلسل الرنا المرسال (27 ، 28). أثناء بناء cDNA مزدوج الشريطة ، يتم فقد عدد كبير من متواليات المنطقة غير المشفرة 5′. وبالتالي ، فإن التسلسل المستقل لهذه المنطقة سيكون خطوة ضرورية لإكمال معرفتنا بالبنية الأولية لأي مرنا '(24) كتب أوكاياما وبيرج بوضوح في عام 1982: `` الحصول على cDNAs المستنسخة بتسلسلات كاملة 5′-UTR وترميز البروتين. نادر ، خاصة إذا كانت رموز mRNA لبروتين كبير. على الرغم من أن مثل هذه cDNAs المقتطعة لا تزال مفيدة مثل مجسات التهجين ، إلا أنها لا تستطيع توجيه تخليق البروتينات الكاملة بعد إدخالها في الخلايا البكتيرية أو الثديية عبر نواقل التعبير المناسبة (23).

قدمت التقارير المزدهرة في الثمانينيات تحديدًا يسمى غالبًا "تسلسل كامل الطول cDNA" للعديد من الجينات البشرية. للأسباب التي تمت مناقشتها ، يصبح مفهوم `` التسلسل الكامل الطول '' مكافئًا فعليًا لمفهوم `` اكتمال تسلسل الرنا المرسال عند نهايته 5 '' ويظل مشكلة مفتوحة في علم الأحياء الجزيئي حيث يمثل cDNA بشكل غير كامل النهاية 5 من mRNA النسبي قد يؤدي إلى التخصيص غير الصحيح لكودون AUG الأول. في هذه الحالات ، إذا تم تحديد AUG المنبع الإضافي - في إطار مع واحد محدد مسبقًا - في نهاية mRNA 5 أكثر اكتمالاً ، فسيتم اعتباره كودون بدء الترجمة الفعلي ، وبالتالي تمديد تسلسل النهاية الأمينية المتوقعة لـ المنتج. يؤدي تعيين كودون البدء غير الدقيق إلى سلسلة من الأخطاء اللاحقة ذات الصلة في الدراسة التجريبية لـ cDNA النسبي. لذلك قدمنا ​​المصطلح '5-end mRNA artifact' للإشارة إلى التخصيص غير الصحيح لكودون الترجمة الأول (تسلسل AUG) في mRNA ، بسبب التحديد غير المكتمل لتسلسل 5-end (29).

من وجهة النظر التجريبية ، أدى التعرف على هذه المشكلة التقنية ، على الرغم من عدم إجراء تحقيق منهجي في كثير من الأحيان لعواقبها المحتملة على شرح الجينوم ، إلى تطوير عدة طرق لتحديد تسلسل mRNA كامل الطول على نطاق واسع. استند البعض إلى وجود "الغطاء" في النهاية الحقيقية 5 من الرنا المرسال [تمت مراجعته في (30)] ، مثل محاصرة 5 cap (31) وتحليل الغطاء للتعبير الجيني (CAGE) (32). تم أيضًا استخدام التعليق التوضيحي التجريبي المنهجي لمجموعة من منتجات النسخ بواسطة 5 ′ RACE (33) ، وكذلك بعد إدخال الأنظمة الأساسية القائمة على المصفوفات الدقيقة ، وتهجين الحمض النووي الريبي على مصفوفات تبليط عالية الدقة (34). ومع ذلك ، تم العثور على هذه التقنيات لتكون كثيفة العمالة تجريبيا ولم يتم تطبيقها بشكل روتيني.

في الوقت نفسه ، أدى التضمين المتزايد للمعلومات المستمدة من cDNA الفردية ومشاريع التسلسل واسعة النطاق ، بما في ذلك تلك المصممة خصيصًا لتوصيف mRNA 5 ′ end (31،35،36) ، إلى صقل وتحسين مستمر للاكتمال في المنطقة 5 من التسلسلات المرجعية لـ mRNA المودعة والتحقق منها (على سبيل المثال ، RefSeq ، https://www.ncbi.nlm.nih.gov/refseq/) ، وكذلك فيما يتعلق بتسلسلات تشفير البروتين المقابلة. لذلك ، أصبح من الممكن استغلال البيانات من EST أو غيرها من مشاريع تسلسل الحمض النووي الريبي واسعة النطاق للتحقق مما إذا كان يمكن تحسين تحليل التسلسل للكشف عن امتداد منطقة 5 من mRNAs المعروفة وربما إعادة تعريف لاحقة لتسلسل الأحماض الأمينية لـ المنتجات المشفرة.

يوفر التوافر الأخير لأساليب تسلسل الحمض النووي الريبي (RNA-Seq) الهائلة لإنشاء قواعد بيانات تسلسل النسخ (37) أداة محتملة جديدة للتعامل مع المشكلة ، على الرغم من أنه حتى الآن يبدو أنه لم يتم استخدامها بشكل منهجي لهذا الهدف. علاوة على ذلك ، فإن المعلومات حول التسلسلات التي من المحتمل أن توسع معرفة نهاية 5 من mRNA لا يمكن اشتقاقها بسهولة من بيانات RNA-Seq مقارنة بالنهج القائم على EST ، بسبب قراءات التسلسل القصيرة التي يتم الحصول عليها عادةً بواسطة هذه التقنية ، بالإضافة إلى صعوبة في بناء هياكل نصية كاملة الطول.

علاوة على ذلك ، تم تطوير استراتيجية تنميط البصمة الريبوزومية على أساس التسلسل عالي الإنتاجية لشظايا الرنا المرسال المحمية بالريبوسوم ، مما يتيح التحقيق على مستوى الجينوم في الترجمة (38). تسمح هذه التقنية ، التي تُستخدم مع مثبطات الترجمة الخاصة بالبدء ، بتحديد بدء الترجمة باستخدام subcodon أو حتى دقة النوكليوتيدات المفردة ، وقد تم استغلالها بنجاح من أجل التنبؤ أيضًا بكودونات AUG الإضافية المنبثقة (39-41).

أخيرًا ، يجب أن نلاحظ وجود ORFs و AUG خارج الإطار الموجود في 5′-UTR ، المنبع لمنطقة التشفير الرئيسية (42). تختلف هذه المواقف عن الأداة التي تم الإبلاغ عنها هنا لأنها لا تمدد منطقة التشفير المعروفة ، ولكنها متورطة في تنظيم التعبير الجيني عن طريق تعديل استقرار mRNA والترجمة (42 ، 43).

3. التحديد المنهجي للمنطقة الخماسية غير المكتملة في mRNAs البشرية المعروفة

ظهر الاحتمال النظري بأن وجود معرفة أكثر دقة بتسلسل نهاية الرنا المرسال 5 قد يؤدي إلى تصحيح لاحق للمنتج المتوقع الذي تم قبوله مسبقًا في العديد من التقارير في شكل أدلة قصصية تم العثور عليها بشكل عشوائي للجينات المفردة التي كانت قيد التحقيق المفصل. على سبيل المثال ، تم تمديد mRNA CDS بهذه الطريقة لجين RANBP9 / RanBPM (بروتين ربط RAN 9 ، في 6p23) ، حيث سمحت الدراسة التي أجراها Nishitani et al (44) بإضافة 230 من الأحماض الأمينية الجديدة. في حالة العامل النووي ، الجين 3 (NFE2L3) (على 7p15.2) ، تم استبدال تسلسل # AB010812.1 mRNA المقابل من 2174 نقطة أساس في الطول المشتق من Kobayashi et al (45) بالتسلسل # AF134891.1 من 2618 نقطة أساس ، مما أدى إلى إضافة 294 من الأحماض الأمينية الجديدة إلى البروتين المتوقع. سمحت الدراسة التي أجراها Nomura et al (46) لجين SP2 (عامل النسخ Sp2 ، في 17q21.32) بإطلاق إدخال تسلسل D28588.1 mRNA الذي يسجل CDS يبلغ 3،288 نقطة أساس مما أدى إلى إضافة 111 من الأحماض الأمينية الجديدة مقارنةً بإدخال # M97190 السابق البالغ 2063 نقطة أساس قدمه كينجسلي ووينوتو (47). تم دعم طبيعة الترميز لهذه الامتدادات أيضًا من خلال التشابه العالي جدًا مع hortologs الفئران ذات الصلة (29). اقترحت هذه التقارير وغيرها من التقارير المماثلة أن اتباع نهج عالي الإنتاجية كان مرغوبًا فيه لاكتشاف جميع أوجه القصور في CDS (الجدول الأول).

الجدول الأول

النتائج الرئيسية المنشورة للبحث المنهجي عن اكتمال منطقة mRNA 5 ′ CDS.

الجدول الأول

النتائج الرئيسية المنشورة للبحث المنهجي عن اكتمال منطقة mRNA 5 ′ CDS.

المرجع. عام الكائن الحي طريقة مرناس الموسعة 5 ′ CDSa
(35) 2000 H. العاقل قلة السد 954 68 (7.1%)
(29) 2003 H. العاقل تحليل التسلسل اليدوي والآلي 13,124 556 (4.2%)
(53) 2007 د. ريريو تحليل التسلسل الآلي 8,528 285 (3.3%)
(39) 2011 خلايا جذعية امبريونية تحديد ملامح البصمة الريبوسومية ودعم إستراتيجية التعلم الآلي القائمة على آلة المتجهات (SVM) 4,994 570 (11.4%)
(54) 2012 H. العاقل تحليل تسلسل مؤتمت بالكامل 18,665 477 (2.6%)
(40) 2012 H. العاقل تنميط البصمة الريبوسومية والتنبؤ بالشبكة العصبية 5,062 6 أغسطس (0.1٪) و 540 غير أغسطس (10.7٪)
(55) 2014 M. العضلات تحليل تسلسل مؤتمت بالكامل 20,221 351 (1.7%)
(41) 2014 H. العاقل تنميط البصمة الريبوسومية والتحليل اليدوي 1,255 17 (1.4%)
M. العضلات تنميط البصمة الريبوسومية والتحليل اليدوي 930 4 أغسطس (0.4٪) و 13 خارج أغسطس (1.4٪)

(أ) تقدير. CDS ، تسلسل الترميز H. sapiens ، Homo sapiens D. rerio ، Danio rerio (zebrafish) M. musculus ، Mus musculus (Mouse).

فيما يتعلق بمجموعتنا ، كنهج أول للمسألة ، نظرًا لاهتمامنا بطريق متكامل لتحديد الأساليب العلاجية الجديدة القائمة على الإمراضية للتثلث الصبغي 21 (متلازمة داون) (48 ، 49) ، ركزنا على المعروف والمميز جيدًا الجينات الموجودة في الخريطة الأصلية للكروموسوم البشري 21 (Hsa21) ، وتحليل 109 تسلسل RefSeq mRNA يدويًا المصنفة كـ `` فئة: معروفة '' بواسطة Hattori et al (50) ، ومرتبطة بتقرير منشور واحد على الأقل ، لوجود in -إطار إيقاف كودون المنبع من ATG الموصوف. في 49 حالة ، سمح العثور على رمز التوقف هذا باستبعاد احتمال أن يكون تسلسل 5′-UTR المسجل جزءًا من CDS أطول (51). تم محاذاة تسلسل الـ 60 mRNAs المتبقية حيث يمكن للقواعد الموجودة في 5′-UTR أن تكون متسقة مع وجود الكودونات المترجمة بشكل منهجي مع التسلسلات المتوفرة في بنوك البيانات باستخدام أداة البحث عن المحاذاة المحلية الأساسية (برنامج BLAST ، http: // www.ncbi. إنها ترميز افتراضيًا لمنتجات البروتين لفترة أطول عند نهايتها الأمينية ، نظرًا لوجود كودون بدء غير معروف سابقًا في الإطار مع المنبع الموصوف (الشكل 2). تم الحصول أخيرًا على دليل تجريبي لوجود هذه النصوص ، باتباع RT-PCR والتسلسل ، لخمس مواضع: المنطقة الحرجة لمتلازمة داون 1 (DSCR1) [الآن منظم الكالسينورين 1 (RCAN1)] ، بروتين متفاعل ديسكو 2 متماثل A (DIP2A KIAA0184) و URB1 ribosome biogen-esis 1 homolog (URB1 KIAA0539I) وبروتين ربط DNA DNA (SON) وعامل trefoil 3 (TFF3) (29). في هذه الحالات ، حدثت كلتا الحالتين التاليتين: تنبأ امتداد exon 1 الموصوف برموز ترميز جديدة في المنبع من AUG المعروف وكان AUG جديدًا موجودًا في المنبع من هذه الأكواد ، في إطار مع AUG الموصوف سابقًا وبدون أي كودون توقف متداخل . يشير هذا بالتالي إلى أنه ، باتباع قواعد بدء الترجمة [التي راجعها Kozak (21)] ، يجب اعتبار CDS الفعلي هو الذي تم تضمينه بين الرواية "First-AUG" والنقطة المعروفة (الشكل 2). لقد لوحظ أنه لا توجد آلية معروفة تعيق احتمال أن كودون البدء المحدد حديثًا ليس هو نقطة الترجمة الفعلية مثل استخدام AUGs "الداخلية" ، مما يتيح أحداث بدء إضافية في أكواد AUG النهائية في بعض mRNAs قد تحدث فقط في ثلاث بئر- ظروف محددة (21): إعادة الشروع ، والتي لا تنطبق على mRNAs التي تم التحقيق فيها من خلال هذا النهج ، نظرًا لأن AUG المحدد حديثًا ليس جزءًا من ORF المنبع الصغير المنفصل عن ORF الرئيسي عن طريق مسح تسريب يعتمد على سياق كودون ، والتي قد يتم استبعادها لأننا نظرنا في التوافق مع تسلسل كوزاك (21،52) لـ AUGs الجديدة ، مع ملاحظة التوافق الكامل (أحيانًا أفضل) مع استخدام AUG الجديد (29) آلية ثالثة ، أي استخدام الداخلية وحدات تسلسل موقع دخول الريبوسوم (IRES) ، المعتمدة فقط من قبل بعض mRNAs الفيروسية المعروفة.

الشكل 2

تحديد وتصحيح المناطق الخماسية غير المكتملة. يتم اختيار المرشحين المحتملين لتسلسل EST لتوسيع منطقة تشفير mRNA 5′ المعروفة لوجود كودون AUG في الإطار المنبع وغياب أي كودون توقف بين أكواد AUG المعروفة سابقًا والمحددة حديثًا. يصبح كودون AUG المنبع في الإطار هو كودون بدء الترجمة الفعلي ، وبالتالي تشفير Met جديد وتوسيع تسلسل النهايات الأمينية المتوقعة لمنتج mRNA. EST ، علامة التسلسل المعبر عنها Met ، methionine.

اقترحت هذه النتائج الإيجابية لتوسيع النهج ليشمل المجموعة الكاملة من RefSeq mRNAs البشرية المعروفة في ذلك الوقت (ن = 13124) ، بعد الأتمتة بواسطة برنامج بسيط لاكتشاف وجود أو عدم وجود توقف داخل الإطار في الموصوفة 5 ′ -UTR من مرنا. كانت النسبة المئوية للنوع الأخير من الرنا المرسال في المجموعة (51 ٪) مشابهة جدًا لتلك الموجودة في مجموعة الجينات Hsa21 (55 ٪) ، وبالتالي تقدير أنه ، بالتناسب ، CDS لـ 556 mRNAs بشري معروف قد تكون غير مكتملة في 5 نهاية (29).

يتطلب هذا النهج معالجة يدوية لتحليل بالتفصيل ، عن طريق مقارنة التسلسل ، أي مرشح mRNA لديه CDS غير مكتمل في منطقة 5. تم بعد ذلك نشر تحسين الخوارزمية وتطبيقه بنجاح على أسماك الزرد [انظر أدناه (53)] ، مما يدل على أن الاكتشاف الآلي للقواعد الإضافية المفترضة في نهاية 5 ′ المعروفة لمجموعة من الرنا المرسال بعد وضع نتائج متعددة لمقارنة التسلسل كان التحليل (بواسطة أداة بلاست) ممكنًا. جعلت بعض القيود الفنية للبيئة المستخدمة تنفيذ خط الأنابيب هذا صعبًا بالنسبة للتسلسلات البشرية الأكثر عددًا والتي أعاقت التقدم في هذا الاتجاه لفترة من الوقت. مزيد من التحسين للنهج الآلي القائم على EST (5′_ORF_Extender 2.0 ، متاح مجانًا على http://apollo11.isto.unibo.it/software/) جعل أخيرًا التحديد المنهجي (الشكل 2) لأقراص CDS في النهاية 5 من بين جميع mRNAs المعروفة البشرية الممكنة ، تحليل و GT7 ملايين محاذاة BLAT وبالتالي العثور على 477 موقعًا بشريًا من أصل 18665 موقعًا تم تحليله (الجدول الأول) ، مع امتداد RNA 5-CDS الخاص بهم المحدد بالتفصيل (54). بالإضافة إلى ذلك ، في هذه الدراسة ، تم الحصول على تأكيد لإثبات المفهوم عن طريق الاستنساخ في المختبر والتسلسل لبعض أمثلة الجينات: GNB2L1 [الآن مستقبل للكيناز C المنشط 1 (RACK1)] ، وتركيب الجلوتامينيل - الحمض الريبي النووي النقال (QARS) والتيروزيل -دنا فسفودايستراز 2 (TDP2) (كدنا). من ناحية أخرى ، تم إنشاء قائمة من 20،775 mRNAs بشريًا حيث يشير وجود رمز إيقاف داخل الإطار في المنبع لكودون البدء المعروف إلى اكتمال CDS عند نهاية 5 في النموذج الحالي (54). يمكن أن يستهدف هذا النهج أيضًا تحديد تسلسل 5′-UTR المختلف ، لكن طول القواعد المحاذاة في اتجاه المنبع لـ AUG الجديد عادةً ما يكون قصيرًا جدًا للسماح بهذا النوع من التحقيق. بالإضافة إلى ذلك ، إذا كان الطول طويلًا بدرجة كافية ، فسيتطلب التحليل خوارزمية مخصصة قادرة على التمييز بين الأشكال الإسوية لـ mRNA من هذا النوع ، بما في ذلك تعيين 5′-UTR المحدد حديثًا إلى الجينوم لاشتقاق أحداث النسخ / الربط البديلة المسؤولة عن متواليات 5′-UTR المختلفة.

بينما تركز هذه المراجعة بشكل أكبر على mRNAs البشرية للتأثير المحتمل في الطب ، تجدر الإشارة إلى أنه من المتوقع توقع نتائج مماثلة لجينومات الكائنات الحية الأخرى بسبب مشاركة التقنيات الجزيئية الشائعة ، والتي تكمن قيودها في أساس الأداة. في الواقع ، أكدت الدراسات التي أجريت على اثنين من الكائنات الحية النموذجية الأكثر استخدامًا في التحقيق في الجينوم البشري ، دانيو ريريو (الزرد) وموس موسكولوس (الفأر المنزلي) هذا التوقع. كان النهج الآلي الجديد المقترح (5′_ORF_Extender 1.0) قادرًا على المقارنة المنهجية بين ESTs المتاحة مع جميع متواليات mRNA التي تم تحديدها تجريبياً من أسماك الزرد ، وتحديد امتدادات التسلسل الإضافية في منطقة 5 والمسح بحثًا عن وجود جميع الشروط اللازمة لتحديد نطاق جديد وممتد. ORF المفترض. حددت الأداة 285 (3.3٪) mRNAs مع ORFs غير مكتمل افتراضيًا في منطقة 5 وفي ثلاث حالات مختارة (selt1a و unc119.2 و nppa أو بروتين سيلين T 1a و unc-119 مرتبط بالدهون B homolog 2 والببتيد natriuretic A ، على التوالي) ، تم عرض منطقة التشفير الممتدة عند 5 نهاية تجريبيًا (53). فيما يتعلق بالماوس mRNAs ، أظهر تطبيق الطريقة المحسّنة المستخدمة للنصوص البشرية أنه في 351 موقعًا للماوس ، من أصل 20221 تم تحليلها ، يمكن تحديد امتداد لمنطقة ترميز mRNA 5′. تم الحصول على تأكيد تجريبي من خلال الاستنساخ والتسلسل في المختبر لداء الأورام الغدية القولونية 2 (Apc2) و MAP kinase المتفاعل مع سيرين / ثريونين كيناز 2 (Mknk2) (كدنا) وقائمة من 16،330 فأر mRNAs مع CDS تقديري كامل عند 5 ′ نهاية ( 55).ومن اللافت للنظر أن 82٪ من النتائج كانت أصلية ولم يتم تحديدها من خلال خطوط أنابيب التعليقات التوضيحية المستخدمة في قواعد بيانات جينوم الماوس الرئيسية ومتصفح الجينوم (55). وبالتالي ، يمكن اعتبار انتشار قطعة أثرية من الرنا المرسال ذات 5 نهايات تقريبًا ثابتًا من الفقاريات السفلية إلى البشر لأن الطرق المستخدمة لتوصيف الرنا المرسال النسبي هي نفسها أو متشابهة جدًا (الجدول الأول).

لا يستبعد تحديد كودون البداية الأكثر تحديدًا أنه يمكن أيضًا استخدام كودون AUG في اتجاه المصب بواسطة الريبوسوم ، وهي ظاهرة تعرف بالترجمة البديلة (56). لقد ثبت أن مواقع بدء الترجمة البديلة تميل إلى الحفظ في جينومات حقيقية النواة ، مما يوفر آلية وظيفية قيد الاختيار لزيادة كفاءة الترجمة و / أو للحصول على متغيرات مختلفة من البروتينات الطرفية N (57). وقد لوحظ بالفعل أيضًا أن هذا النوع من التحليل لا يمكن أن يستبعد رسميًا أن ORF الموسع قد ينشأ من موقع بدء النسخ البديل (بسبب استخدام المروج البديل) و / أو الربط للموقع الذي تم فحصه (53). ومع ذلك ، فإنه يكشف في أي حال عن وجود تسلسلات تشفير إضافية لم يتم تحديدها مسبقًا ، كما يمكن تأكيده من خلال المقارنة التطورية على مستوى الأحماض الأمينية (53). كما هو الحال في حالة أي تنبؤ كمبيوتر آخر ، يلزم إجراء مزيد من التحقيق ، في السيليكو ولكن بشكل خاص في المختبر ، من أجل توصيف دقيق للنموذج المفترض.

في حين أن الأساليب المنشورة قد نظرت في الخوارزميات التي تفترض أن كودون البدء له تسلسل AUG ، تجدر الإشارة إلى أنه في نسبة صغيرة من mRNA CDS ، قد يكون لكودون البدء تسلسلات بديلة ، خاصة CUG و UUG و GUG و ACG و AUA و AUU ( 58). في الواقع ، أكدت التجارب الحديثة هذه الظاهرة واقترحت أنها قد تكون أكثر تكرارًا مما كان يُفترض سابقًا. لذلك ، عندما يكون استخدام كودون غير AUG معروفًا أو مشتبهًا فيه ، يجب إجراء مزيد من التحليل غير المتضمن في خطوط الأنابيب القياسية في الحالات الفردية لتحديد أكواد بدء التشغيل غير التابعة لـ AUG في الإطار والتي قد تكون أيضًا مسؤولة عن تشفير البروتينات لفترة أطول من التي سبق وصفها.

4. عواقب 5 ′ نهاية mRNA قطعة أثرية في علم الأحياء والطب

من المتوقع أن تتسبب الأداة المكونة من 5-end mRNA في سلسلة من النتائج في البحوث الطبية الحيوية ، والتي سيتم إدراجها الآن ومناقشتها (الجدول 2). المشكلة الأولى الواضحة المرتبطة بالقطعة الأثرية هي النتيجة السلبية على دراسة هيكل المنتج ووظيفته (59). إن احتمال أن تستند كميات هائلة من الدراسات إلى بيانات بدء غير صحيحة أمر حقيقي. على سبيل المثال ، حدث ذلك في التوصيف الوظيفي لعديد ببتيد معبرًا عنه من الحمض النووي غير الكامل المتوقع (60) وفي دراسة وظيفية للسيتوكين إنترلوكين 16 (IL16) (61) ، حيث يبدو أن المنتج يتم التعبير عنه من كدنا غير مكتمل ( الجدول الثاني).

الجدول الثاني

العواقب المحتملة للتحديد غير الكامل لمنطقة mRNA 5 ′ CDS على سبيل المثال الجينات البشرية.

الجدول الثاني

العواقب المحتملة للتحديد غير الكامل لمنطقة mRNA 5 ′ CDS على سبيل المثال الجينات البشرية.

رمز المرجع. AAsa المرجع. 2
على مستوى البروتين
أخطاء في تحديد بنية البروتين ثلاثية الأبعاد ALDOC (59) 87 (54)
توقع عديد ببتيد غير مكتمل ريال قطري (60) 18 (54)
إنتاج بولي ببتيد غير مكتمل IL16 (61) 47 (54)
عدم وجود وصف لمجالات البروتين الوظيفية ابن http://www.ncbi.nlm.nih.gov/gene/6651 968 (29)
أخطاء في تحديد توطين البروتين RANBP9 / RanBPM (63) 230 (44)
عدم التنبؤ بالببتيدات البديلة UMOD http://www.ncbi.nlm.nih.gov/gene/7369 49 أو 28 (54)
أخطاء في تحديد منتجات تقويم العظام DSCR1.1 (66) 55 (29)
رمز المرجع. نتسا المرجع. 2
على مستوى [كدنا]
فشل فحص CDS الكامل للطفرات ADAR http://omim.org/entry/146920 48 (54)
(كدنا) غير مكتمل في اختبار ثنائي الهجين للوظيفة DSCR1 (65) 55 (29)
الأخطاء المحتملة في تصميم morpholino oligos un-119.2 (دانيو ريريو) (77) 58 (53)
على مستوى التركيب الجيني
الفشل في تحديد الامتداد الكامل للجين / وضع العلامات على المناطق الجينية كمساحة بين الجينات DIP2A (71) 82,895 (29)
عدم تحديد مناطق المروج الفعلي TFF3 (72) 170 (29)

تمت إضافة AAs أو nts إلى تسلسل البروتين أو الحمض النووي المسجل مسبقًا ، على التوالي ، بعد التحليل المذكور في المرجع. 2. CDS ، تسلسل الترميز AAs ، الأحماض الأمينية nts ، النيوكليوتيدات ALDOC ، Aldolase ، Fructose-Bisphosphate C QARS ، glutaminyl-tRNA synthetase IL16 ، interleukin 16 SON ، SON DNA المرتبط بالبروتين RANBP9 ، RAN Binding protein 9 UMOD ، uromodulin DSCR1 ، متلازمة داون منطقة حرجة 1 ADAR، أدينوسين ديميناس ، RNA محددة DIP2A، ديسكو بروتين متفاعل 2 متماثل أ TFF3، عامل ثلاثي الفصيلة 3.

قد يتسبب تسجيل تسلسلات البروتين غير المكتملة عند نهايتها الأمينية في قواعد البيانات الجينومية أيضًا في الفشل في تحديد تسلسل مجال البروتين الملحوظ وظيفيًا (الجدول الثاني) على وجه الخصوص ، يمكن تمثيل التسلسلات الموجودة في الطرف الأميني للبروتينات من خلال تسلسل إشارة الببتيد التي توجه التسليم من البروتين إلى وجهته النهائية (62،63) وقد يؤثر أيضًا على عمر النصف (64).

بالإضافة إلى ذلك ، هناك إمكانية التقليل من أهمية التضفير البديل عند الطرف 5 للجينات وعدم التنبؤ بمنتجات جينات البروتين البديلة المقابلة (الجدول 2). لا تزال العبارة الواردة في المقالة الكلاسيكية لأوكاياما وبيرغ صحيحة: "في الواقع ، كانت المقارنة بين cDNAs المستنسخة ونظيراتها الجينومية هي التي كشفت عن وجود متواليات متداخلة وتضفير" (23). علاوة على ذلك ، فإن تصميم فحص الطفرة الذي يهدف إلى تحديد الاختلافات المرضية في تسلسل الترميز يمكن أن يتأثر بالمعرفة غير الكاملة لـ CDS ، وهو ظرف يمكن أن يفسر أحيانًا الفشل في العثور على الطفرات المتوقعة في جينات المرض المرشحة أو الراسخة ، وربما يؤدي إلى ارتباطات غير دقيقة في التركيب الوراثي / النمط الظاهري (الجدول الثاني). من وجهة نظر وظيفية ، يمكن أن يكون تسلسل الأحماض الأمينية الجديدة مسؤولاً عن التفاعلات الجديدة. تؤكد إمكانية تصميم جزيئات ذات نشاط دوائي على أساس الارتباط بالبروتينات المعبر عنها كطعم في اختبار ثنائي الهجين من cDNAs غير مكتملة (65) على أهمية معرفة البنية الأولية الفعلية للبروتين. أخيرًا ، قد يكون وجود تسلسل بروتين مبتور في قواعد البيانات الجينومية أيضًا أصل سلسلة من الأخطاء في تنبؤ أخصائيي تقويم العظام في الأنواع الأخرى. على وجه الخصوص ، ستميل خطوط أنابيب شرح الجينوم إلى نشر التسلسل المقطوع في بروتينات النموذج المتوقع. على سبيل المثال ، يؤكد الخطأ في تحديد تقويم العظام DSCR1 الفأري المتشابه للغاية (66) أن التحيز الناجم عن البيانات البشرية الأصلية غير المكتملة أثر سلبًا على نمذجة تسلسل منتج DSCR1 الفئران.

بسبب التركيب المعقد للمواضع البشرية (67-70) ، فإن الأخطاء في إنشاء تسلسل دقيق (كدنا) قد تسبب أخيرًا عيوبًا في دراسة التنظيم الجيني للجين بسبب الروابط الوثيقة بين الحمض النووي الريبي (DNA) والحمض النووي الريبي (RNA) (الجدول 2). إذا تم استخدام (كدنا) غير مكتمل عند نهايته الخمسة لتأسيس التركيب الجيني للموضع ، فقد يتسبب ذلك في فشل التعرف على التسلسلات الجينية كجزء من الموضع (71). كنتيجة ثانوية ، فإن تصنيف المنطقة الجينية على أنها متداخلة بين الجينات قد يحافظ على "مساحة البحث" عن الجينات الجديدة موسعة بشكل مصطنع (71). نظرًا للقرب المادي من منطقة محفز الجينات ومنطقة mRNA المقابلة 5 ، فإن التسلسل الذي يُفترض أن يكون قريبًا من موقع بدء النسخ ويتم شرحه كمروج يمكن أن يكون في الواقع جزءًا من mRNA أطول ، كما هو موضح في TFF3 (72 ، 29). قد تزيد هذه المشكلة من صعوبة تحديد تسلسلات المحفز التي لا تحتوي على إشارات بدء وتوقف منتظمة أو عمليات حفظ مميزة لأنواع مختلفة مثل CDSs ، ويمكن أن تظهر أيضًا مع تسلسلات متباينة بين الأنواع البعيدة ، مع الحفاظ عليها وظيفيًا (73). من ناحية أخرى ، يمكن أن يؤدي التحديد غير الدقيق بين 5′-UTR و CDS إلى أخطاء في معرفة تسلسل 5′-UTR نفسه وفي تفسير دوره في التحكم في الترجمة (74). على الرغم من أن هذه الفئة الأخيرة من العواقب لا تؤثر بشكل مباشر على تنبؤ CDS ، إلا أنه ينبغي اعتبارها حافزًا إضافيًا لعدم التقليل من أهمية هذه الأداة نظرًا للدور المركزي للنهاية 5 في مسارات تنظيم التعبير الجيني. إن معرفة نهاية mRNA الحقيقية مفيدة أيضًا في تصميم تحقيقات خاصة بهذه المنطقة والتي قد تكون أكثر تنوعًا بين مواضع متشابهة أو أشكال إسوية من نفس المكان بدلاً من منطقة الترميز المركزية. هذا مهم فيما يتعلق بإمكانية استخراج مقاييس مرجعية كمية من مجموعات بيانات ميكرواري المتاحة للجمهور لقيم التعبير للمكمل الكامل للجينات لكل من النسخ العادية (75) أو المرضية (76). تؤثر المعرفة الدقيقة لمنطقة mRNA 5 أيضًا على اختيار morpholino oligonucleotides ، ولا سيما في أسماك الزرد (77) ، المستخدمة في تجارب ضربة قاضية (الجدول الثاني).

قد تكون الأداة أيضًا مصدرًا للأخطاء في أنواع أخرى من التحليل الجيني ، على الرغم من أنه في هذه الحالات من المتوقع ألا تكون النتائج ذات صلة ، حيث من المحتمل أن يمثل تغيير الحسابات انحرافًا بسيطًا ، وليس للتطبيق الطبي الفوري لهذه تحليلات [على سبيل المثال ، تقدير استخدام الكودون على مقياس جينومي (78) ، على الرغم من أن معرفة المجموعة الكاملة من الكودونات في cDNA يمكن أن تؤثر على تقنية إنتاج المنتج المترجم في مضيف (79)].

5. الحلول الممكنة لتحسين معرفة مناطق 5-ترميز في mRNAs

تم وصف العديد من الطرق بهدف معرفة نهاية 5-mRNA بدقة أكبر ، وبالتالي استبعاد أن CDS الخاص بها قد يتم التنبؤ به بشكل غير كامل. تم تصميم الأول في التسعينيات واستند إلى البروتوكولات التجريبية التي تستغل قدرة التقنيات المخصصة لتحديد القواعد الأولى المنسوخة من الحمض النووي أو القواعد الأولى التي تتبع الغطاء في mRNAs الناضجة. تم الاستشهاد بهذه الأساليب في قسم المقدمة ولا تزال صالحة ، على الرغم من أنها غالبًا ما تتطلب عمالة كثيفة ولا يتم استخدامها بشكل روتيني.

تعتمد المجموعة الثانية من الأساليب على مناهج البيولوجيا الحسابية ، مع ميزة توفير فحص منهجي أول يؤدي إلى استبعاد عدد ذي صلة من الجينات كمرشحين لقطعة أثرية من الرنا المرسال ذات 5 نهايات. نظرًا لتوفر نتائج الإنتاجية لنهج قائم على EST من هذا النوع (54) ، فمن المستحسن إجراء فحص أولي بسيط مقابل هذه النتائج للجين محل الاهتمام قبل افتراض أن المنتج المتوقع هو المنتج المسجل في الوقت الحالي نسخة من قواعد البيانات. أدى التحسين المستمر بمرور الوقت لتسلسل الرنا المرسال البشري إلى التقدير الحالي لـ 259 نيوكليوتيد باعتباره متوسط ​​حجم 5′-UTR (80) ، لذلك هناك احتمال ملموس لإخفاء تسلسل ترميز البروتين الممتد فعليًا في 5 أطول. -UTRs. يجب أن توفر التطورات الإضافية للتحليل الحسابي لأساليب تسلسل (كدنا) عالية الإنتاجية (RNA-Seq) أيضًا وسيلة لزيادة توصيف التسلسلات الكاملة للنصوص البشرية. تم إجراء العديد من الدراسات لتنفيذ أساليب RNA-Seq لتوصيف نهايات mRNA 5 في ذبابة الفاكهة السوداء (81،82).

أخيرًا ، تفتح التطورات الأخيرة لبحوث البروتيوميات الطريق لنهج مختلف ومتألق للمشكلة. معرفة تسلسل البروتين التي تم الحصول عليها عن طريق التحليل الهائل للرنين المغناطيسي النووي متعدد الببتيد (NMR) أو أطياف قياس الطيف الكتلي (MS) ، على وجه الخصوص الموجهة لتسلسل N-terminal (83،84) ، يمكن استخدامها للبحث العكسي عن التسلسلات الجينومية المتوقعة تترجم في تسلسل البروتين المحدد المقابلة. وهذا يشبه بالتالي التدفق التجريبي الأول للبروتين تجاه الحمض النووي ولكن على نطاق الجينوم ويعتمد إلى حد كبير على الأساليب الحسابية.

في الختام ، لقد قدمنا ​​دليلًا على أن الأساليب الحالية لبحوث الجينوميات تخضع لقطعة أثرية محتملة فيما يتعلق بالتحديد الدقيق لتسلسل منطقة mRNA 5 والعواقب التي قد تترتب على ذلك على التعليق التوضيحي ، وكذلك على الدراسة التجريبية لكليهما. الجينات والمنتجات الجينية. في حين أن هناك عدة استراتيجيات للتعامل مع هذه القضية ، يبدو أن أهم قضية تلفت انتباه المجتمع العلمي إلى هذه الإمكانية بحيث تؤخذ في الاعتبار عند التخطيط لتجارب في البيولوجيا الجزيئية وعلم الوراثة.

شكر وتقدير

تم تمويل زمالة M. تم تمويل زمالة MCP من خلال تبرع من Fondazione Umano Progresso ومن التبرعات التي تلت مبادرة جمع التبرعات الدولية من قبل Vittoria Aiello و Massimiliano Albanese (واشنطن العاصمة ، الولايات المتحدة الأمريكية) - الجهات المانحة المساهمة في هذه المبادرة مدرجة على الموقع: http : //www.massimilianoalbanese.net/ds-research/؟ lang = ar. تم تمويل زمالة A.P. بشكل أساسي من قبل قسم الطب التجريبي والتشخيصي والتخصصي (DIMES) ، جامعة بولونيا (بولونيا ، إيطاليا) وبتمويل مشترك من قبل Fondazione Umano Progresso. نحن ممتنون لكيرستن ويلتر لمراجعتها الخبيرة للمخطوطة.

مراجع

Borsani G و Ballabio A و Banfi S: دليل عملي لتوجيه نفسك في متاهة قواعد بيانات الجينوم. همهمة مول جينيه. 7: 1641-1648. 1998. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Pandey A و Lewitter F: قواعد بيانات تسلسل النيوكليوتيدات: منجم ذهب لعلماء الأحياء. اتجاهات علوم الكيمياء الحيوية. 24: 276-280. 1999. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Baxevanis AD و Bateman A: أهمية قواعد البيانات البيولوجية في الاكتشاف البيولوجي. المعلوماتية الحيوية بروتوكولي العملة. 50: 1.1.1-1.1.8. 2015. عرض المقال: الباحث العلمي من Google

Tropp BE: البيولوجيا الجزيئية: جينات البروتينات. الطبعة الثالثة. Jones & amp Bartlett Publishers ، Sudbury ، MA: 2008

Sambrook J و Russel DW: الاستنساخ الجزيئي: دليل المختبر. 2. الطبعة الثالثة. مطبعة مختبر كولد سبرينغ هاربور ، كولد سبرينغ هاربور نيويورك: 2001

Vitale L و Casadei R و Canaider S و Lenzi L و Strippoli P و D'Addabbo P و Giannone S و Carinci P و Zannotti M: Cysteine ​​and tyrosine-rich 1 (CYYR1) ، وهو جين جديد غير متوقع على الكروموسوم البشري 21 (21q21. 2) ، يشفر البروتين الغني بالسيستين والتيروزين ويحدد عائلة جديدة من الجينات الخاصة بالفقاريات المحفوظة للغاية. الجين. 290: 141 - 151. 2002. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Zhang J و Lou X و Shen H و Zellmer L و Sun Y و Liu S و Xu N و Liao DJ: غالبًا ما تظهر الأشكال الإسوية لبروتينات النوع البري على شكل نطاقات منخفضة الوزن الجزيئي على SDS-PAGE. Biotechnol J. 9: 1044-1054. 2014. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Adams MD و Kelley JM و Gocayne JD و Dubnick M و Polymeropoulos MH و Xiao H و Merril CR و Wu A و Olde B و Moreno RF وآخرون: تسلسل الحمض النووي التكميلي: علامات التسلسل المعبر عنها ومشروع الجينوم البشري. علم. 252: 1651–1656. 1991. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Boguski MS و Lowe TM و Tolstoshev CM: dbEST - قاعدة بيانات لـ "علامات التسلسل المعبر عنها". نات جينيه. 4: 332 - 333. 1993. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Nagaraj SH و Gasser RB و Ranganathan S: دليل المتجول لتحليل علامة التسلسل المعبر عنها (EST). موجز Bioinform. 8: 6-21. 2007. عرض المقال: الباحث العلمي من Google

Parkinson J و Blaxter M: علامات التسلسل المعبر عنها: نظرة عامة. طرق Mol Biol. 533: 1-12. 2009. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Gill RW و Sanseau P: الاستنساخ السريع في السيليكو للجينات باستخدام علامات التسلسل المعبر عنها (ESTs). Biotechnol Annu القس 5: 25-44. 2000. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Carulli JP و Artinger M و Swain PM و Root CD و Chee L و Tulig C و Guerin J و Osborne M و Stein G و Lian J وآخرون: تحليل الإنتاجية العالية للتعبير الجيني التفاضلي. ملحق J Cell Biochem. 30-31: 286-296. 1998. عرض المقال: الباحث العلمي من Google

Sorek R و Shamir R و Ast G: ما مدى انتشار التضفير الوظيفي البديل في الجينوم البشري؟ اتجاهات الجينات. 20: 68-71. 2004. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Bonizzoni P و Rizzi R و Pesole G: الطرق الحسابية للتنبؤ بالربط البديل. علم الجينوميات موجزة Funct. 5:46 - 51. 2006. عرض المقال: الباحث العلمي من Google

Brent MR: شرح الجينوم في الماضي والحاضر والمستقبل: كيفية تحديد ORF في كل موضع. الدقة الجينوم. 15: 1777 - 1786. 2005. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

سانجر ف: لاهيكل دي لينسولين. Bull Soc Chim Biol (باريس). 37: 23-35. 1955 بالفرنسية.

Yanofsky C و Carlton BC و Guest JR و Helinski DR و Henning U: حول العلاقة الخطية بين بنية الجينات وبنية البروتين. Proc Natl Acad Sci USA. 51: 266-272. 1964. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Sanger F و Nicklen S و Coulson AR: تسلسل الحمض النووي مع مثبطات إنهاء السلسلة. Proc Natl Acad Sci USA. 74: 5463-5467. 1977. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Ruddle FH: عنوان جائزة ويليام آلان التذكارية: علم الوراثة العكسي وما بعده. أنا J Hum Genet. 36: 944-953. 1984.PubMed / NCBI

كوزاك م: دفع حدود آلية المسح لبدء الترجمة. الجين. 299: 1–34. 2002. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Sambrook J و Russel DW: ينتهي التضخيم السريع لـ 5 ′ cDNA. الاستنساخ الجزيئي: دليل معمل. 3. الطبعة الثالثة. مطبعة مختبر كولد سبرينغ هاربور ، كولد سبرينغ هاربور نيويورك: ص 8.54-8.60. 2001

Okayama H و Berg P: استنساخ عالي الكفاءة لـ (كدنا) كامل الطول. مول الخلية بيول. 2: 161-170. 1982. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Baralle F: تسلسل النوكليوتيدات الكامل للمنطقة غير المشفرة 5 من مرنا ألفا وبيتا غلوبين البشري. زنزانة. 12: 1085-1095. 1977. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Proudfoot NJ: أكمل 3 متواليات منطقة غير مشفرة من الأرانب وبيتا غلوبين رسول RNAs. زنزانة. 10: 559-570. 1977. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Marotta CA و Wilson JT و Forget BG و Weissman SM: Human beta-globin messenger RNA. III تسلسل النوكليوتيدات المشتقة من الحمض النووي التكميلي. J بيول كيم. 252: 5040-5053. 1977PubMed / NCBI

Efstratiadis A و Kafatos FC و Maniatis T: الهيكل الأساسي للأرنب بيتا غلوبين مرنا كما تم تحديده من الحمض النووي المستنسخ. زنزانة. 10: 571-585. 1977. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Ullrich A و Shine J و Chirgwin J و Pictet R و Tischer E و Rutter WJ و Goodman HM: جينات أنسولين الفئران: بناء البلازميدات التي تحتوي على تسلسلات الترميز. علم. 196: 1313-1319. 1977. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Casadei R و Strippoli P و D'Addabbo P و Canaider S و Lenzi L و Vitale L و Giannone S و Frabetti F و Facchin F و Carinci P وآخرون: عدم اكتمال تسلسل المنطقة mRNA 5: مصدر محتمل للأخطاء المنهجية في الترجمة بدء تعيين كودون في mRNAs البشرية. الجين. 321: 185–193. 2003. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Harbers M: الوضع الحالي لاستنساخ (كدنا). علم الجينوم. 91: 232-242. 2008. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Carninci P ، Kvam C ، Kitamura A ، Ohsumi T ، Okazaki Y ، Itoh M ، Kamiya M ، Shibata K ، Sasaki N ، Izawa M ، et al: استنساخ (كدنا) كامل الطول بكفاءة عالية بواسطة صياد CAP ذو كفاءة عالية. علم الجينوم. 37: 327 - 336. 1996. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Kodzius R و Kojima M و Nishiyori H و Nakamura M و Fukuda S و Tagami M و Sasaki D و Imamura K و Kai C و Harbers M وآخرون: CAGE: تحليل كاب للتعبير الجيني. طرق نات. 3: 211-222. 2006. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Frohman MA و Dush MK و Martin GR: الإنتاج السريع لـ cDNAs كاملة الطول من النصوص النادرة: التضخيم باستخدام أساس أولي نكليوتيد واحد خاص بالجينات. Proc Natl Acad Sci USA. 85: 8998-9002. 1988. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Denoeud F و Kapranov P و Ucla C و Frankish A و Castelo R و Drenkow J و Lagarde J و Alioto T و Manzano C و Chrast J وآخرون: الاستخدام البارز لمواقع بدء النسخ 5 البعيدة واكتشاف عدد كبير من الإضافات exons في مناطق التشفير. الدقة الجينوم. 17: 746-759. 2007. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

سوزوكي واي ، إيشيهارا د ، ساساكي إم ، ناكاجاوا إتش ، هاتا ، تسونودا تي ، واتانابي إم ، كوماتسو تي ، أوتا تي ، إيسوجاي تي ، وآخرون: التحليل الإحصائي للمنطقة غير المترجمة من الرنا المرسال البشري باستخدام `` Oligo-Capped '' مكتبات (كدنا). علم الجينوم. 64: 286 - 297. 2000. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Porcel BM و Delfour O و Castelli V و De Berardinis V و Friedlander L و Cruaud C و Ureta-Vidal A و Scarpelli C و Wincker P و Schächter V وآخرون: العديد من التعليقات الجديدة لتسلسل الجينوم البشري مدعومة بـ 5′- جمع نهاية المخصب (كدنا). الدقة الجينوم. 14: 463-471. 2004. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Metzker ML: تقنيات التسلسل - الجيل القادم. نات ريف جينيت. 11: 31-46. 2010. عرض المقال: الباحث العلمي من Google

Ingolia NT و Ghaemmaghami S و Newman JR و Weissman JS: التحليل على مستوى الجينوم في الجسم الحي للترجمة مع دقة النيوكليوتيدات باستخدام التنميط الريبوسوم. علم. 324: 218-223. 2009. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Ingolia NT و Lareau LF و Weissman JS: يكشف التنميط الريبوسومي للخلايا الجذعية الجنينية للفأر عن تعقيد وديناميكيات البروتينات في الثدييات. زنزانة. 147: 789-802. 2011. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Fritsch C و Herrmann A و Nothnagel M و Szafranski K و Huse K و Schumann F و Schreiber S و Platzer M و Krawczak M و Hampe J وآخرون: البحث على مستوى الجينوم عن uORFs البشرية الجديدة وامتدادات البروتين الطرفية N باستخدام البصمة الريبوسومية . الدقة الجينوم. 22: 2208 - 2218. 2012. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Van Damme P و Gawron D و Van Criekinge W و Menschaert G: توفر البروتينات الطرفية N وتنميط الريبوسوم رؤية شاملة لمشهد بدء الترجمة البديل في الفئران والرجال. بروتينات الخلايا المولية. 13: 1245-1261. 2014. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Iacono M و Mignone F و Pesole G: uAUG و uORFs في الإنسان والقوارض 5 ′ mRNAs غير المترجمة. الجين. 349: 97-105. 2005. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Barbosa C و Peixeiro I و Romão L: تنظيم التعبير الجيني عن طريق إطارات القراءة المفتوحة المنبع والمرض البشري. بلوس جينيت. 9: e10035292013. مشاهدة المقال: الباحث العلمي من Google: PubMed / NCBI

Nishitani H و Hirose E و Uchimura Y و Nakamura M و Umeda M و Nishii K و Mori N و Nishimoto T: يشفر RanBPM كامل الحجم cDNA بروتينًا يمتلك امتدادًا طويلاً من البرولين والجلوتامين داخل منطقة N- الطرفية مجمع البروتين. الجين. 272: 25-33. 2001. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Kobayashi A و Ito E و Toki T و Kogame K و Takahashi S و Igarashi K و Hayashi N و Yamamoto M: الاستنساخ الجزيئي والتوصيف الوظيفي لعامل نسخ عائلة Cap'n 'الجديد Nrf3. J بيول كيم. 274: 6443-6452. 1999. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Nomura N و Nagase T و Miyajima N و Sazuka T و Tanaka A و Sato S و Seki N و Kawarabayasi Y و Ishikawa K و Tabata S: التنبؤ بتسلسل ترميز الجينات البشرية غير المحددة. II تسلسل الترميز لـ 40 جينًا جديدًا (KIAA0041-KIAA0080) مستخلص من تحليل استنساخ cDNA من خط الخلية البشرية KG-1. الدقة DNA. 1: 223 - 229. 1994. عرض المقال: الباحث العلمي من Google

Kingsley C و Winoto A: استنساخ بروتينات ربط صندوق GT: عائلة جديدة متعددة الجينات Sp1 تنظم التعبير الجيني لمستقبل الخلايا التائية. مول الخلية بيول. 12: 4251-4261. 1992. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Strippoli P ، Pelleri MC ، Caracausi M ، Vitale L ، Piovesan A ، Locatelli C ، Mimmi MC ، Berardi AC ، Ricotta D ، Radeghieri A ، وآخرون: طريق متكامل لتحديد الأساليب العلاجية الجديدة القائمة على مسببات الأمراض للتثلث الصبغي 21 (متلازمة داون ) باتباع فكر جيروم ليجون. Sci Postprint. 1: e000102013. مشاهدة المقال: الباحث العلمي من Google

Pelleri MC ، Cicchini E ، Locatelli C ، Vitale L ، Caracausi M ، Piovesan A ، Rocca A ، Poletti G ، Seri M ، Strippoli P ، وآخرون: إعادة التحليل المنهجي للتثلث الصبغي الجزئي 21 حالة مع أو بدون متلازمة داون تشير إلى منطقة صغيرة على 21q22.13 كحرجة للنمط الظاهري. همهمة مول جينيه. 25: 2525-2538. 2016 PubMed / NCBI

Hattori M، Fujiyama A، Taylor TD، Watanabe H، Yada T، Park HS، Toyoda A، Ishii K، Totoki Y، Choi DK، et al Chromosome 21 Mapping and Sequence Consortium: تسلسل الحمض النووي للكروموسوم البشري 21. الطبيعة. 405: 311-319. 2000. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Reymond A و Camargo AA و Deutsch S و Stevenson BJ و Parmigiani RB و Ucla C و Bettoni F و Rossier C و Lyle R و Guipponi M وآخرون: تسعة عشر نسخة إضافية غير متوقعة من الكروموسوم البشري 21. علم الجينوم. 79: 824-832. 2002. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Pesole G و Gissi C و Grillo G و Licciulli F و Liuni S و Saccone C: تحليل oligonucleotide AUG يبدأ سياق الكودون في eukariotic mRNAs. الجين. 261: 85-91. 2000. عرض المقال: الباحث العلمي من Google

Frabetti F و Casadei R و Lenzi L و Canaider S و Vitale L و Facchin F و Carinci P و Zannotti M و Strippoli P: التحليل المنهجي لتسلسل ترميز mRNA 5 ′ في Danio rerio: نهج آلي قائم على EST. بيول دايركت. 2: 342007. مشاهدة المقال: الباحث العلمي من Google

Casadei R و Piovesan A و Vitale L و Facchin F و Pelleri MC و Canaider S و Bianconi E و Frabetti F و Strippoli P: تحليل مقياس الجينوم لتسلسل ترميز mRNA البشري 5 ′ استنادًا إلى قاعدة بيانات علامة التسلسل المعبر عنها (EST). علم الجينوم. 100: 125-130. 2012. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Piovesan A و Caracausi M و Pelleri MC و Vitale L و Martini S و Bassani C و Gurioli A و Casadei R و Soldà G و Strippoli P: تحسين تحديد تسلسل ترميز mRNA 5 ′ في جينوم الفأر. مام جينوم. 25: 149-159. 2014. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Kochetov AV و Sarai A و Rogozin IB و Shumny VK و Kolchanov NA: دور مواقع بدء الترجمة البديلة في توليد تنوع البروتين البشري. مول الجينوم. 273: 491-496. 2005. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Bazykin GA و Kochetov AV: يتم حفظ مواقع بدء الترجمة البديلة في جينومات حقيقية النواة. الدقة الأحماض النووية. 39: 567-577. 2011. عرض المقال: الباحث العلمي من Google:

Ivanov IP و Firth AE و Michel AM و Atkins JF و Baranov PV: تحديد امتدادات N-terminal المحفوظة تطوريًا والتي لم تبدأ من AUG في تسلسل الترميز البشري. الدقة الأحماض النووية. 39: 4220 - 4234. 2011. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Arakaki TL و Pezza JA و Cronin MA و Hopkins CE و Zimmer DB و Tolan DR و Allen KN: هيكل الفركتوز في الدماغ البشري 1.6- (مكرر) ألدوليز الفوسفات: ربط بنية isozyme بالوظيفة. علوم البروتين. 13: 3077-3084. 2004. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Lamour V و Quevillon S و Diriong S و N'Guyen VC و Lipinski M و Mirande M: تطور عائلة تركيبة Glx-tRNA: إنزيم الجلوتامينيل كحالة نقل جيني أفقي. Proc Natl Acad Sci USA. 91: 8670-8674. 1994. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Hermann E و Darcissac E و Idziorek T و Capron A و Bahr GM: ينظم إنترلوكين -16 المؤتلف بشكل انتقائي تعبير مستقبلات السطح وإطلاق السيتوكين في البلاعم والخلايا المتغصنة. علم المناعة. 97: 241 - 248. 1999. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Schatz G و Dobberstein B: المبادئ المشتركة لنقل البروتين عبر الأغشية. علم. 271: 1519-1526. 1996. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Nakamura M و Masuda H و Horii J و Kuma K و Yokoyama N و Ohba T و Nishitani H و Miyata T و Tanaka M و Nishimoto T: عند الإفراط في التعبير ، يتسبب بروتين مركزي جديد ، RanBPM ، في تكوين نواة دقيقة خارج الرحم تشبه جاما توبولين. J خلية بيول. 143: 1041-1052. 1998. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Varshavsky أ: قاعدة N-end: الوظائف ، الألغاز ، الاستخدامات. Proc Natl Acad Sci USA. 93: 12142-12149. 1996. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Rothermel B و Vega RB و Yang J و Wu H و Bassel-Duby R و Williams RS: يتم إثراء البروتين المشفر داخل المنطقة الحرجة لمتلازمة داون في العضلات المخططة ويمنع إشارات الكالسينورين. J بيول كيم. 275: 8719-8725. 2000. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Strippoli P و Petrini M و Lenzi L و Carinci P و Zannotti M: عائلة الجينات الشبيهة بالفئران DSCR1 (منطقة مرشح متلازمة داون 1): مخلوط محفوظ مع الجينات المتعامدة البشرية. الجين. 257: 223-232. 2000. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Vitale L ، Frabetti F ، Huntsman SA ، Canaider S ، Casadei R ، Lenzi L ، Facchin F ، Carinci P ، Zannotti M ، Coppola D ، وآخرون: التسلسل ، الربط البديل `` الدقيق '' والتعبير عن CYYR1 (السيستين / التيروزين- غنية 1) مرنا في أورام الغدد الصماء العصبية البشرية. سرطان BMC. 7: 662007. مشاهدة المقال: الباحث العلمي من Google

Facchin F و Canaider S و Vitale L و Frabetti F و Griffoni C و Lenzi L و Casadei R و Strippoli P: تحديد وتحليل RCAN3 البشري (DSCR1L2) mRNA والأشكال الإسوية البروتينية. الجين. 407: 159–168. 2008. عرض المقال: الباحث العلمي من Google

Facchin F و Vitale L و Bianconi E و Piva F و Frabetti F و Strippoli P و Casadei R و Pelleri MC و Piovesan A و Canaider S: تعقيد النسخ ثنائي الاتجاه والربط البديل في موضع RCAN3 البشري. بلوس واحد. 6: e245082011. مشاهدة المقال: الباحث العلمي من Google: PubMed / NCBI

Casadei R و Pelleri MC و Vitale L و Facchin F و Canaider S و Strippoli P و Vian M و Piovesan A و Bianconi E و Mariani E وآخرون: توصيف موضع الجين البشري CYYR1: نظام معقد متعدد النسخ. ممثل مول بيول 41: 6025-6038. 2014. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Nagase T و Seki N و Ishikawa K و Tanaka A و Nomura N: التنبؤ بتسلسل ترميز الجينات البشرية غير المحددة. تسلسل ترميز 40 جينًا جديدًا (KIAA0161-KIAA0200) مستخلص بتحليل استنساخ cDNA من خط الخلية البشرية KG-1. الدقة DNA. 3: 17-24. 1996. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Ribieras S و Lefèbvre O و Tomasetto C و Rio MC: جينات عامل الفأر ثلاثي الوريقات: التنظيم الجينومي والتسلسلات وتحليلات المثيلة. الجين. 266: 67-75. 2001. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Doglio L و Goode DK و Pelleri MC و Pauls S و Frabetti F و Shimeld SM و Vavouri T و Elgar G: التطور الموازي للكود التنظيمي للكوردات من أجل التنمية. بلوس جينيت. 9: e10039042013. مشاهدة المقال: الباحث العلمي من Google: PubMed / NCBI

Hinnebusch AG و Ivanov IP و Sonenberg N: التحكم الانتقالي بواسطة مناطق غير مترجمة 5′ من mRNAs حقيقية النواة. علم. 352: 1413-1416. 2016. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Caracausi M و Vitale L و Pelleri MC و Piovesan A و Bruno S و Strippoli P: خريطة مرجعية كمية للدماغ البشري الطبيعي. علم الوراثة العصبية. 15: 267-287. 2014. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Pelleri MC و Piovesan A و Caracausi M و Berardi AC و Vitale L و Strippoli P: خرائط نسخ تفاضلية متكاملة لسرطان الدم الحاد Megakaryoblastic Leukemia (AMKL) عند الأطفال المصابين أو غير المصابين بمتلازمة داون (DS). علم الجينوم BMC Med. 7: 63 2014. مشاهدة المقال: الباحث العلمي من Google: PubMed / NCBI

Manning AG و Crawford BD و Waskiewicz AJ و Pilgrim DB: متماثل unc-119 مطلوب للتطور الطبيعي للجهاز العصبي للزرد. منشأ. 40: 223-230. 2004. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Piovesan A و Vitale L و Pelleri MC و Strippoli P: ارتباط عالمي وثيق لتحيز الكودون ومجموعة من أكواد الحمض النووي الريبي (الكودونوم): تم تحسين الجينوم للسماح بأي توزيع لقيم التعبير الجيني في النسخ من البكتيريا إلى البشر. علم الجينوم. 101: 282 - 289. 2013. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Komar AA: استخدام الكودون يين ويانغ. همهمة مول جينيه. 25 (R2): R77-R85. 2016. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Piovesan A و Caracausi M و Antonaros F و Pelleri MC و Vitale L: GeneBase 11: أداة لتلخيص البيانات من مجموعات بيانات الجينات NCBI وتطبيقها على تحديث إحصائيات الجينات البشرية. قاعدة بيانات (أكسفورد). 2016. pii: baw153. 2016 ، عرض المقال: الباحث العلمي من Google

Ahsan B و Saito TL و Hashimoto S و Muramatsu K و Tsuda M و Sasaki A و Matsushima K و Aigaki T و Morishita S: MachiBase: قاعدة بيانات نسخ Drosophila melanogaster 5′-end mRNA. الدقة الأحماض النووية. 37 (قاعدة بيانات): D49 – D53. 2009. عرض المقال: الباحث العلمي من Google

Machida RJ و Lin YY: أربع طرق لإعداد مكتبات mRNA 5-end باستخدام منصة تسلسل Illumina. بلوس واحد. 9: e1018122014. مشاهدة المقال: الباحث العلمي من Google

Helbig AO و Gauci S و Raijmakers R و van Breukelen B و Slijper M و Mohammed S و Heck AJ: يوفر التنميط لمصطلح البروتين N-acetylated رؤى متعمقة لطبيعة N- الطرفية للبروتين. بروتينات الخلايا المولية. 9: 928-939. 2010. عرض المقال: الباحث العلمي من Google: PubMed / NCBI

Doucet A و CM العام: قياس الطيف الكتلي للركائز الأمينية الطرفية (ATOMS) التسلسل الطرفي للبروتينات ومواقع الانقسام المحللة للبروتين عن طريق مطياف الكتلة الكمي. طرق الانزيم. 501: 275 - 293. 2011. عرض المقال: الباحث العلمي من Google: PubMed / NCBI


الملخص

لا تعتمد تركيزات البروتين على مستوى الرنا المرسال فحسب ، بل تعتمد أيضًا على معدل الترجمة ومعدل التحلل. سيوفر التنبؤ بمعدل ترجمة mRNA معلومات قيمة للفهم المتعمق لآلية الترجمة والبروتين الديناميكي. في هذه الدراسة ، طورنا نموذجًا حسابيًا جديدًا للتنبؤ بمعدل الترجمة ، يتميز بـ (1) دمج العديد من الميزات الوظيفية المشتقة من التسلسل ، (2) تطبيق الحد الأقصى من الملاءمة وطريقة الحد الأدنى من التكرار واختيار الميزة الإضافية لتحديد الميزات لتحسينها. نموذج التنبؤ ، و (3) القدرة على التنبؤ بمعدل ترجمة RNA إلى فئة معدل الترجمة المرتفع أو المنخفض. كانت دقة التنبؤ في ظل ظروف الغنى والجوع 68.8٪ و 70.0٪ على التوالي ، تم تقييمها من خلال التحقق من صحة الجاك نايف. تم العثور على أن الميزات التالية مرتبطة بمعدل الترجمة: تردد استخدام الكودون ، وبعض درجات إثراء علم الجينات ، وعدد بروتينات ربط الحمض النووي الريبي المعروف بربط منتج mRNA الخاص به ، وطول تسلسل الترميز ، ووفرة البروتين و 5 ′UTR طاقة مجانية. قد توفر هذه النتائج معلومات مفيدة لفهم آليات الترجمة والبروتيوم الديناميكي. قد يصبح نموذج التنبؤ بمعدل الترجمة الخاص بنا أداة إنتاجية عالية للتعليق على معدل ترجمة mRNAs على نطاق واسع.

الاقتباس: Huang T و Wan S و Xu Z و Zheng Y و Feng K-Y و Li H-P وآخرون. (2011) التحليل والتنبؤ بمعدل الترجمة بناءً على التسلسل والميزات الوظيفية لـ mRNA. بلوس واحد 6 (1): e16036. https://doi.org/10.1371/journal.pone.0016036

محرر: Grzegorz Kudla ، جامعة إدنبرة ، المملكة المتحدة

تم الاستلام: 5 أغسطس 2010 وافقت: 6 ديسمبر 2010 نشرت: 6 يناير 2011

حقوق النشر: © 2011 Huang et al. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ بأي وسيلة ، بشرط ذكر المؤلف الأصلي والمصدر.

التمويل: تم دعم هذا العمل من خلال منح من برنامج ابتكار المعرفة التابع للأكاديمية الصينية للعلوم (KSCX1-YW-R-74) ، مؤسسة أبحاث بيولوجيا الأنظمة بجامعة شنغهاي ، لجنة شنغهاي للعلوم والتكنولوجيا (09DZ227180) ، لجنة شنغهاي للعلوم والتكنولوجيا (09DZ227180) ) ، البرنامج الوطني للبحوث الأساسية في الصين (2011CB510102 ، 2011CB510101). لم يكن للممولين أي دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.


مناقشة

العقدة الكاذبة نادرة نسبيًا في الحمض النووي الريبي الكبير ولكنها ممثلة بشكل كبير في مناطق وظيفية مهمة (2 ، 3 ، 6 ، 7). على الرغم من أهميتها ، لا تسمح خوارزميات التنبؤ بهيكل الحمض النووي الريبي الأكثر شيوعًا بالعقدة الكاذبة لأن السماح بالعقدة الكاذبة يزيد من تعقيد الخوارزمية وعدد الهياكل الممكنة. الخوارزميات الحالية التي تسمح للعقدة الزائفة باسترداد & # x0223c70٪ من إجمالي الأزواج الأساسية المقبولة. تختلف حساسية التنبؤ للأزواج الأساسية التي تشكل على وجه التحديد عقدة كاذبة باختلاف الخوارزمية و RNAs المعيارية ولكن متوسطاتها فقط 5 & # x0201340٪ ، مع العديد من التنبؤات الإيجابية الخاطئة (المرجع 13 والجدول S3 و S4). وبالتالي ، فإن الجيل الحالي من خوارزميات التنبؤ الكاذبة غير مناسب لتصميم فرضيات بيولوجية قابلة للاختبار.

يجمع ShapeKnots بين خوارزمية اكتشاف pseudoknot تكرارية مع معلومات SHAPE التجريبية ونموذج طاقة بسيط للتكلفة الحتمية لتشكيل pseudoknot. تحتوي عقوبة العقدة الكاذبة في ShapeKnots على معلمتين قابلتين للتعديل فقط (الشكل 1 و Eq. 2) التي تحد من تكوين العقدة الكاذبة مع مناطق طويلة منفردة والعديد من اللوالب المتداخلة والتي تفرض هندسة مثالية للحلزونات المضمنة. يسمح ShapeKnots أيضًا بدمج تصحيح تجريبي لشروط الطاقة المجانية القياسية. يؤدي تضمين بيانات SHAPE إلى الحد من عدد الهياكل الممكنة ويوفر المعلومات التي تفسر الميزات المخفية التي تعمل على استقرار طي الحمض النووي الريبي ، بما في ذلك التأثيرات المهمة لأيون المعدن وربط الترابط.

تتكون مجموعتنا من هياكل التدريب من 16 RNAs لهيكل معروف تراوحت أطوالها من 34 إلى 530 nt pseudoknots تحدث في 9 من أصل 16 RNAs. كانت دقة التنبؤ عالية باستمرار (الجدول 1 ومجموعة البيانات S1). تفوقت ShapeKnots بشكل كبير على خوارزميات التنبؤ pseudoknot المتوفرة حاليًا وهي الخوارزمية الوحيدة التي تحقق & # x0003e90٪ الحساسيات الشاملة والعقدة الزائفة مع مجموعة الاختبار هذه (الجدولان S3 و S4 راجعان أساليب لمزيد من المناقشة). يساهم كل من عقوبة الطاقة الزائفة المحددة واستخدام بيانات الشكل في دقة نهج ShapeKnots. من المحتمل أن يؤدي تضمين بيانات SHAPE بشكل عام إلى تحسين الدقة لخوارزميات التنبؤ الكاذبة.

نلخص نتائج النمذجة لدينا من خلال التأكيد على أربع فئات من الحمض النووي الريبي: (أنا) الحمض النووي الريبي قصير العقد الكاذب مع الهياكل التي تتنبأ بها ShapeKnots بدقة شديدة (ثانيا) جزيئات RNA كبيرة وصعبة تتنبأ بها ShapeKnots بدقة جيدة (ثالثا) RNAs ذات الاحتمالية العالية لسوء توصيفها باستخدام العقدة الكاذبة الإيجابية الزائفة أو الفائتة التي تتنبأ بها ShapeKnots بدقة و (رابعا) RNAs التي تتفاعل مع جزيئات أخرى مثل الروابط والبروتينات وأيونات المعادن التي تشكل تحديات فريدة. بالنسبة لمعظم RNAs التي تم تحليلها هنا ، كانت الاختلافات بين النماذج التي تم إنشاؤها بواسطة ShapeKnots والهياكل المقبولة حاليًا طفيفة وتتضمن عادةً تفاعلات قصيرة المدى أو أزواج قاعدية في نهايات الحلزونات. في بعض الحالات ، من المحتمل أن تعكس الاختلافات الحالات التي يمكن الوصول إليها بالديناميكا الحرارية عند التوازن في المحلول.

الرنا القصير الكاذب.

تشتمل الفئة الأولى على جزيئات الحمض النووي الريبي الصغيرة التي تحتوي على عقدة كاذبة من النوع H: المحول الريبي قبل Q1 ، والتيلوميراز البشري ، والمحول الريبي للفلورايد ، ومجال فيروس كورونا المتلازمة التنفسية الحادة الوخيمة (سارس). نظرًا لأن خوارزميات البرمجة الديناميكية الأكثر شيوعًا لا يمكنها التنبؤ بأزواج القاعدة في العقدة الكاذبة من النوع H ، فإن حساسيات التنبؤ باستخدام خوارزمية تقليدية (14) كانت ضعيفة جدًا على النقيض من ذلك ، أسفرت ShapeKnots عن تنبؤات مثالية أو شبه مثالية في كل حالة (الشكل 3 ، قارن اليسار و حق أعمدة). تشتمل أزواج القاعدة الوحيدة التي تم توقعها من ShapeKnots والتي لا تحدث في الهياكل المقبولة على مجموعات من 2 أو أقل من bp الموجودة في نهايات الحلزونات الفردية في المحول الريبي للفلوريد ومجال السارس. تشير هذه النتائج إلى أن تنبؤ ShapeKnots للعقدة الكاذبة من النوع H في RNAs قصير قوي.

ملخص التنبؤات لأربعة عقدة كاذبة من النوع H. يتم توضيح تنبؤات زوج القاعدة على النحو المبين في الشكل 2 ، يتم سرد الحساسية (الحساسة) و ppv لكل هيكل. اليسار و حق تظهر الأعمدة تنبؤات لخوارزمية فئة mfold التقليدية مقابل ShapeKnots (مع قيود SHAPE التجريبية).

الحمض النووي الريبي المعقد الكبير.

تشتمل الفئة الثانية على جزيئات RNA كبيرة لا تتطلب روابط أو عوامل مساعدة بروتينية من أجل الطي الصحيح. تشكل RNAs الكبيرة تحديًا لخوارزميات النمذجة نظرًا للعدد الهائل من الهياكل الممكنة وبسبب العدد الكبير من الهياكل ذات الطاقات الحرة القابلة للطي المتشابهة. على سبيل المثال ، في حالة عدم وجود بيانات فحص الهيكل التجريبي ، تمثيلية اثنين من الحمض النووي الريبي ، فإن Azoarcus المجموعة الأولى intron ومجال تسلسل دخول الريبوسوم الداخلي لفيروس التهاب الكبد C (IRES) ، مع حساسيات تبلغ 73٪ و 39٪ على التوالي. تحدث أخطاء التوقع بشكل أساسي في شكلين أساسيين في Azoarcus RNA ولكنه يمتد بشكل أساسي إلى فيروس التهاب الكبد C بأكمله (HCV) IRES RNA (الشكل 4). أسفر إدراج بيانات SHAPE عن تنبؤات شبه مثالية في كل حالة ، بما في ذلك التحديد الصحيح للعقدة الكاذبة في كل RNA (الشكل 4 ، قارن اليسار و حق أعمدة).


شاهد الفيديو: المجال 1 الوحدة 2 الغلاقة بين بنية البروتين و وظيفته الجزء الأول (ديسمبر 2022).