معلومة

كيف تبحث عن تسلسل الحمض النووي في الجينوم على ENA (أرشيف النوكليوتيدات الأوروبي)؟

كيف تبحث عن تسلسل الحمض النووي في الجينوم على ENA (أرشيف النوكليوتيدات الأوروبي)؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

يجب أن أقوم بالبحث عن تسلسلات DNA صغيرة في جينوم كائن حي في ENA. لدي رقم الانضمام ومعرف المشروع. ومع ذلك ، لا يمكنني تنزيل الجينوم بأكمله بسبب حجم التنزيل وأفضل القيام بذلك عبر الإنترنت إن أمكن. لدي فكرة تقريبية عن جزء الجينوم الذي أرغب في مسحه ضوئيًا ، لا أعرف ما إذا كان ذلك مناسبًا.


في حين أنه من الأفضل / الأسهل التنزيل والقيام بالبحث الدقيق بنفسك ، فمن الممكن القيام بشيء مماثل عبر الإنترنت. يمكنك استخدام NCBI-BLAST وزيادة طول الكلمة وعقوبة عدم التطابق / الفجوة. كما يسمح بتقييد مساحة الموضوع ؛ يمكنك حتى محاذاة تسلسلين. لا يتمتع BLAST على ENA بقدر كبير من المرونة (تقييد الموضوع / طول الكلمة). ربما يمكنك البحث عن تسلسل مكرر على NCBI.

إذا كان هذا الجينوم متاحًا على متصفح الجينوم UCSC ، فيمكنك استخدام BLAT أيضًا. ومع ذلك ، فإنه يقبل فقط التسلسلات الأكبر من 19nt.


كيف تبحث عن تسلسل الحمض النووي في الجينوم على ENA (أرشيف النوكليوتيدات الأوروبي)؟ - مادة الاحياء

أدوات المعلوماتية الحيوية للتحليل الجينومي والتطوري للعوامل المعدية

فيفيك دار دويفيدي 1 ، شيف بارادواج 2 ، بارثا سارثي موهانتي 1 ، أوميش داتا جوبتا 3
1 قسم علم الأوبئة ، معهد JALMA الوطني للجذام والأمراض الفطرية الأخرى ، أجرا ، أوتار براديش ، الهند
2 مركز أبحاث وتطبيق تكنولوجيا النانو ، جامعة سابانجي ، اسطنبول ، تركيا
3 قسم التجارب على الحيوانات ، معهد JALMA الوطني للجذام والأمراض الفطرية الأخرى ، ICMR ، أغرا ، أوتار براديش ، الهند

تاريخ النشر على شبكة الإنترنت6 سبتمبر 2018

عنوان المراسلة:
د. أوميش داتا جوبتا
قسم التجارب على الحيوانات ، المعهد الوطني لجالما للجذام والأمراض الفطرية الأخرى ، ICMR ، أغرا ، أوتار براديش
الهند

مصدر الدعم: لا أحد، تضارب المصالح: لا أحد

DOI: 10.4103 / bbrj.bbrj_74_18

يكشف تحليل تسلسل الجينوم للعوامل المعدية (IAs) عن العديد من الأسرار حول عمليات حياتهم والتاريخ التطوري. إن زيادة الكمية الهائلة من بيانات التسلسل الجينومي لمختلف IAs في قواعد بيانات التسلسل البيولوجي المختلفة ، والتي يتم إنتاجها من خلال مشاريع التسلسل المختلفة ، تحفز باستمرار باحثي الجينوم على فك الألغاز المتعلقة بحياة IAs. علاوة على ذلك ، قد تكون هذه المعلومات مفيدة في علاج مشكلة المرض الخطيرة التي تسببها IAs. ومع ذلك ، تتطلب جميع أعمال تحليل الجينوم معرفة جيدة بأدوات المعلوماتية الحيوية التي قد تكون مفيدة لباحثي الجينوم لاستخراج المعلومات المفيدة والدقيقة من بيانات تسلسل الجينوم الخاصة بـ IAs. في هذه المقالة ، تمت مناقشة أحدث أدوات المعلوماتية الحيوية للتحليل الجيني والتطوري للعوامل المعدية ومقارنتها بالتفصيل مما سيساعد باحثي الجينوم على اختيار الأداة الأنسب للتحليل الجيني والتطوري لل IAs.

الكلمات الدالة: أدوات المعلوماتية الحيوية ، التطور ، الجينوم ، العوامل المعدية


كيف تستشهد بهذا المقال:
Dwivedi VD، Bharadwaj S، Mohanty PS، Gupta UD. أدوات المعلوماتية الحيوية للتحليل الجينومي والتطوري للعوامل المعدية. Biomed Biotechnol Res J 20182: 163-7

كيفية الاستشهاد بعنوان URL هذا:
Dwivedi VD، Bharadwaj S، Mohanty PS، Gupta UD. أدوات المعلوماتية الحيوية للتحليل الجينومي والتطوري للعوامل المعدية. Biomed Biotechnol Res J [مسلسل على الإنترنت] 2018 [تم الاستشهاد به في 2021 يونيو 27] 2: 163-7. متاح من: https://www.bmbtrj.org/text.asp؟2018/2/3/163/240709

العوامل المعدية (IAs) مثل البكتيريا والفطريات والأوليات والديدان الطفيلية والفيروسات تسبب مشاكل صحية خطيرة للغاية في البشر. يحتوي جينوم جميع IAs على DNA RNA كمادة وراثية تمتلك ترتيبًا محددًا من النيوكليوتيدات. يميز الترتيب المحدد للنيوكليوتيدات في جينوم كل IA هويتها عن بعضها البعض. يتم إخفاء سر أصل ونمو وبقاء وفوعة وتطور IAs في الترتيب المحدد للنيوكليوتيدات في جينوماتها. [1] ، [2] وبالتالي ، من المهم جدًا تحليل جينوم IAs لتقليل هويتها ، والآلية الجزيئية للعدوى ، وتطوير عقاقير فعالة جديدة لعلاج آثارها السيئة. تتطلب بيانات تسلسل الجينوم لـ IAs ، والتي يتم إنتاجها من خلال مشاريع التسلسل المختلفة حول العالم والمودعة في قواعد بيانات تسلسل النيوكليوتيدات المختلفة ، العديد من في السيليكو أدوات لكشف سر حياتهم. يتم جمع وتنظيم وتوزيع الكمية الهائلة من بيانات تسلسل النيوكليوتيدات التي تم إنتاجها تجريبيًا بواسطة التعاون الدولي لقاعدة بيانات تسلسل النيوكليوتيدات ، [3] وهو جهد مشترك لقواعد بيانات تسلسل النيوكليوتيدات مثل EMBL-EBI (المعهد الأوروبي للمعلومات الحيوية ، http: //www.ebi.ac.uk) ، DDBJ (بنك بيانات DNA الياباني ، http://www.ddbj.nig.ac.jp) ، و GenBank (المركز الوطني لمعلومات التكنولوجيا الحيوية ، http: //www.ncbi .nlm.nih.gov). [4] ، [5] ، [6] في السيليكو كانت الأدوات جزءًا لا يتجزأ من البحث البيولوجي المصمم للكشف عن المعلومات المفيدة من البيانات البيولوجية في وقت قصير جدًا. بالرغم ان في السيليكو أدوات لا يمكن أن تكشف عن نتائج موثوقة مثلفي المختبر أوفي الجسم الحي التحقيقات ، وهي مكلفة للغاية وتستغرق وقتًا طويلاً ، ومع ذلك ، يمكن لتحليلات المعلوماتية الحيوية أن تسهل الوصول إلى قرار مستنير لإجراء بحث مكلف. [7] ، [8] ولكن في حالات كثيرة فقط في السيليكو أدوات قادرة على الإجابة على أسئلة البحث البيولوجي. تطوير هذه الأدوات هو جزء مهم من المعلوماتية الحيوية ومجال البيولوجيا الحسابية. عدد كبير من في السيليكو تم تطوير أدوات للتحليل الجينومي والتطوري لل IAs ، لكن اختيار الأداة المناسبة لتحليل البيانات الجينومية يتطلب معرفة قوية بالإحصاءات والخوارزميات الحسابية. وبالتالي ، من الصعب جدًا على الباحثين من خلفية علم الأحياء غير الحسابي اختيار الخلفية المناسبة.

في ضوء الحقائق المذكورة أعلاه ، من الضروري للغاية استكشاف أهمية ودقة أدوات المعلوماتية الحيوية المختلفة لأنواع مختلفة من التحليل الجيني والتطوري لل IAs. في هذه المراجعة ، تمت مناقشة أدوات المعلوماتية الحيوية المختلفة للتحليل الجينومي والتطوري لل IAs والتي ستكون مفيدة لباحثي IA من خلفية غير المعلوماتية الحيوية لاختيار الأداة المناسبة لعملهم.

تحديد التسلسل أو البحث عن التشابه

تعتبر أدوات تحديد تسلسل الحمض النووي أو البحث عن التشابه (SSTs) أول أهم برامج البحث البيولوجي التي تساعد العلماء على اتخاذ القرار الصحيح بشأن هوية الأنواع وتصنيفها من خلال توفير المعلومات حول الكائنات الحية المرتبطة بها نتيجة لذلك. تبحث هذه الأدوات في تسلسل الحمض النووي المتشابه في قواعد البيانات عن تسلسل DNA الاستعلام المحدد. تحتوي كل قاعدة بيانات للنيوكليوتيدات على طائرة أسرع من الصوت الخاصة بها لإجراء بحث عن تشابه التسلسل. يعد بحث BLAST و FASTA و ENA أكثر أنواع SSTs شيوعًا. [9] ، [10] من بين هذه الأدوات الثلاثة ، يعد برنامج BLAST برنامجًا فعالاً للغاية يحتوي على العديد من الخيارات للبحث عن تشابه التسلسل. هنا ، تمت مناقشة برامج البحث عن تشابه تسلسل النوكليوتيدات فقط الخاصة بـ BLAST. يرمز BLAST إلى أداة البحث عن المحاذاة المحلية الأساسية وهي مجموعة من الأدوات للبحث عن تشابه تسلسل النوكليوتيدات والبروتين. Nucleotide BLAST (BLASTn) هي واحدة من تلك الأدوات التي تأخذ تسلسل النيوكليوتيدات (تسلسل الجينوم) كتسلسل استعلام والبحث عن تسلسل الحمض النووي المتشابه في قاعدة بيانات NCBI. [11] يتوفر للباحثين خيارات لاختيار نوع برنامج التحسين مثل الإرسال الضخم والبث الضخم غير المتصل و BLASTn. يبحث Megablast عن تسلسلات متشابهة للغاية والتي تكون مفيدة جدًا لتحديد الأنواع ومقارنة الأنواع داخل الأنواع. يبحث اختيار خيار الضخامة غير المتجاورة عن تسلسلات أكثر تباينًا ويمكن استخدامها للمقارنة بين الأنواع. يتم استخدام خيار BLASTn للبحث عن تسلسلات متشابهة إلى حد ما في قاعدة بيانات NCBI. يتم استخدام برنامج BLASTx الخاص بحزمة BLAST لتحديد منتجات البروتين المحتملة المشفرة بواسطة استعلام نيوكليوتيد. [12] يمكن استخدام برنامج tBLASTx لتحليل تسلسل النيوكليوتيدات لتحديد متواليات النيوكليوتيدات المشابهة للاستعلام بناءً على إمكانات التشفير. [12]

إن تحديد الجينات في جينومات IAs هو الهدف الرئيسي لمشاريع التسلسل الخاصة بهم. يمكن أن يكون التنبؤ الحقيقي للجينات ومواقعها مفيدًا لفهم الآلية الجزيئية لنمو IAs والبقاء والفوعة. علاوة على ذلك ، يمكن استخدام هذه المعلومات لتطوير مجموعات التشخيص الجزيئي والأدوية المحتملة لـفي المختبر تحديد وعلاج التهابات IAs ، على التوالي. إطار القراءة المفتوح (ORF) هو أفضل فرضية للتنبؤ بمنطقة ترميز البروتين في بيانات تسلسل الجينوم للكائن الحي. إنها منطقة تسلسل الجينوم بين كودون البداية وكودون الإيقاف التالي. [13] تم تطوير أدوات مختلفة للتنبؤ بـ ORF ، ولكن وفقًا لـ Wikipedia ، فإن أداة البحث عن ORF ومحقق ORF ومتنبئ ORF هي أقوى الأدوات للتنبؤ الفعال بـ ORFs. [14] ، [15] ، [16] يتنبأ الباحث عن إطار القراءة المفتوح (ORF Finder) بجميع ORFs الممكنة في تسلسل نوكليوتيد معين. [17] محقق ORF هو برنامج واجهة مستخدم رسومي يجد جميع ORFs في تسلسل DNA معين ويحولها إلى تسلسل البروتين المقابل لها عن طريق إعلان مواقع كل منها في التسلسل. [17]

توفر محاذاة الجينومات أو التسلسلات الجينية لـ IAs معرفة مثيرة للاهتمام حول النسبة المئوية للارتباط والاختلافات بين نوعين أو بين أكثر من نوعين. تتنبأ المحاذاة بين تسلسلين (محاذاة التسلسل الزوجي) بالمناطق المحفوظة والمتغيرة وتوفر أيضًا التشابه بالنسبة المئوية. في حين أن المحاذاة بين أكثر من تسلسلين (محاذاة التسلسل المتعدد [MSA]) لا توفر فقط معلومات حول المناطق المحفوظة والمتغيرة ولكنها أيضًا تولد بيانات لتحليل النشوء والتطور. يعد Emboss أقوى برنامج لمحاذاة التسلسل الزوجي (العالمية والمحلية) لتسلسلات الحمض النووي الصغيرة. النقش متاح في http://www.ebi.ac.uk/Tools/emboss/. wgVISTA عبارة عن حزمة برامج مستخدمة لمقارنة بيانات الجينوم (حتى 10 ميغا قاعدة طويلة) من كائنين ميكروبيين [18] ، [19] وهي متاحة على http://genome.lbl.gov/cgi-bin/WGVistaInput. وبالمثل ، يتم استخدام حزمة برامج أخرى mVISTA للمقارنة بين اثنين أو أكثر من تسلسل النوكليوتيدات من كائنين أو أكثر ، وهي متاحة على http://genome.lbl.gov/cgi-bin/GenomeVista. [18] ، [19] mVISTA هو برنامج عبر الإنترنت يوفر نتائج مهمة ونظيفة لمحاذاة تسلسل الجينوم ، مما يسمح بتمثيل نتائج المحاذاة على مستويات مختلفة من الدقة. يوفر الوصول إلى أدوات المحاذاة العالمية الزوجية والمتعددة واللغوية (العالمية مع إعادة الترتيب). تم دمج AVID (للمحاذاة العالمية لتسلسلات الحمض النووي ذات الطول التعسفي) ، [21] LAGAN (للزوج و MSA) ، [22] و Shuffle-LAGAN (للعثور على إعادة ترتيب في إطار عمل محاذاة عالمي) في mVISTA لـ نتائج افضل. [20] DNASTAR (https://www.dnastar.com/t-sub-solutions-molecular-biology-sequence-alignment.aspx) هو برنامج يقوم بمحاذاة تسلسل الحمض النووي من خلال خوارزميات محاذاة مختلفة بما في ذلك MUSCLE و Mauve و MAFFT و Clustal أوميغا والعديد من البرامج الأخرى لتحقيق أفضل النتائج. يقدم المعهد الأوروبي للمعلومات الحيوية (EBI) عددًا من البرامج مثل Clustal Omega و Kalign و MAFFT و MUSCLE و MView و T-Coffee و WebPRANK لـ MSA ، والمتوفر على http://www.ebi.ac.uk/Tools/ مللي أمبير /. Clustal Omega هي أداة MSA تقوم بإجراء محاذاة متوسطة إلى كبيرة تصل إلى 4000 تسلسل أو 4 ميغابايت من ملف بيانات التسلسل. [23] أداة Kalign MSA هي أداة سريعة جدًا يمكنها إجراء محاذاة تصل إلى 2000 تسلسل أو 2 ميغابايت من ملف بيانات التسلسل. [24] أداة MAFT للمحاذاة المتوسطة والكبيرة التي لديها القدرة على محاذاة ما يصل إلى 500 تسلسل أو حجم ملف أقصى يبلغ 1 ميجا بايت. [25] أداة Muscle MSA مناسبة للمحاذاة المتوسطة ومحاذاة ما يصل إلى 4000 تسلسل أو 4 ميغابايت من ملف بيانات التسلسل. [٢٦] العضلات هي الأفضل لمحاذاة تسلسل البروتين. تقوم أداة MView بتحويل نتيجة بحث عن تشابه تسلسلي إلى MSA أو إعادة تنسيق MSA. [27] يمكنه محاذاة ما يصل إلى 4000 تسلسل أو 4 ميغابايت من ملف بيانات التسلسل. بالنسبة للمحاذاة الصغيرة ، يعد برنامج T-Coffee مناسبًا جدًا بحيث يمكنه محاذاة ما يصل إلى 500 تسلسل أو حجم ملف أقصى يبلغ 1 ميجابايت. [28] WebPRANK هي أداة MSA جديدة مدركة للتطور تستخدم المعلومات التطورية للمساعدة في وضع عمليات الإدراج والحذف. [29] جميع أدوات MSA الموصوفة أعلاه هي أكثر الأدوات شيوعًا والتي يمكن استخدامها وفقًا لمتطلباتها.

اكتشاف وتحليل عزر الحمض النووي

أشكال تسلسل الحمض النووي هي الجزء القصير من الحمض النووي الذي يحتوي على العديد من المعلومات المرموقة حول السمات الوظيفية لـ IAs التي تم حفظها خلال فترة التطور. قد يساهم تحديد أشكال تسلسل الحمض النووي لـ IAs في المعلومات المهمة للعالم لتصميم وتطوير عقاقير فعالة جديدة لأنواع مختلفة من عدوى IAs. [30] ، [31] ، [32] ، [33] متعددة EM لاستخراج الحافز (MEME) تناسب بوابة الويب (متوفرة على: http://meme-suite.org/) عبارة عن مجموعة من أدوات تحديد وتحليل الأفكار . [34] ، [35] ، [36] MEME ، ثغرات المحاذاة المحلية للزخارف (GLAM2) ، استخلاص حافز التعبير المنتظم التمييزي (DREME) ، و MEME-ChIP هي أدوات لاكتشاف الحافز. [37] ، [38] ، [39] ، [40] ، [41] MEME هي أداة قوية جدًا لتحديد الأشكال الجديدة غير المعوقة في مجموعة من سلاسل الحمض النووي المترابطة. بشكل افتراضي ، يبحث عن ثلاثة أشكال على الأقل من حوالي 6 & # 821150 ، بينما يمكن للمستخدم تحديد المعلمات الخاصة به لاكتشاف الحافز. يكتشف GLAM2 الأشكال المقطوعة في مجموعة من بيانات إدخال الحمض النووي. يحاول GLAM2 اكتشاف أفضل فكرة محتملة عدة مرات من خلال تحليل مكرر. ومن ثم ، فإن GLAM2 أفضل من MEME. يبحث DREME عن الزخارف على مجموعات كبيرة من بيانات تسلسل الحمض النووي المستمدة من تجارب ChIP-seq. تكتشف أداة MEME-ChIP وتحلل الأشكال في مجموعات بيانات النوكليوتيدات الكبيرة المشتقة من تجارب ChIP-seq و CLIP-seq. [42] FIMO و GLAM2SCAN و MAST (أداة المحاذاة والبحث في الحافز) هي أدوات للعثور على التكرارات المحتملة للعنصر في قاعدة بيانات التسلسل ، ومن ثم تسمى أدوات البحث عن الحافز. [41] ، [43] ، [44] SpaMo و CentriMo هي أدوات لتحليل إثراء الحافز. [45] ، [46] ، [47] MCAST (أداة المحاذاة والبحث عن مجموعة الحافز) عبارة عن أداة لتحليل مجموعة الحافز التي تبحث في قاعدة بيانات متسلسلة لمجموعات ذات دلالة إحصائية من التكرارات غير المتداخلة لمجموعة من الأشكال. [48] ​​تُستخدم أداة TOMTOM لمقارنة شكل DNA في قاعدة بيانات بيانات نماذج تسلسل الحمض النووي المعروفة. [34] ، [35] ، [49] تم تصميم برنامج GOMO (علم الوجود الجيني للدوافع) للتحليل الوظيفي لنماذج ربط الحمض النووي. [50]

ترتبط العقيدة المركزية ارتباطًا مباشرًا بثلاث عمليات جزيئية مختلفة لنسخ الخلية (DNA إلى RNA) ، والترجمة (RNA إلى البروتين) ، والنسخ العكسي (RNA إلى DNA). ومن ثم ، يمكن تسمية الأدوات الحسابية القادرة على تحويل الحمض النووي إلى RNA ، و RNA إلى بروتين ، و RNA إلى DNA كأدوات عقيدة مركزية. تم تصميم العديد من البرامج لهذا الغرض ، يعد برنامج تحليل البيانات البيولوجية واحدًا من بينها يمكنه إجراء الحسابات المركزية المتعلقة بالعقيدة. [51]

تحليل الطفرة وإعادة التركيب

يوفر التحليل الطفري لـ IAs فكرة للتحقق من التغييرات المحتملة في الجينوم الخاص بهم والتي تكون مفيدة جدًا لمعرفة أصلهم وفراعتهم وتطورهم. كما أنه يساعد في العثور على التنوع الجيني بين مجموعة من الوكالات المنفذة. من بين أدوات تحليل الطفرات وإعادة التركيب ، يعد تحليل الوراثة التطورية الجزيئية (MEGA5) و DNASP من الأدوات الشائعة جدًا للحسابات المتعلقة بالطفرات وإعادة التركيب ، على التوالي. [52] ، [53] ، [54] ، [55] ، [56] ، [57] ، [58] ، [59]

التحليل التطوري

تحتوي التسلسلات الجينومية لـ IAs على معلومات غنية حول أصلها والقيود الوظيفية على الجزيئات الكبيرة مثل البروتينات / الإنزيمات. [2] التطور في التسلسل الجيني لـ IAs يمكن أن ينتج سلالات / أنواع جديدة ، والتي قد تكون أكثر ضراوة من السلالات / الأنواع الأصلية. [1] ، [60] ، [61] ، [62] ومن ثم ، فإن تحليل النشوء والتطور لل IAs مهم لفهم أصلهم وتاريخهم التطوري. لهذا الغرض ، هناك حاجة إلى معرفة جيدة بأدوات تحليل النشوء والتطور ، لذلك تمت مناقشة الأدوات الأكثر شيوعًا ومزاياها وعيوبها. حزمة الاستدلال التطوري (PHYLIP) هي حزمة البرامج الأكثر استخدامًا للتحليل التطوري التي طورها علماء قسم علوم الجينوم وقسم الأحياء ، جامعة واشنطن ، سياتل. إنها حزمة برامج متاحة مجانًا تحلل التسلسلات الجزيئية باستخدام طرق مختلفة بما في ذلك البخل ، ومصفوفة المسافة ، وطرق الاحتمالية ، بما في ذلك أشجار الإقلاع والتوافق. [63] ، [64] اختبار الفرضية باستخدام علم الوراثة (HyPhy) عبارة عن حزمة برمجية موزعة مجانًا لتحليل النشوء والتطور للتسلسلات البيولوجية ، ولا سيما لاستنتاج قوة الاختيار من بيانات التسلسل. بالإضافة إلى ذلك ، يتميز HyPhy بلغة دفعية مرنة لتنفيذ وتخصيص نماذج ماركوف المنفصلة في إطار عمل نسبي. [٦٥] MEGA هي حزمة برامج شائعة جدًا للتحليل التطوري للكائنات الحية على المستوى الجزيئي. تتوفر إصدارات مختلفة من هذه الحزمة مجانًا للأكاديميين. يقوم بتنفيذ العديد من الأساليب والبرامج لغرض التحليل التطوري وهي معظم الخوارزميات في مجال علم الأحياء التطوري. [59]

يكشف تحليل الجينوم والتطوري للعوامل المعدية عن العديد من المعلومات المفيدة لفهم أصلها ونموها وبقائها وطبيعة ضراوتها. كما يوفر معرفة مهمة لاختيار الأهداف العلاجية المحتملة وأيضًا لاكتشاف أدوية جديدة لعلاج العدوى. إن أحدث أدوات المعلوماتية الحيوية ، التي تمت مناقشتها في هذه المقالة للتحليل الجينومي والتطوري للعوامل المعدية ، ستكون مفيدة لباحثي الجينوم في اختيار الأداة الأكثر ملاءمة للتحليل الجينومي والتطوري لل IAs لإلغاء تأمين ألغاز حياتهم.

يقر مؤلفو هذا المقال بمعهد JALMA الوطني للجذام والأمراض الفطرية الأخرى (ICMR) ، أجرا ، الهند.


الملخص

تم وصف Denisovans ، وهي مجموعة شقيقة من إنسان نياندرتال ، على أساس تسلسل الجينوم النووي من كتيبة الإصبع (دينيسوفا 3) وجدت في كهف دينيسوفا في جبال ألتاي. عينة دينيسوفان الأخرى الوحيدة الموصوفة حتى الآن هي ضرس (دينيسوفا 4) وجدت في نفس الموقع. يحمل هذا السن تسلسل mtDNA مشابهًا لتسلسل دينيسوفا 3. نقدم هنا تسلسل الحمض النووي من دينيسوفا 4 والوصف المورفولوجي ، وكذلك بيانات تسلسل الحمض النووي للميتوكوندريا والنووي ، من ضرس آخر (دينيسوفا 8) وجدت في كهف دينيسوفا في عام 2010. هذا الضرس الجديد مشابه ل دينيسوفا 4 في كونها كبيرة جدًا وتفتقر إلى السمات النموذجية للنياندرتاليين والإنسان الحديث. تشكل تسلسلات الحمض النووي من الضرسين كليدًا دينيسوفا 3. يكون mtDNA الخاص بـ دينيسوفا 8 أكثر تباعدًا وقد تراكمت لديه بدائل أقل من mtDNAs للعينتين الأخريين ، مما يشير إلى أن إنسان الدينيسوفان كان موجودًا في المنطقة على مدى فترة طويلة. إن تنوع تسلسل الحمض النووي النووي بين دينيسوفان الثلاثة يمكن مقارنته بالتنوع بين ستة إنسان نياندرتالي ، ولكنه أقل من ذلك بين البشر في الوقت الحاضر.

في عام 2008 ، كتيبة إصبع من طفل (دينيسوفا 3) في كهف دينيسوفا في جبال ألتاي في جنوب سيبيريا. يشترك جينوم الميتوكوندريا في سلف مشترك مع mtDNAs للإنسان الحالي و Neandertal mtDNAs منذ حوالي مليون سنة (1) ، أو ما يقرب من ضعف منذ السلف المشترك لـ mtDNAs للإنسان الحالي و Neandertal. ومع ذلك ، كشف الجينوم النووي أن هذا الفرد ينتمي إلى مجموعة شقيقة من إنسان نياندرتال. تم تسمية هذه المجموعة باسم Denisovans على اسم الموقع الذي تم اكتشاف العظم فيه (2 ، 3). أظهر تحليل جينوم دينيسوفان أن دينيسوفان ساهم بترتيب 5٪ من الحمض النووي في جينومات الأشخاص الحاليين في أوقيانوسيا (2 ⇓ –4) ، وحوالي 0.2٪ في جينومات الأمريكيين الأصليين وآسيويين البر الرئيسيين ( 5).

في عام 2010 ، أدى العمل الأثري المستمر في كهف دينيسوفا إلى اكتشاف كتيبة إصبع القدم (دينيسوفا 5) ، تم تحديده على أساس تسلسل الجينوم الخاص به على أنه إنسان نياندرتال. أتاح تسلسل الجينوم إجراء تحليلات تفصيلية لعلاقة إنسان دينيسوفان وإنسان نياندرتال ببعضهما البعض وبإنسان اليوم. على الرغم من أن أوقات الاختلاف من حيث السنوات التقويمية غير مؤكدة بسبب عدم اليقين بشأن معدل الطفرات البشرية (6) ، فقد أظهر العظم أن سكان دينيسوفان وإنسان نياندرتال ينفصلون عن بعضهم البعض بأربع مرات أبعد في الزمن من الاختلاف الأعمق بين السكان الحاليين. نشأت الجماعات البشرية اليوم أسلاف المجموعتين القديمتين المنفصلين عن أسلاف البشر المعاصرين بترتيب ستة أضعاف عدد السكان الحاليين (5). بالإضافة إلى ذلك ، ما لا يقل عن 0.5٪ من جينوم دينيسوفا 3 كان الفرد مشتقًا من مجموعة إنسان نياندرتال أقرب إلى إنسان نياندرتال من كهف دينيسوفا أكثر من إنسان نياندرتال من مواقع غربية أكثر (5).

على الرغم من أن بقايا دينيسوفان لم يتم التعرف عليها حتى الآن إلا في كهف دينيسوفا ، فإن حقيقة أن دينيسوفان ساهم في الحمض النووي لأسلاف السكان الحاليين عبر آسيا وأوقيانوسيا تشير إلى أنه بالإضافة إلى جبال ألتاي ، ربما عاشوا في أجزاء أخرى من آسيا. بالإضافة إلى كتيبة الإصبع ، الضرس (دينيسوفا 4) في الكهف في عام 2000. على الرغم من أن أقل من 0.2٪ من الحمض النووي في السن مشتق من مصدر أشباه البشر ، فقد تم تسلسل الحمض النووي الميتوكوندري واختلف عن كتائب الإصبع mtDNA في موضعين فقط ، مما يشير إلى أنه قد يكون أيضًا من دينيسوفان (2 ، 3). يحتوي هذا الضرس على العديد من السمات المورفولوجية البدائية التي تختلف عن كل من الإنسان البدائي المتأخر والإنسان الحديث. في عام 2010 ، ضرس آخر (دينيسوفا 8) في كهف دينيسوفا. هنا نصف مورفولوجيا و mtDNA دينيسوفا 8 وحاضر تسلسل الحمض النووي من كلا الضرسين.


علم الجينوم الحاسوبي مع R.

100 جينوم حيواني تم تسلسله اعتبارًا من عام 2016. علاوة على ذلك ، هناك العديد من المشاريع البحثية من مختبرات فردية أو اتحادات تنتج بيتابايت من بيانات الجينوميات المساعدة ، مثل ChIP-seq و RNA-seq وما إلى ذلك.

هناك نوعان من المتطلبات لتكون قادرًا على تصور الجينوم والبيانات المرتبطة بها: 1) يجب أن تكون قادرًا على العمل مع الأنواع التي لها جينوم متسلسل و 2) تريد أن يكون لديك تعليق توضيحي على هذا الجينوم ، وهذا يعني على الأقل ، تريد أن تعرف مكان الجينات. يتم شرح معظم الجينومات بعد التسلسل سريعًا بالتنبؤات الجينية أو يتم تعيين التسلسلات الجينية المعروفة عليها ، ويمكنك أيضًا الحفاظ على الأنواع الأخرى لتصفية العناصر الوظيفية. إذا كنت تعمل مع كائن نموذجي أو إنسان ، فسيكون لديك أيضًا الكثير من المعلومات المساعدة للمساعدة في تحديد المناطق الوظيفية مثل المناطق التنظيمية ، و ncRNAs ، و SNPs الشائعة في السكان. أو قد يكون لديك بيانات مرضية أو أنسجة محددة متاحة. كلما تم العمل على الكائن الحي ، زادت البيانات الإضافية التي ستحصل عليها.

1.5.0.1 الوصول إلى تسلسل الجينوم والشروح عبر متصفحات الجينوم

بصفتك شخصًا ينوي العمل مع علم الجينوم ، ستحتاج إلى تصور كمية كبيرة من البيانات لعمل استنتاجات بيولوجية أو ببساطة التحقق من المناطق ذات الأهمية في الجينوم بصريًا. يعد النظر إلى حالة الجينوم على حدة مع جميع مجموعات البيانات الإضافية خطوة ضرورية لتطوير فرضية وفهم البيانات.

تتوفر العديد من الجينومات والبيانات المرتبطة بها من خلال متصفحات الجينوم. متصفح الجينوم هو موقع ويب أو تطبيق يساعدك على تصور الجينوم وجميع البيانات المتاحة المرتبطة به. عبر متصفحات الجينوم ، ستتمكن من معرفة مكان وجود الجينات فيما يتعلق ببعضها البعض والعناصر الوظيفية الأخرى. سوف تكون قادرًا على رؤية بنية الجينات. ستكون قادرًا على رؤية البيانات المساعدة مثل الحفظ وتكرار المحتوى وتعدد الأشكال. هنا نستعرض بعض المتصفحات الشعبية.

متصفح الجينوم UCSC: هذا متصفح على الإنترنت تستضيفه جامعة كاليفورنيا ، سانتا كروز على http://genome.ucsc.edu/. هذا موقع ويب تفاعلي يحتوي على جينومات وشروح للعديد من الأنواع. يمكنك البحث عن الجينات أو إحداثيات الجينوم للأنواع التي تهمك. عادة ما يكون سريع الاستجابة ويسمح لك بتصور كميات كبيرة من البيانات. بالإضافة إلى ذلك ، يحتوي على العديد من الأدوات الأخرى التي يمكن استخدامها فيما يتعلق بالمتصفح. واحدة من أكثر الأدوات المفيدة هي مستعرض جدول UCSC، والذي يتيح لك تنزيل جميع البيانات التي تراها على المتصفح ، بما في ذلك بيانات التسلسل ، بتنسيقات متعددة. يمكن للمستخدمين تحميل البيانات أو توفير روابط للبيانات لتصور البيانات الخاصة بالمستخدم.

الفرقة: هذا متصفح آخر على الإنترنت يديره المعهد الأوروبي للمعلومات الحيوية ومعهد ويلكوم ترست سانجر في المملكة المتحدة ، http://www.ensembl.org. على غرار متصفح UCSC ، يمكن للمستخدمين تصور الجينات أو الإحداثيات الجينية من أنواع متعددة ، كما أنه يأتي مع بيانات مساعدة. Ensembl مرتبط بـ بيومارت أداة مشابهة لمتصفح UCSC Table ، ويمكنها تنزيل بيانات الجينوم بما في ذلك جميع مجموعة البيانات المساعدة بتنسيقات متعددة.

IGV: عارض الجينوم المتكامل (IGV) هو تطبيق سطح مكتب تم تطويره بواسطة معهد Broad (https://www.broadinstitute.org/igv/). تم تطويره للتعامل مع كميات كبيرة من بيانات التسلسل عالية الإنتاجية ، والتي يصعب عرضها في متصفحات الإنترنت. يمكن لـ IGV دمج نتائج التسلسل المحلي الخاصة بك مع التعليقات التوضيحية عبر الإنترنت على جهاز سطح المكتب الخاص بك. هذا مفيد عند عرض بيانات التسلسل ، وخاصة المحاذاة. تحتوي المتصفحات الأخرى المذكورة أعلاه على ميزات مماثلة ، ومع ذلك ستحتاج إلى إتاحة بيانات التسلسل الكبيرة الخاصة بك عبر الإنترنت في مكان ما قبل أن تتمكن المتصفحات من عرضها.

1.5.0.2 مستودعات البيانات للمقايسات عالية الإنتاجية

تحتوي متصفحات الجينوم على الكثير من البيانات المساعدة عالية الإنتاجية. ومع ذلك ، هناك العديد من مجموعات البيانات عالية الإنتاجية العامة المتاحة وهي بالتأكيد غير متوفرة من خلال متصفحات الجينوم. عادة ، يجب إيداع كل مجموعة بيانات عالية الإنتاجية مرتبطة بمنشور في الأرشيفات العامة. هناك نوعان من المحفوظات العامة الرئيسية نستخدمها لإيداع البيانات. واحد منهم هو أومنيبوس التعبير الجيني (GEO) مستضاف على http://www.ncbi.nlm.nih.gov/geo/ والآخر هو أرشيف النوكليوتيدات الأوروبي (ENA) مستضاف على http://www.ebi.ac.uk/ena. تقبل هذه المستودعات مجموعات البيانات عالية الإنتاجية ويمكن للمستخدمين تنزيل مجموعات البيانات العامة هذه واستخدامها بحرية لأبحاثهم الخاصة. توجد العديد من مجموعات البيانات في هذه المستودعات بتنسيقها الأولي ، على سبيل المثال ، التنسيق الذي يوفره جهاز التسلسل في الغالب. ستعالج بعض مجموعات البيانات أيضًا بيانات ولكن هذا ليس معيارًا.

بصرف النظر عن هذه المستودعات ، هناك اتحادات متعددة متعددة الجنسيات مخصصة لبعض بيولوجيا الجينوم أو المشكلات المتعلقة بالأمراض ، وهي تحتفظ بقواعد البيانات الخاصة بها وتوفر الوصول إلى البيانات المعالجة والمعالجة. بعض هذه الاتحادات مذكورة أدناه.


التعاون الدولي لقاعدة بيانات تسلسل النوكليوتيدات

كان التعاون الدولي لقاعدة بيانات تسلسل النيوكليوتيدات (INSDC http://www.insdc.org/) هو البنية التحتية الأساسية لجمع بيانات تسلسل النوكليوتيدات والبيانات الوصفية وتوفيرها لمدة 30 عامًا. ثلاث منظمات شريكة ، بنك بيانات الحمض النووي الياباني (DDBJ) في المعهد الوطني للوراثة في ميشيما ، اليابان ، أرشيف النيوكليوتيدات الأوروبي (ENA) في المعهد الأوروبي للمعلومات الحيوية التابع لمختبر البيولوجيا الجزيئية الأوروبي (EMBL-EBI) في هينكستون بالمملكة المتحدة وبنك GenBank في المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) ، والمكتبة الوطنية للطب ، والمعاهد الوطنية للصحة في بيثيسدا ، ماريلاند ، الولايات المتحدة الأمريكية تعمل بشكل تعاوني على الحفاظ على INSDC ليس فقط لصالح العلم ولكن جميع أنواع المجتمع في جميع أنحاء العالم.

© المؤلف (المؤلفون) 2020. تم النشر بواسطة مطبعة جامعة أكسفورد بالنيابة عن أبحاث الأحماض النووية.

الأرقام

النمو التراكمي لمدة 10 سنوات للمواد الخام ...

النمو التراكمي لمدة 10 سنوات لبيانات تسلسل الجيل التالي الخام: إجمالي البايت (متقطع) و ...


مقدمة علمية

يحدد تسلسل الحمض النووي تسلسل حمض النوكليوتيدات للمعلومات الوراثية الفريدة للكائن الحي. كإخراج ، فإنه يولد مئات أو آلاف القطع الخطية القصيرة من الحمض النووي الميكروبي ، وهي أجزاء من جينوم الحمض النووي الكامل. وبالتالي ، فإن الخطوة التالية بعد تسلسل الحمض النووي تتضمن دمج (تجميع) تلك الأجزاء في أجزاء متجاورة من الحمض النووي (contigs) باستخدام مناهج حسابية.

إعادة بناء الجينوم لبكتيريا واحدة

عادة ما يكون جينوم بكتيريا واحدة:

  • دائري
  • المزدوج تقطعت بهم السبل
  • ذات أطوال متغيرة ، ولكن بشكل عام في حدود مليون زوج أساسي من حيث الحجم

تولد تقنيات تسلسل الحمض النووي المستخدمة بشكل شائع (تطبيق ما يسمى بتسلسل الجيل الثاني) قطعًا من الحمض النووي هي:

لذلك ، يمكنك التفكير في مهمة إعادة بناء الجينوم على أنها مشكلة ألغاز "صعبة" إلى حد ما: نحن بحاجة إلى إعادة بناء صورة كاملة من قطعها.

كيف نفعل ذلك بالضبط عندما نهدف إلى إعادة بناء تسلسل الجينوم لبكتيريا واحدة؟ في الحالة الأكثر وضوحًا ، تم بالفعل تسلسل الكائن الحي الخاص بنا وتم إيداع تسلسل الجينوم الخاص به في مستودع عام (مثل EMBL-EBI's European Nucleotide Archive ، ENA). في هذه الحالة ، يمكننا استخدام هذا التسلسل لمساعدتنا في إعادة بناء "اللغز" ، تمامًا كما تفعل من خلال النظر إلى الصورة الموجودة على غلاف مربع اللغز. يُطلق على هذا النهج اسم "رسم الخرائط" - تحديد مصدر قطعة معينة من الحمض النووي من خلال مقارنتها بمرجع معروف.

تذكر أنه من الواضح أن هذا نهج تبسيطي: نظرًا لمعدل الطفرات المرتفع جدًا ، نادرًا ما يكون جينوم البكتيريا المتسلسلة مطابقًا تمامًا للجينوم المرجعي. لذلك يجب أن نكون مستعدين لقبول أن رسم الخرائط لن يكون مثالياً ، وأن التناقضات نفسها ، إذا تم إثباتها بشكل كافٍ ، قد تكون أكثر النقاط إثارة للاهتمام في الجينوم.

إعادة بناء الجينوم للمجتمعات الميكروبية المعقدة

ما هي التحديات الإضافية عند إعادة بناء الجينوم في مجتمع ميكروبي معقد مثل ميكروبيوم أمعائك؟

  1. هناك عدة جينومات مختلطة معًا.
  2. نحن لا نعرف أي تسلسل ينتمي إلى أي جينوم.
  3. ليس لدينا جينوم مرجعي لمساعدتنا في إعادة بناء جينوم كل بكتيريا في المجتمع.
  4. حتى لو كان للتسلسلات "عمق" معين (أي أننا نجمع العديد من قطع اللغز) ، فمن المحتمل أننا لم نجمع كل التسلسلات (أي قد نبقى مع الأجزاء المفقودة من الصورة بأكملها).

تسلسل البندقية البيئي (ESS). (أ) أخذ العينات من جسيمات ترشيح الموائل (ب) ، عادةً حسب الحجم (C) استخراج الحمض النووي وتحلل (D) الاستنساخ والمكتبة (E) تسلسل تجميع تسلسل النسخ (F).
جون سي وولي ، آدم جودزيك ، إيدو فريدبرج ، سيسي بي 2.5 ، عبر ويكيميديا ​​كومنز

لحل هذه المشكلة الأكثر تعقيدًا ، هناك العديد من الاستراتيجيات التي تشبه ، مرة أخرى ، ما كنت ستفعله غريزيًا باللغز:

  • If there is some piece of the puzzle we have a reference for, we build that first.
  • If any of the pieces look “alike” (i.e. they are genetically similar, or, in the puzzle metaphor, they maybe have the same colour or pattern), we group them together.
  • If any of the pieces fit together very well (in the bioinformatics jargon, they can be “assembled” together), we assume they belong together.
  • If any of the pieces has a known function (in the puzzle metaphor, the corner or border pieces), we try to infer where they belong.

The problem of missing data

As mentioned, however, we might not have all the pieces we need to fully reconstruct the image. Since this image is the starting point to then investigate the bacterial composition in the sample (who is there) and subsequently their possible function (what they might be doing), take a second to think about the impact of the missing part of the data: aside from hampering a complete understanding of the microbial community, we must also understand that we can describe what we see, but we cannot claim any meaning from what we don’t see. Simply put, if I grab a few socks from my drawer and none of them is red, I cannot conclude that I have no red socks. لماذا ا؟ The overall complexity of the microbial community is too high for our sampling capacity therefore, we will end up with missing data.


ENAbling easy access to DNA sequence information

The European Nucleotide Archive (ENA) has been launched, consolidating three major sequence resources to become Europe's primary access point to globally comprehensive DNA and RNA sequence information. The ENA is freely available from the European Bioinformatics Institute (EMBL-EBI), a part of European Molecular Biology Laboratory.

Faster and cheaper DNA sequencing has led to previously unimaginable amounts of data being deposited in the public nucleotide sequence databases: today, ENA holds over 20 terabases of nucleotide sequence which, combined with associated information (annotation), occupies 230 terabytes of disk space. Carefully annotated and crosslinked sequence records from the EMBL Nucleotide Sequence Database (EMBL-Bank) form the backbone of the ENA. But importantly, ENA now also provides direct access to raw sequence data: the European Trace Archive contains raw data from electrophoresis-based sequencing machines and was previously maintained at the Wellcome Trust Sanger Institute the Sequence Read Archive (SRA) is a newly established repository for raw data from next-generation (array-based) sequencing platforms. Improved submission and data-access tools make it easier for ENA's users to share their sequence data.

"Large-scale DNA sequencing was previously the domain of a small number of specialist labs, but next-generation sequencing has made it accessible to the majority of molecular life scientists," explains Graham Cameron, the EMBL-EBI's Associate Director. "The launch of ENA reflects our continuing commitment to promoting scientific progress by providing global access to nucleotide sequence information. This has been central to EMBL's mission since the 1980s when we launched the EMBL Data Library."

Guy Cochrane, who leads the ENA team, stated that "ENA has been designed to provide our users with improved access both to annotated and to raw sequence data through the same user-friendly interface. It provides graphical browsing, web services, text search and a new rapid sequence similarity search. ENA also provides access to related information, with over 190 million cross references to external records, many of which are in other EMBL-EBI data resources."

The ENA team plans to launch many new features for the resource over the next twelve months, including enhancements to the user-friendly browser, improved interactive submissions tools and organism- and project-centred portals into ENA data.

Tim Hubbard, Head of Informatics at the Wellcome Trust Sanger Institute, said: "As major generators of DNA sequence data, it is important to us that the research community has ready access not only to annotated sequence information, but also to raw data. It's great to see the launch of ENA with new interfaces for users to this vast and rapidly growing body of information." Funding for the ENA is provided by EMBL, the Wellcome Trust and SLING, a Framework Programme 7 project coordinated by the EMBL-EBI and funded by the European Commission.


Enabling easy access to DNA sequence information

The European Nucleotide Archive (ENA) is launched today, consolidating three major sequence resources to become Europe's primary access point to globally comprehensive DNA and RNA sequence information. The ENA is freely available from the European Bioinformatics Institute (EMBL-EBI), a part of European Molecular Biology Laboratory.

Faster and cheaper DNA sequencing has led to previously unimaginable amounts of data being deposited in the public nucleotide sequence databases: today, ENA holds over 20 terabases of nucleotide sequence which, combined with associated information (annotation), occupies 230 terabytes of disk space. Carefully annotated and crosslinked sequence records from the EMBL Nucleotide Sequence Database (EMBL-Bank) form the backbone of the ENA. But importantly, ENA now also provides direct access to raw sequence data: the European Trace Archive contains raw data from electrophoresis-based sequencing machines and was previously maintained at the Wellcome Trust Sanger Institute the Sequence Read Archive (SRA) is a newly established repository for raw data from next-generation (array-based) sequencing platforms. Improved submission and data-access tools make it easier for ENA's users to share their sequence data.

"Large-scale DNA sequencing was previously the domain of a small number of specialist labs, but next-generation sequencing has made it accessible to the majority of molecular life scientists," explains Graham Cameron, the EMBL-EBI's Associate Director. "The launch of ENA reflects our continuing commitment to promoting scientific progress by providing global access to nucleotide sequence information. This has been central to EMBL's mission since the 1980s when we launched the EMBL Data Library."

Guy Cochrane, who leads the ENA team, stated that "ENA has been designed to provide our users with improved access both to annotated and to raw sequence data through the same user-friendly interface. It provides graphical browsing, web services, text search and a new rapid sequence similarity search. ENA also provides access to related information, with over 190 million cross references to external records, many of which are in other EMBL-EBI data resources."

The ENA team plans to launch many new features for the resource over the next twelve months, including enhancements to the user-friendly browser, improved interactive submissions tools and organism- and project-centred portals into ENA data.

Tim Hubbard, Head of Informatics at the Wellcome Trust Sanger Institute, said: "As major generators of DNA sequence data, it is important to us that the research community has ready access not only to annotated sequence information, but also to raw data. It's great to see the launch of ENA with new interfaces for users to this vast and rapidly growing body of information." Funding for the ENA is provided by EMBL, the Wellcome Trust and SLING, a Framework Programme 7 project coordinated by the EMBL-EBI and funded by the European Commission.


الاستنتاجات

We have shown that there is extensive variation in the level of nucleotide diversity across the genome of an avian species. This variation is seen in autosomal sequence and is thus unrelated to the well-known effects of sex linkage on genetic diversity (Hedrick 2007 Frankham 2012 ). Linked selection is likely to play a strong role in governing within-genome heterogeneity in diversity levels, with (variation in) recombination rate and density of targets of selection being primary determinants of the extent of linked selection. As far as we are aware, this study is the first to characterize genomewide nucleotide diversity through whole-genome resequencing of a large population sample and then use these real data to simulate how well genetic diversity would be captured by the use of genetic markers. We find that diversity estimation by sequencing a small number of amplicons is bound to be associated with large confidence intervals. Given the heterogeneity in diversity levels across the genome, gathering sequence data from many loci will increase the precision in diversity estimation. Naturally, one could ask whether molecular ecological studies will continue to be based on sequence data from a limited number of loci when genotyping-by-sequencing and whole-genome resequencing become increasingly feasible in many projects. However, even with the use of next-generation sequencing technologies, target capture approaches are cost-effective and can be used for a wide range of applications (Jones & Good 2016 ).

The ability to reliably estimate genetic diversity of different populations is critical for making conclusions about evolutionary processes. To end with an example (Gohli وآخرون. 2013 ), recently reported an association between genetic diversity and female promiscuity in 18 passerine bird species based on sequence data from five introns (mean length ≈400 bp). One possible explanation to this would be that species with strong sexual selection for compatible genes (i.e. negative frequency-dependent selection for rare or dissimilar alleles) have relatively high levels of genetic diversity. The validity of this result was criticized by (Spurgin 2013 ) on several methodological grounds, including the precision of diversity estimates and the inference of species level diversity from sampling of individual populations (see also response to the criticism by (Lifjeld وآخرون. 2013 ). Based on experiences from the present study, we note that more firm conclusions should have been possible to reach with more extensive sampling of genomic data, either confirming or disproving the idea of a relationship between genetic diversity and female promiscuity.


مناقشة

BlobToolKit is a significant extension of the approach launched in BlobTools. In particular, by permitting user interaction with the rich data associated with each contig in the Viewer mode, BlobToolKit can enhance discovery of novel biology. The addition of real-time interaction addresses a criticism of the approach, relative to cluster-based methods such as Anvi’o (Eren وآخرون. 2015), that it limits the amount of supporting data that can be included (Delmont and Eren 2016). We envisage three main uses for BlobToolKit. The first is in the research laboratory aiming to sequence for the first time the genome of a new species. BlobToolKit can be used during the assembly process, to filter contaminants and cobionts, and to explore issues such as haploid ضد. diploid contigs, and patterns of coverage in different sequence read datasets (for example, comparing male and female read sets in heterogametic organisms). As part of an assembly workflow, BlobToolKit should ensure better quality assemblies with higher biological credibility.

The second use is in publication and visualization of published assemblies. The BlobToolKit Viewer generates publication quality images that are fully reproducible via the embedding of control parameters in the URL. These images should, we believe, become standard in reporting genome assemblies, and thus enhance the ease of assessment of assembly quality. We have worked to embed BlobToolKit views into the presentation of genome assemblies at the ENA for just this reason and believe that we have demonstrated that collaboration between tools developers and public databases is important in refining best practice in data publication. Journals may generate (or request that authors supply) BlobToolKit assessments of new assemblies submitted for publication, to aid review and speed publication of high quality data.

The third is in comparative and evolutionary genomics. With ongoing improvements in sequencing technologies and assembly software, genome assemblies are improving in quality and contiguity. Among other players, the Earth Biogenome Project (Lewin وآخرون. 2018), 10K Vertebrate Genome Project (Genome 10K Community of Scientists 2009) and Tree of Life project (https://www.sanger.ac.uk/science/programmes/tree-of-life) collectively aim to generate chromosomally-contiguous reference genomes for (in the first instance) all known families of Eukaryota. BlobToolKit protocols can be used to explore these genomes for evidence of past horizontal gene transfer, for the presence of symbionts and parasites, and to explore chromosomal patterns of gene expression.

The difficulty we experienced in associating raw sequence read sets with submitted assemblies has led ENA to include a more apparent and thorough explanation of the benefits of and process for referencing reads during eukaryotic genome assembly submission to the repository. We advocate the practice of assembly submission along with associated reads to INSDC to enable downstream analysis and assembly contamination detection.

We aim to complete analysis of all public genomes in INSDC and post them to the BlobToolKit Viewer website at https://blobtoolkit.genomehubs.org/view in the near future, and then maintain currency with the flow of new genomes. The toolkit is under active development (see https://github.com/blobtoolkit) and we welcome feature requests and collaborations to expand and improve its capabilities.


شاهد الفيديو: علم الجينوم Genomics وتحولات مؤثرة في حياتنا (ديسمبر 2022).