معلومة

تفسير ارتباطات SNP-in-gene من دراسات GWAS

تفسير ارتباطات SNP-in-gene من دراسات GWAS


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

بالنسبة لمعظم SNPs التي تم تحديدها في دراسات GWAS ، فإن الافتراض الأساسي هو أنه إذا كان مرتبطًا بالفعل بنمط ظاهري (ونفترض أنه يرتبط به لأنه يؤثر على وظيفة البروتين) ، فأنت لست بحاجة إلى نسختين من هذا الجين من أجل ذلك تمنح مخاطر القابلية للإصابة بالفرد؟

بمعنى آخر ، هل افتراضي أن GWAS من المحتمل أن يكشف عن الأليلات التي تمنح المخاطرة في نسخة واحدة ، صحيح؟


باختصار ، نعم.

إذا ربطت دراسة gwas SNP بنمط ظاهري معين ، فعندئذ نعم ، يكون تأثير نسخة واحدة. ومع ذلك ، ضع في اعتبارك أن SNP ليس بالضربة القاضية أو حتى ضربة قاضية. هو - هي علبة كن ، ولكن هذا ليس هو الحال دائمًا. يمكن أن تحدث SNPs تغييرًا في تسلسل البروتين أو في تنظيم إنتاج هذا البروتين. يمكن أن يؤدي كلا النوعين من التباين إلى تغيير في النمط الظاهري.

على أي حال ، فإن معلومات SNP تدور دائمًا حول أليل واحد ، أتخيل أنه يمكنك العثور على حالات تكون فيها الخلية متماثلة اللواقح من أجل SNP معين ولكنها ليست بالضرورة ، أو حتى في كثير من الأحيان على حد علمي.


التفسير الجيني السكاني لنتائج GWAS للسمات الكمية البشرية

تكشف دراسات الارتباط على مستوى الجينوم البشري (GWASs) عن البنية الجينية للسمات البشرية والطبية الحيوية ، أي الترددات وأحجام تأثير المتغيرات التي تساهم في التباين الوراثي في ​​سمة ما. لتفسير هذه النتائج ، نحتاج إلى فهم كيفية تشكيل العمارة الجينية من خلال العمليات الجينية الأساسية للسكان - لا سيما عن طريق الطفرات ، والانتقاء الطبيعي ، والانحراف الجيني. نظرًا لأن العديد من السمات الكمية تخضع لاستقرار الاختيار ولأن الاختلاف الجيني الذي يؤثر على سمة واحدة غالبًا ما يؤثر على العديد من السمات الأخرى ، فإننا نقوم بنمذجة البنية الجينية للسمة البؤرية التي تنشأ في ظل الانتقاء المستقر في مساحة السمات متعددة الأبعاد. نحل نموذج التوزيع الظاهري وديناميكيات الأليلات في حالة ثابتة ونستخرج حلولًا قوية ومغلقة الشكل لإحصاءات موجزة عن العمارة الجينية. تقدم نتائجنا تفسيرًا بسيطًا للتوريث المفقود ولماذا يختلف بين السمات. يتنبأون بأن توزيع الفروق التي ساهمت بها المواقع المحددة في GWASs يتم تقريبه جيدًا من خلال شكل وظيفي بسيط يعتمد على معلمة واحدة: المساهمة المتوقعة في التباين الجيني لموقع محدد بشدة يؤثر على السمة. نختبر هذا التوقع مقابل نتائج GWASs الخاصة بالطول ومؤشر كتلة الجسم (BMI) ووجدنا أنه يناسب البيانات جيدًا ، مما يسمح لنا بعمل استنتاجات حول درجة تعدد الأشكال وحجم الهدف الطفري لهذه السمات. تساعد النتائج التي توصلنا إليها في تفسير سبب تفسير GWAS للطول للتباين الوراثي أكثر من GWAS ذات الحجم المماثل لمؤشر كتلة الجسم والتنبؤ بالزيادة في التوريث الموضح مع حجم عينة الدراسة. بالنظر إلى التاريخ الديموغرافي للسكان الأوروبيين ، حيث تم إجراء هذه GWASs ، وجدنا أيضًا أن معظم الارتباطات التي حددوها من المحتمل أن تتضمن طفرات نشأت قبل وقت قصير من أو أثناء عنق الزجاجة خارج إفريقيا في مواقع ذات معاملات اختيار حولها س = 10 −3 .


الوعود والتحديات في علم الوراثة البشرية للاضطرابات النفسية

الاضطرابات النفسية متعددة الجينات بشكل كبير وتظهر مجموعة مستمرة من الاختلافات تتأثر بالعوامل البيئية والوراثية [1]. يتمثل الهدف الرئيسي للبحوث الجينية النفسية في فهم الآليات الجزيئية التي تعمل من خلالها المتغيرات الجينية للتأثير على المسؤولية تجاه هذه السمات. يوفر تحديد المتغيرات الجينية الجديدة موطئ قدم في البنية الجينية المعقدة التي تدعم السمات النفسية. توفر الكائنات النموذجية وسيلة لفهم الآليات البيولوجية التي تتأثر بالتنوع الجيني. في هذه المراجعة ، نحدد نهج البيانات الضخمة التي تنسج بكفاءة كميات هائلة من البيانات الجينومية المتقاربة من الأنواع الأخرى في النتائج الجينية البشرية لزيادة احتمالية الكشف عن مسارات ذات مغزى بيولوجيًا لمزيد من المتابعة التجريبية والاكتشاف العلاجي.

فائدة دراسات الارتباط على مستوى الجينوم (GWAS) في الطب النفسي

أنتجت GWAS للسمات النفسية تدفقًا كبيرًا من الاكتشافات الحديثة في تحديد متغير المخاطر والتنبؤ متعدد الجينات. من الصفات شديدة الوراثة ، مثل الفصام (التي تم الإبلاغ عن & # x0003e100 من المواقع الشائعة مع ن& # x02009 = & # x02009150،064 [2]) للحالات الشائعة ولكن الأقل قابلية للوراثة مثل مشكلة تعاطي الكحول (والتي تم الإبلاغ عن 29 موقعًا مستقلًا لها باستخدام ن& # x02009 = & # x02009435،563 [3]) والاكتئاب الشديد (حيث تم اكتشاف 102 موقع شائع باستخدام ن& # x02009 = & # x02009807،553 [4]) ، بالإضافة إلى المسؤولية عبر الاضطرابات النفسية (109 موقع مع ن& # x02009 = & # x02009727،126 [5]) التقدم وفير. بالإضافة إلى ذلك ، فيما يتعلق بتعاطي المخدرات ، تم استخدام GWAS مؤخرًا لتدخين التبغ (ن لبدء التدخين & # x02009 = & # x020091،232،091) والشرب النموذجي (ن للمشروبات / الأسبوع & # x02009 = & # x02009941،280) حدد أكثر من 400 موقع [6]. كشفت القوة المتزايدة المتراكمة عبر دراسات الاضطرابات النفسية الرئيسية ، الناشئة عن البحث التعاوني ، عن أدلة على آليات جديدة للتعرض للأمراض العقلية واضطرابات تعاطي المخدرات. كشفت هذه GWAS واسعة النطاق أيضًا عن أنماط من التباين الجيني المرتبط باضطرابات متعددة بالإضافة إلى مواقع خاصة بالاضطراب ، على سبيل المثال ، CADM2 تم ربطه بمواد متعددة وآليات إدمان شائعة (على سبيل المثال ، إدراك المخاطرة) ، بينما تظل جينات نازعة هيدروجين الكحول خاصة بالكحول (على سبيل المثال ، [7 ، 8]).

التحديات والفرص داخل GWAS للدراسات الجينية النفسية

تضخم المكاسب الأخيرة في الدراسات الجينية النفسية الموضحة أعلاه الحاجة إلى معالجة العديد من التحديات الدائمة داخل GWAS. أولاً ، على مستوى متغير ، يقع الجزء الأكبر من GWAS & # x0201chits & # x0201d في مناطق الجينوم غير المشفرة. الميزة الرئيسية لـ GWAS كوسيلة لاكتشاف الأساس البيولوجي للاضطرابات النفسية هو عدم وجود بداهة، تُمكِّن الفرضيات المتمحورة حول الجينات من اكتشاف المتغيرات التنظيمية للسمات في المناطق المُحسِنة والمُحركة ، و lncRNAs ، و microRNAs ، وأي كيان جزيئي آخر يمثل جزءًا من آلية تنظيم الجينات. ومع ذلك ، على عكس المتغيرات داخل الجينات المشفرة ، فإنه من الأصعب بكثير ربط الارتباطات الجينية ذات الدلالة الإحصائية بمنتجات الجينات والآليات البيولوجية التي تعمل من خلالها [9]. تتعقد تفسيرات نتائج GWAS المهمة بسبب أنماط الوراثة ذات الصلة (على سبيل المثال ، اختلال التوازن الوراثي) ، بحيث لا يكون المتغير الجيني الأكثر ارتباطًا في موضع ما & # x0201ccausal & # x0201d ولكن يمكن & # x0201ctag & # x0201d متغيرًا سببيًا حقيقيًا. هذا ، إلى جانب التنظيم الجينومي لمسافات طويلة ، يطرح تحديات لكشف النقاب عن جينات محددة والمتغيرات الكامنة وراء السمات البشرية عبر GWAS [10]. في هذه المراجعة ، نسلط الضوء على كيفية تكامل المتغيرات الجينية التنظيمية بشكل متماسك مع جينات الترميز داخل الأنواع وعبرها باستخدام هياكل بيانات موحدة.

التحدي الثاني مع GWAS هو أن تحليلات الطاقة تكشف أن تعدد الجينات الهائل الكامن وراء السمات والأمراض ذات الصلة بالطب النفسي يتطلب أحجامًا أكبر من العينات لاكتشافات إضافية من بيانات GWAS وحدها [11]. وبالمثل ، فإن القدرة التنبؤية لدرجة المخاطر متعددة الجينات (PRS) ، وهو مؤشر القابلية الجينية المجمعة للاضطراب ، للاضطرابات النفسية مرتبطة أيضًا ارتباطًا مباشرًا بالقوة الإحصائية الحالية لاكتشاف GWAS [12]. ومع ذلك ، فإن تحديد المتغيرات الإضافية المرتبطة بالسمات يستمر في زيادة تقديرات التوريث SNP بشكل كبير ، خاصة في حالة المتغيرات النادرة ، مما يشير إلى وجود المزيد من الإشارات في دراسات GWAS والتسلسل [13] ، بشرط أن تكون أحجام العينات أعلى مواصلة تحقيقها. في هذه المراجعة ، نسلط الضوء على الأساليب التي تستغل موارد البيانات التكميلية من الكائنات الحية النموذجية التي ، عند وضعها في إطار عمل تكاملي مع بيانات GWAS ، تظهر بعض الأمل في تحديد أولويات المتغيرات التي تم اكتشافها.

ثالثًا ، تمشيا مع المؤشرات من الدراسات الأسرية والتوائم المبكرة ، هناك دليل على تعدد الأشكال بين الصفات النفسية إلى حد يوحي ببعد أساسي للمسؤولية الجينية الذي يوازي نموذج العامل العام لعلم النفس المرضي [5 ، 14]. وبالتالي ، من المهم النظر في المتغيرات في سياق كل من الآليات البيولوجية العصبية الأساسية التي تعمل فيها ، والسمات المتعددة التي تتأثر بهذا الاختلاف للعثور على الآليات البيولوجية المحددة ، وكذلك الآليات البيولوجية المتداخلة الكامنة وراء السمات السلوكية.

نشأت مساهمة بارزة في قدرتنا الحالية على إضافة تعليق توضيحي لإشارات GWAS من FUMA [15] ، وهي منصة للتعليقات التوضيحية الوظيفية والتنظيمية للمتغيرات. يمكن بسهولة محاذاة الإحصائيات الموجزة من GWAS مع بيانات التعبير الخاصة بنوع الخلية والأنسجة ومجموعة متنوعة من التوقيعات التنظيمية والكروماتين مع عدم وجود عبء حسابي على المستخدم ، مما يجعل الوصول إلى FUMA متاحًا على نطاق واسع. كبديل لتقنيات رسم الخرائط المستندة إلى الجينات ، يمكن لأدوات البرامج أيضًا تعيين المتغيرات إلى النسخة غير المشفرة (على سبيل المثال ، LincSNP 3.0 [16]). بعيدًا عن رسم الخرائط المتغيرة ، يمكن استخدام مصادر متعددة لبيانات omics في إطار عمل متعدد المتغيرات لتضمين & # x0201ccausal & # x0201d مجموعات الجينات لحالة المرض (على سبيل المثال ، SMR [17] ، iRIGs [18] ، الرسام [19] ، التركيز [ 20]). الجهود جارية أيضًا ، بدرجات متفاوتة من النجاح ، لإثبات إلى أي مدى يمكن للإثراء التنظيمي المماثل لتقنيات الحد من الفقر أن يعزز التنبؤ (على سبيل المثال ، AnnoPred [21] ، LDpred-funct [22]). ومع ذلك ، فإن معظم هذه الأساليب اقتصرت على بيانات علم الوراثة البشرية وعلم الجينوم. في هذه المراجعة ، نسلط الضوء على الأساليب التي تجمع بين اتساع وعمق دراسات الكائنات الحية النموذجية التي يتم التحكم فيها جيدًا والتي تضع النتائج الجينية والجينومية في سياق السلوك الحيوي الذي يمكن أن يتوسع في هذه المجموعة أو مجموعات الأدوات التفسيرية الأخرى.


نتائج

عشرات التأثير الوظيفي

قمنا بتحليل مجموعة مشتقة من UKBB. ل

قام 18K بتحليل جينات ترميز البروتين ، وتأثر 17843 بتغير واحد على الأقل غير مرادف تم الإبلاغ عنه في UKBB. في المتوسط ​​، تأثر كل من هذه الجينات بـ 35.9 من هذه المتغيرات (الشكل 2 أ).

درجات التأثير الوظيفي الجيني المتوقعة في مجموعة UKBB. أ توزيع عدد المتغيرات غير المترادفة لكل جين التي تؤثر على تسلسل الترميز (CDS) ، وفقًا للبيانات الوراثية (المنسوبة) لـ UKBB. مقدمة في مقياس لوغاريتمي. ب توزيع

درجات تأثير متغير 640K. كل درجة عبارة عن رقم بين 0 (فقدان كامل للوظيفة) و 1 (لا ضرر لمنتج البروتين). ج, د درجات الجينات المجمعة وفقًا للسيطرة (ج) ومتنحية (د) نماذج الميراث. اللوحات العلوية: المتوسط ​​(الخط الصلب) والانحراف المعياري (المنطقة المظللة) لدرجات تأثير 18،053 جينات ترميز البروتين التي تم تحليلها عبر مجموعة UKBB بأكملها (مرتبة حسب الدرجة المتوسطة). اللوحة السفلية: ض درجات تأثير الجين عبر 10 عينات تم اختيارها عشوائيًا (من عينات

500 ألف عينة في UKBB). يتم عرض كل من العينات العشر بلون مميز

يتكون اشتقاق مصفوفات درجات التأثير الجيني من خطوتين. أولاً ، يتم استخدام FIRM للتنبؤ بدرجة التأثير لكل متغير يؤثر على البروتين (الشكل 2 ب). حدسيًا ، يمكن تفسير درجات التأثير المتوقعة هذه على أنها احتمالية احتفاظ البروتين المتأثر بوظيفته. ثم يتم دمج الدرجات المتغيرة مع الأنماط الجينية للفوج وتجميعها معًا للحصول على درجات التأثير المهيمن والمتنحي لكل عينة على مستوى الجين (الشكل 2 ج ، د). كما هو متوقع ، فإن التأثيرات الجينية السائدة (التقاط ضربات فردية) أكثر انتشارًا من التأثيرات المتنحية (للضربات المزدوجة). تلتقط درجات الجينات المشتقة التباين الجيني في سكان UKBB الذي لوحظ حتى ضمن عدد صغير من العينات. الهدف من PWAS هو اختبار ما إذا كان هذا التباين الجيني الوظيفي يرتبط بالأنماط الظاهرية.

تحليل المحاكاة

لفحص إمكانات اكتشاف PWAS مقارنة بـ GWAS و SKAT ، أجرينا تحليل محاكاة (الشكل 3). تم إجراء المحاكاة على بيانات وراثية حقيقية (من مجموعة UKBB) ، مع محاكاة أنماط ظاهرية عن طريق خلط الإشارة الجينية والضوضاء. لاختبار حساسية PWAS لأخطاء FIRM الحتمية ، قمنا بفحص تأثير معلمة الضوضاء (ϵ) التأثير على تنبؤاته. على وجه التحديد ، قمنا بتشويه درجات التأثير المتغير التي تنبأ بها FIRM (في النطاق بين 0 و 1) مع ضوضاء غاوسية مضافة للانحراف المعياري ϵ. يبدو أنه في ظل افتراضات النمذجة للمحاكاة ، فإن PWAS ليست حساسة للغاية لعدم الدقة المحدودة في توقع التعلم الآلي الأساسي.

تحليل المحاكاة. نتائج تحليل محاكاة يقارن بين GWAS و SKAT و PWAS. يتم عرض القوة الإحصائية لكل طريقة كدالة لحجم المجموعة (1000 ، 10000 ، 50000 ، 100000 ، أو جميع عينات UKBB التي تمت تصفيتها والبالغ عددها 332709 ، موضحة في مقياس لوغاريتمي). تظهر القيم المقدرة كخطوط صلبة ، مع فواصل ثقة بنسبة 95٪ على شكل نطاقات منطقة شبه شفافة. اعتبر كل تكرار للمحاكاة جينًا واحدًا لترميز البروتين يؤثر على النمط الظاهري المستمر المحاكى للشكل ذ = βx + σ، أين x هو تأثير الجين على النمط الظاهري (تم تطبيعه ليكون يعني 0 والانحراف المعياري 1 عبر سكان UKBB) ، β ∈ <0.01،0.05> هو حجم تأثير الجين ، و σ

ن(0 ، 1) عبارة عن ضوضاء غاوسية عشوائية. تأثير الجين x تم محاكاته وفقًا لنموذج PWAS ، مع وراثة سائدة أو متنحية أو مضافة. تم تقديم معلمة الضوضاء ϵ ∈ <0،0.25> إلى FIRM ، نموذج التعلم الآلي الأساسي الذي يقدر أضرار المتغيرات. تم أخذ معماريات الجينات وبيانات التنميط الجيني والمتغيرات المشتركة الـ 173 المضمنة من مجموعة UKBB

بناءً على نتائج المحاكاة ، نتوقع أن تكون ميزة PWAS هي الأكثر أهمية عند التعامل مع الوراثة المتنحية. نجد ذلك بحجم تأثير صغير (β = 0.01) ، يلزم ما لا يقل عن 100 ألف عينة للحصول على قوة إحصائية كافية (بالنظر إلى 173 متغيرًا مشتركًا). عندما يكون حجم التأثير أكبر (β = 0.05) ، يمكن أن تكون مجموعات من 10 آلاف عينة كافية.

من المهم الإشارة إلى أنه تم محاكاة الأنماط الظاهرية من البيانات الوراثية بواسطة مخطط نمذجة متوافق مع افتراضات PWAS. لذلك ، لا ينبغي النظر إلى هذه النتائج كدليل على هيمنة PWAS على GWAS أو SKAT في العالم الحقيقي. بدلاً من ذلك ، تقوم هذه المحاكاة بفحص مدى قابلية التطبيق للطريقة وتقييم مقدار البيانات المطلوبة للحصول على قوة إحصائية كافية في ظل الإعدادات التي تم تصميمها من أجلها. بالإضافة إلى مخطط النمذجة المرتكز على البروتين ، قمنا أيضًا بفحص الأنماط الظاهرية التي تمت محاكاتها وفقًا لنموذج خطي قياسي ، بالإضافة إلى الأنماط الظاهرية الثنائية (ملف إضافي 1: الشكل S1).

دراسة حالة: سرطان القولون والمستقيم

لفحص PWAS على الأنماط الظاهرية الحقيقية ، نبدأ بدراسة حالة لسرطان القولون والمستقيم. تم اشتقاق مجموعة من 260،127 عنصر تحكم و 2822 حالة من UKBB للكشف عن جينات الاستعداد التي تؤدي إلى زيادة خطر الإصابة بسرطان القولون والمستقيم من خلال متغيرات السلالة الجرثومية.

لتوضيح كيفية عمل PWAS ، نبدأ بعرض التحليل على جين معين -كتم (الشكل 4 أ) ، وهو جين معروف للإصابة بسرطان القولون والمستقيم [23]. في المجموعة المدروسة ، هناك 47 متغيرًا غير مترادف يؤثر على تسلسل بروتين الجين. عندما يتم أخذها في الاعتبار من خلال GWAS القياسي لكل متغير ، فإن أهم هذه المتغيرات ينتج عنها أ ص قيمة 1.2E − 03. حتى لو تم أخذ المنطقة المحيطة بالجين بالكامل في الاعتبار (حتى 500000 نقطة أساس من كل جانب من إطار القراءة المفتوح) ، فإن أقوى أهمية تم الحصول عليها لا تزال فقط ص = 6.3E − 04 ، بعيدًا عن عتبة الأهمية على مستوى الإكسوم (5E − 07). من ناحية أخرى ، عند تحليلها بواسطة PWAS ، تظهر هذه الرابطة أهمية ساحقة (FDR ف القيمة = 2.3E − 06) ، أبعد بكثير من عتبة أهمية FDR شائعة الاستخدام (ف & lt 0.05).

دراسة حالة سرطان القولون والمستقيم. أ إظهار ارتباط النمط الظاهري الجيني: كتم وسرطان القولون والمستقيم. تظهر المتغيرات التي تؤثر على تسلسل البروتين أعلى exons للجين. كما هو متوقع ، تميل المتغيرات داخل المجالات إلى أن تكون أكثر ضررًا. بينما لا يوجد أي من المتغيرات التي تؤثر على البروتين قريب من عتبة الأهمية على مستوى الإكسوم (ص & lt 5E − 07) ، فإن الارتباط مهم جدًا بواسطة PWAS (FDR ف القيمة = 2.3E − 6). يتم عرض الإحصائيات الملخصة الكاملة للمتغيرات الـ 47 في الملف الإضافي 2: الجدول S1. ب مؤامرة PWAS QQ لجميع الجينات البالغ عددها 18053 التي تم اختبارها للارتباط بسرطان القولون والمستقيم

كان PWAS قادرًا على الكشف عن الارتباط من خلال تجميع الإشارة المنتشرة عبر عدد كبير من المتغيرات المختلفة ، مع وجود 5 من المتغيرات الـ 47 التي تؤثر على البروتين والتي تُظهر ارتباطات خفيفة (ص & lt 0.05). نظرًا لأن هذه المتغيرات الخمسة تُظهر اتجاهًا ثابتًا (كل المخاطر تزداد) ، وبما أنه من المتوقع أن يكون معظمها ضارًا على الأرجح ، فقد تم تجميعها بشكل فعال في درجات الجينات التي تختلف اختلافًا كبيرًا بين الحالات والضوابط. على وجه التحديد ، فإن كتم يكون الجين أكثر تضررًا في الحالات منه في الضوابط وفقًا لإطار PWAS. الارتباط مهم فقط وفقًا للنموذج المتنحي ، مع حجم تأثير تقديري يبلغ د = - 0.079 (متوسط ​​الفرق المعياري في درجات التأثير الجيني بين الحالات والضوابط). هذه الملاحظة تتفق مع التقارير السابقة حول كتم، بدعوى وضع وراثة متنحية [23].

لاستعادة جميع جينات ترميز البروتين المرتبطة بسرطان القولون والمستقيم وفقًا لـ PWAS ، قمنا بتحليل 18053 جينًا (الشكل 4 ب) ، واكتشفنا 6 ارتباطات مهمة (الجدول 1). من بين هذه الجمعيات الستة ، 5 مدعومة ببعض الأدلة الأدبية ، 3 منها بمستوى من الأدلة نعتبرها قوية. في 4 من أصل 5 جمعيات مدعومة ، يتوافق اتجاه الارتباط المذكور في الأدبيات (أي الجين الوقائي أو الخطر) مع حجم التأثير (Cohen’s د) التي تم الكشف عنها بواسطة PWAS (فقط في POU5F1B مقلوب). من الجينات الستة فقط POU5F1B يتأثر بالمتغير الذي يتجاوز الأهمية على مستوى exome (rs6998061 ، ص = 1.4E − 07). لم يتم اكتشاف الجينات الخمسة الأخرى بواسطة GWAS ، حتى عند النظر في جميع المتغيرات في منطقة الجين (ما يصل إلى 500000 نقطة أساس من الجين). والجدير بالذكر ، في حين أن GWAS تحدد الأهمية من خلال مستوى الأهمية المصحح من Bonferroni (ص & lt 5E-07 لمناطق التشفير) ، يحدد PWAS الأهمية بواسطة FDR (ف & lt 0.05) ، مثل الطرق الجينية الأخرى.

قابلية تطبيق PWAS عبر 49 نمطًا مختلفًا

بعد دراسة الحالة PWAS لنمط ظاهري محدد ، ننتقل إلى النظر في قابلية تطبيقه لمجموعة متنوعة من 49 نمطًا ظاهريًا بارزًا (الشكل 5 أ). طبقنا كلاً من GWAS و PWAS القياسيين عبر 49 نمطًا ظاهريًا في نفس مجموعة UKBB (

330 ألف عينة) ، والحصول على مجموعة غنية من الجمعيات (الشكل 5 ب ، ج). إجمالاً ، اكتشف PWAS 12444 ارتباطًا للنمط الظاهري للجين ، 5294 منها فقط (43 ٪) تحتوي على متغير غير مرادف مهم لـ GWAS في منطقة ترميز الجين (الشكل 5 ب). بعبارة أخرى ، على الرغم من أن PWAS تعتبر نفس مجموعة المتغيرات بالضبط ، في 57 ٪ من الجمعيات ، فإنها قادرة على استعادة إشارة مجمعة يتم تجاهلها بواسطة GWAS عند النظر في كل من المتغيرات على حدة. حتى عند النظر في جميع المتغيرات الموجودة على مقربة من الجين لحساب LD (حتى 500000 نقطة أساس لكل جانب من منطقة الترميز) ، فإن 2743 من 12444 جمعية PWAS (22 ٪) لا تزال مفقودة من قبل GWAS (الشكل 5 ج ، د).

يثري PWAS اكتشافات GWAS عبر الأنماط الظاهرية. أ قمنا بتحليل 23 نمطًا ظاهريًا ثنائيًا ، و 25 نمطًا ظاهريًا مستمرًا ، ونمطًا ظاهريًا فئويًا واحدًا (أنماط الصلع الذكوري) مشتق من

330 ألف عينات البنك الحيوي في المملكة المتحدة. ضمن الأنماط الظاهرية الثنائية ، يمتد عدد الحالات إلى أوامر الحجم (من 127 فقط في التصلب الجهازي إلى 62 ألفًا في ارتفاع ضغط الدم). ب, ج تقسيم جينات ترميز البروتين المهمة ، عبر الأنماط الظاهرية المختلفة ، التي تم اكتشافها بواسطة GWAS أو PWAS أو كليهما. يظهر العدد الإجمالي للجينات المهمة بين قوسين. في ب، اعتبر GWAS أن الجين مهمًا إذا اجتاز متغير غير مرادف داخل منطقة الترميز للجين عتبة الأهمية على مستوى الإكسوم (ص & lt 5E − 07). في ج، تم أخذ معيار مريح ، مع الأخذ في الاعتبار جميع المتغيرات في حدود 500000 نقطة أساس لكل جانب من منطقة الترميز للجين (يظهر هنا فقط الجينات المهمة PWAS). د عدد الجينات المهمة لكل نمط ظاهري الذي وجده PWAS وحده ، وفقًا لمعيار الاسترخاء GWAS ، على النحو المحدد في ج (على سبيل المثال ، بدون أي متغير مهم في حدود 500000 نقطة أساس)

يتوفر ملخص كامل لجميع الأنماط الظاهرية الـ 49 التي تم اختبارها ، مع إحصائيات ملخص كاملة لكل جين ، في ملف إضافي 3: الجدول S2 (لجميع ارتباطات PWAS المهمة) والملف الإضافي 4: الجدول S3 (مع جميع جينات ترميز البروتين المختبرة البالغ عددها 18053) . تتوفر مخططات QQ لجميع الأنماط الظاهرية البالغ عددها 49 في ملف إضافي 1: الشكل S2.

لتأكيد أهمية درجات التأثير الوظيفي المتوقعة المخصصة للمتغيرات ، قمنا باختبار أداء إصدار من PWAS حيث تم خلط درجات تأثير المتغيرات غير المترادفة قبل تجميعها في درجات الجينات. في الواقع ، نجد أن الإصدار الأصلي من PWAS (وظيفة الجينات الملتقطة) يتفوق في الأداء على النسخة التي تم خلطها (ملف إضافي 1: الشكل S3).

مقارنة مع SKAT

بعد أن أثبتنا قوة اكتشاف PWAS بما يتجاوز GWAS القياسي ، فإننا نقارنه أيضًا بـ SKAT [18] ، الطريقة الأكثر شيوعًا للكشف عن الارتباطات الجينية على مستوى الجينات. الأهم من ذلك ، بينما تحاول SKAT استعادة جميع الارتباطات الجينية الموجودة ، تركز PWAS بشكل خاص على جينات ترميز البروتين المرتبطة بالنمط الظاهري من خلال وظيفة البروتين.

نجد أن PWAS تتفوق على SKAT في عدد الارتباطات المكتشفة لمعظم الأنماط الظاهرية (الشكل 6 أ). قمنا أيضًا بفحص مدى التداخل بين النتائج المبلغ عنها بواسطة كل من الطريقتين (انظر أشرطة "الإجماع" في الشكل 6 أ). يبدو أن PWAS و SKAT تميل إلى استعادة مجموعات متميزة من الجينات ، لذلك يمكن اعتبار الطريقتين مكملتين إلى حد كبير.

تقدم PWAS و SKAT نتائج تكميلية. أ عدد الجينات المهمة التي تم اكتشافها بواسطة PWAS و SKAT وإجماع كليهما عبر 49 نمطًا ظاهريًا تم اختباره (على نفس المجموعات المستمدة من UKBB). يتم فرز الأنماط الظاهرية حسب أعلى الأرقام الثلاثة. ب يتم عرض درجة الأدلة الخاصة بجمعيات النمط الظاهري للجينات (المستمدة من Open Targets Platform) عبر الأنماط الظاهرية من خلال متوسطها على الجينات المهمة التي تم اكتشافها بواسطة PWAS أو SKAT أو إجماع كليهما. يتم عرض عدد الجينات المهمة (التي يتم إجراء المتوسط ​​عليها) فوق الأشرطة. ج مقارنة بين FDR ف القيم التي حصلت عليها PWAS و SKAT أكثر من 4944 ارتباطًا بالنمط الظاهري للجينات بدعم قوي من Open Targets Platform. د مقارنة مماثلة مع 202 جمعية ذكرت من قبل OMIM أن لها أساس جزيئي معروف. المؤامرة اليمنى (المميزة بإطارات حمراء) هي تكبير لليسار

لتقييم جودة الاكتشافات ، نناشد Open Targets Platform (OTP) [32] ، وهو مورد شامل لروابط الأمراض الجينية القائمة على أساس طبقات متعددة من الأدلة ، و OMIM [33] ، أبرز كتالوج للجينات البشرية المتورطة في الاضطرابات الوراثية. قمنا بمقارنة جودة الارتباطات المكتشفة بواسطة الطريقتين ، وفقًا لدرجات الأدلة المستمدة من OTP ، عبر 24 مرضًا تم اختبارها تم تسجيلها في OTP (الشكل 6 ب). وفقًا لهذا المقياس ، يبدو أن نتائج PWAS و SKAT قابلة للمقارنة إلى حد كبير ، حيث تظهر جينات الإجماع أدلة أقوى.

قمنا أيضًا بالتحقيق في كيفية استعادة الطريقتين (PWAS و SKAT) للجمعيات المصدق عليها خارجيًا والمقدمة من OTP (الشكل 6 ج) و OMIM (الشكل 6 د). من بين 4944 جمعية بدعم قوي من OTP ، تم استرداد 9 منها بواسطة SKAT مقارنة بـ 6 جمعيات تم استردادها بواسطة PWAS. في حالة OMIM ، التي توفر قائمة أكثر تقييدًا لـ 202 ارتباطًا بأمراض الجينات عالية الجودة مع أساس جزيئي معروف ، كان PWAS متفوقًا إلى حد ما (12 مقارنة بـ 7 ارتباطات مستردة ، مع كون 7 مجموعة فرعية من 12). لم نلاحظ أي اتجاه واضح بين أنواع الأنماط الظاهرية (على سبيل المثال ، السرطان أو أمراض أخرى) وأهمية الارتباطات التي تم الحصول عليها من خلال الطريقتين (انظر الألوان في الشكل 6 ج ، د).

بناءً على هذا التحليل المقارن ، نستنتج أن PWAS و SKAT مكملان لبعضهما البعض وأنه قد يكون من المفيد استخدامهما في دراسات الارتباط. نشدد على أن الطريقتين متميزتان جدًا في نوع الجمعيات التي يسعون إليها وكيفية تصميمها.

ارتباطات مهمة للغاية لا تهيمن عليها المتغيرات الفردية

من بين جميع الارتباطات المكتشفة ، نسعى إلى إبراز تلك التي تتميز بشكل خاص بطريقتنا الجديدة ، وهي النتائج التي تم اكتشافها بشكل فريد بواسطة PWAS وتظهر أدلة قوية على كونها سببية. تحقيقًا لهذه الغاية ، قمنا بتصفية الجمعيات وفقًا لمعايير صارمة للغاية: (1) الأهمية القوية (FDR ف القيمة & lt 0.01) ، (2) لا توجد جينات مهمة أخرى في المنطقة ، و (3) لا يوجد اتحاد متغير واحد مهيمن. من بين 2743 ارتباطًا للنمط الظاهري الجيني تم العثور عليها بشكل فريد بواسطة PWAS (الشكل 5 د) ، 48 تفي بهذه المعايير ويشار إليها على أنها ارتباطات "حصرية لـ PWAS" (الجدول 2 يتم توفير القائمة الكاملة في ملف إضافي 5: الجدول S4).

كما هو متوقع ، لا تظهر الجينات الحصرية لـ PWAS أي إشارة GWAS على الإطلاق ، وتقتصر ارتباطات PWAS على الجينات المرتبطة (الشكل 7 أ). عندما نظرت SKAT في الاعتبار ، لم تظهر أي من الارتباطات الـ 48 ذات الأهمية (الشكل 7 ب) ، على الرغم من أن SKAT لم يتم تضمينها في معايير تحديد تلك الارتباطات. ومن المثير للاهتمام ، أن معظم الجمعيات الحصرية PWAS مدفوعة بالميراث المتنحي. من بين الجينات العشرة المدرجة في الجدول 2 ، يوجد واحد فقط (SLC39A8) يظهر نمط وراثي سائد. يشير هذا إلى أن نمذجة الوراثة المتنحية هي ميزة فريدة لـ PWAS على GWAS.

الجمعيات الحصرية PWAS. أ تمثيل الارتباطات الـ 48 الحصرية لـ PWAS مع الجينات الثلاثة المرتبطة بالنمط الظاهري للضغط داخل العين. تظهر الجينات الثلاثة نقصًا تامًا في أي نمط GWAS بالقرب من الجينات (حتى 500000 نقطة أساس في كلا الاتجاهين لكل جين). تم تقسيم كل منطقة من مناطق الجينات الثلاث المصورة إلى 200 حاوية ، تعرض المتغير الأكثر أهمية في كل سلة. يظهر أيضًا PWAS FDR ف قيم جميع جينات ترميز البروتين التي تم تحليلها في تلك المناطق الكروموسومية. ب مقارنة بين FDR ف القيم التي حصلت عليها PWAS و SKAT للجمعيات الـ 48

بعض الجمعيات المدرجة مدعومة بقوة من قبل الأدبيات. على سبيل المثال ، إنترلوكين 6 (IL6) ، المتورط هنا مع نسبة عالية من تشتت الضوء (HLS) في نسبة الخلايا الشبكية لخلايا الدم الحمراء ذات الأهمية الساحقة (PWAS FDR ف value = 1.8E − 126) ، معروف بقدرته على إضعاف إنتاج الهيموغلوبين ونضوج الكريات الحمر. اتصال بـ IL6 إلى نضوج الكريات الحمر ، وفقر الدم ، والالتهاب من خلال ضعف وظيفة الميتوكوندريا كما أنشئت [34]. وعلاوة على ذلك، IL6 يلعب دورًا في تطور فقر الدم الناتج عن أمراض الكلى المزمنة عند الأطفال (فقر الدم CKD). هذه IL6- علم الأمراض المعتمد ناتج عن تدمير خلايا الدم الحمراء من خلال تأثيره على محور الإريثروبويتين (Epo) ، مما يؤكد الارتباط المباشر لـ IL6 بنسبة خلايا الدم الحمراء [35].

وبالمثل ، فإن MLLT3 ، والذي يبدو أنه مرتبط بعرض توزيع خلايا الدم الحمراء من خلال الوراثة المتنحية وفقًا لـ PWAS (FDR). ف القيمة = 8.5E − 06 ، ص = - 0.01) ، تم الإبلاغ عنه بالفعل أنه جين تنظيمي رئيسي في نخاع العظام [36]. من بين 49 نمطًا ظاهريًا تم اختبارها في هذا العمل ، وجدنا أن الجين مهم أيضًا في العديد من سمات خلايا الدم الأخرى ، بالإضافة إلى قوة قبضة اليد (ملف إضافي 3: الجدول S2). وبالمثل ، فإن CD80 ، الذي يرتبط به PWAS مع تعداد الحمضات من خلال الوراثة المتنحية (FDR ف القيمة = 1.1E − 06 ، ص = - 0.01) ، له بالفعل دور مهم في عرض المستضد بواسطة الحمضات [37]. FOXP1 هو جين آخر مرتبط بعدد الحمضات من خلال الوراثة المتنحية وفقًا لـ PWAS (FDR ف القيمة = 9.8E − 17 ، ص = - 0.016). في حين لم يتم الإبلاغ عن أي دليل مباشر على هذا الارتباط ، فمن المعروف أن FOXP1 يؤثر على تمايز وحيدات ووظيفة البلاعم [38].

في أمثلة أخرى ، على الرغم من عدم وجود مؤشر واضح على الارتباط المبلغ عنه ، إلا أنه يوجد معقولية جزيئية قوية. عامل النسخ الآخر الذي ينتمي إلى عائلة الرأس المتشعبة هو FOXG1، والذي يلعب دورًا رئيسيًا في نمو الشبكية (وظيفة محفوظة في جميع الفقاريات) [39]. وقد ثبت أن الجين مرتبط بضعف البصر في كل من الفأر والأتراب البشري [40]. ومع ذلك ، لم يتم ربطه بشكل مباشر بضغط العين ، وهو ارتباط نلاحظه هنا ذو أهمية بارزة وفقًا للنموذج المتنحي لـ PWAS (FDR). ف القيمة = 2.6E − 15). على وجه التحديد ، يبدو أن الوظيفة الطبيعية للجين (أي عدم وجود المتغيرات الضارة) مرتبطة بشكل إيجابي (ص = 0.031) مع ضغط العين.

مثال آخر هو INPP1، الذي يشفر إنزيم إينوزيتول بولي فوسفات -1 فوسفاتيز. في الأدبيات الحالية ، تم الإبلاغ عنه بشكل أساسي في سياق التوحد واضطرابات المزاج [41] ، في حين أن الارتباطات الجينية المبلغ عنها في منصة الأهداف المفتوحة [32] تركز بشكل أساسي على اضطرابات المناعة الذاتية وخصائص الدم. ومع ذلك ، لا يبدو أنه مرتبط بعدد الخلايا الليمفاوية ، وهو ارتباط نلاحظه هنا (FDR المتنحية ف القيمة = 1.9E − 12 ، ص = - 0.014). بشكل عام ، يبدو أن الدراسة الجينية للأنماط الظاهرية للدم مهملة إلى حد ما ، وغالبًا ما يكون من غير المؤكد كيف ترتبط هذه الارتباطات بالنتائج السريرية.

في بعض الحالات ، نجد القليل من الأدلة الأدبية للجمعيات الحصرية لـ PWAS المبلغ عنها. على سبيل المثال، جابت و CLVS2 وجد أنها مرتبطة بضغط العين. جابت يلعب (بروتين محول ربط البروتين 2 المرتبط بمستقبلات عامل النمو ، عبر الغشاء) دورًا في تنظيم تنشيط الخلايا البائية والصيانة المناسبة للمنطقة الهامشية [42]. CLVS2 (بروتين 2 Sec14 المرتبط بحويصلة الكلاذرين) متورط في تهريب غشاء الخلية [43]. في كلتا الحالتين ، لم يتم الإبلاغ بعد عن ارتباط بالضغط داخل العين. جمعية PWAS الهامة الأخرى التي تفتقر إلى دعم الأدب هي FAM160B1 فيما يتعلق بسرطان الدم. على الرغم من عدم وجود دعم الأدبيات الحالية لهذه الروابط ، فإن الارتباطات القوية التي أنشأتها PWAS تقدم دليلًا قويًا على الروابط المحتملة التي تستحق المزيد من الاستكشاف.


أساليب

افتراض التأثيرات الثنائية

في إطار عملنا ، نستخدم نموذجًا مبسطًا لوصف عدم التجانس بين الدراسات مما يؤدي إلى افتراضين. الافتراض الأول هو أن التأثير إما موجود أو غائب في الدراسات. يختلف هذا الافتراض عن الافتراض التقليدي بافتراض أحجام التأثير الموزعة بشكل طبيعي [27] - [29]. افتراضنا مستوحى من ظاهرة أن أحجام التأثير تُلاحظ أحيانًا أنها أصغر بكثير في بعض الدراسات منها في الدراسات الأخرى. يُذكر أن مجموعات سكانية مختلفة يمكن أن تسبب مثل هذه الظاهرة [19] ، [20] ، [30] ، [31]. على سبيل المثال ، تماثل الزيجوت لـ APOE من المعروف أن 4 متغير يقلل من خطر الإصابة بمرض الزهايمر بمقدار خمسة أضعاف لدى الأمريكيين من أصل أفريقي مقارنة بآسيويين [19] ، [30]. النمط الفرداني HapK الممتد LTA4H gene is shown to confer threefold smaller risk of myocardial infraction in the populations of Europeans decent than in African Americans [31]. ال HNF4A P2 promoter variants are shown to be associated with type 2 diabetes in Ashkenazi and the results have been replicated [20]. However, in the same study, the same variants did not show associations in four different cohorts of UK population suggesting a heterogeneous effect. Gene-environmental interactions can also cause such phenomenon. If a study lacks an environmental factor necessary for the interaction, the observed effect size can be much smaller in that study. It is generally agreed that the gene-environmental interactions exist in many diseases such as cardio vascular diseases [32], respiratory diseases [33], and mental disorders [34].

The second assumption is that if the effect exists, the effect sizes are similar between studies. We call these two assumptions together the binary effects assumption. While other types of heterogeneity structures are possible such as arbitrary effect sizes, for identifying which studies have an effect and which studies do not have an effect, we expect that this model will be appropriate.

M-Value

We propose a statistic called the m-value which is the posterior probability that the effect exists in each study of a meta-analysis. Suppose that we analyze studies together in a meta-analysis. Let ( ) be the observed effect size of study and let be the estimated variance of . It is a common practice to consider the true variance. In the current GWASs, the distribution of is well approximated by a normal distribution due to the large sample sizes. Let denote the observed data.

If there is no effect in study , where is the probability density function of a normal distribution whose mean is and the variance is . If there is effect in study , where is the unknown true effect size.

Since we want a posterior probability, the Bayesian framework is a good fit. We assume that the prior for the effect size is A possible choice for in GWASs is 0.2 for small effect and 0.4 for large effect [35], [36].

Let be a random variable which has a value 1 if study has an effect and a value 0 if study does not have an effect. Let be the prior probability that each study will have an effect such that Then we assume a beta prior on Through this paper, we use the uniform distribution prior ( and ), but other priors can also be chosen.

Let be the vector indicating the existence of effect in all studies. can have different values. Let be the set of those values.

Our goal is to estimate the m-value , the posterior probability that the effect exists in study . By the Bayes' theorem, (1) where is a subset of whose elements' th value is 1. Thus, we only need to know for each the posterior probability of , consisting of the probability of given and the prior probability of .

The prior probability of is where is the number of 1's in and is the beta function.

And the probability of given is (2) where is the indices of 0 in and is the indices of 1 in . We can analytically work on the integration to obtain where where is the inverse variance or precision. The summations are all with respect to .

is a scaling factor such that The details of the derivation is in Text S1 in Supporting Information S1. As a result, we can calculate for every and therefore obtain for each study .

The drawback of the exact calculation of m-value is that we need to iterate over all which is exponential to . This is not problematic in most of the current meta-analyses of GWASs, but will be problematic in future studies if increases over several tens. Therefore, here we propose a simple Markov Chain Monte Carlo (MCMC) method to estimate m-value.

We propose the following Metropolis-Hastings algorithm [37].

  1. Start from a random .
  2. Choose a next .
  3. If , move to . Otherwise, move to with probability .
  4. Repeat from step 2.

The set of moves we use for choosing is . is a simple flipping move of between 0 and 1. is a move that shuffles the values of . This move is introduced to avoid being stuck on one mode in a special case that there are two modes which can happen when the observed direction of the effect is opposite in some studies. At each step, we randomly choose a move from this set assuming a uniform distribution. We allow burn-in and sample times. After sampling, samples gives us an approximation of the distribution over , which subsequently gives the approximations of m-values by the formula (1).

Interpretations and predictions.

The m-value has a valid probabilistic interpretation that it is the posterior probability that the effect exists in each study under our binary effects model. If we are to choose studies predicted to have an effect and studies predicted to not have an effect, a threshold is needed. In this paper, we use the threshold of m-value for the former and m-value for the latter. Although this thresholding is arbitrary, the actual level of threshold is often not of importance because outlier studies showing different characteristics from the other studies usually stand out in the plotting framework described below.

Relationship to PPA.

The m-value is closely related to the posterior probability of association (PPA) based on the Bayes factor (BF) [35] in the sense that the presence and absence of effects are essentially describing the same things as the alternative and null models in the association testing. There are two fundamental differences. First, in the usual PPA, the prior probability of association ( ) is given by a point prior which is usually a very small value in GWAS reflecting the fact that the true associations are few. In our framework, we focus on interpreting meta-analysis results after we find associations using meta-analysis. Thus, reflects our belief on the effect conditioned on that the associations are already significant. For this reason, we need not use a very small value but instead choose to use a distribution prior. Second, the PPA is calculated for each study separately. However, the m-value is calculated using all studies simultaneously utilizing cross-study information. Thus, if the binary effects assumption approximates the truth, the m-value is more effective in predicting effects than the PPA or equivalently the BF, as we show by simulations in Results.

P-M Plot

We propose plotting the studies' p-values and m-values together in two dimensions. This plot, which we call the P-M plot, can help interpreting the results of a meta-analysis. Figure 1 shows that how to interpret such a plot. The right-most (pink) region is where the studies are predicted to have an effect. Often, a study can be in this region even if the p-value is not very significant. The left-most (light-blue) region is where the studies are predicted to not have an effect. This suggests that the sample size is large but the observed effect size is close to zero, suggesting a possibility that there exists no effect in that study. The middle (green) region is where the prediction is ambiguous. A study can be in this region because the study is underpowered due to a small sample size. If the sample size increases, the study will be drawn to either the left or the right side.


Genome-Wide Association Studies

Genome-wide association studies (GWAS) use high-throughput genomic technologies to scan entire genomes of large numbers of subjects quickly, in order to find genetic variants correlated with a trait or disease. Understanding the genetic architecture of complex diseases relies heavily on discovery and characterization of disease-associated variants such as single nucleotide polymorphisms (SNPs) and copy number variations (CNVs).

GWAS for Common Variant Discovery

Complex diseases are often characterized by common variants, while the contribution of rare or low-frequency variants remains largely unknown. Large-scale GWAS using microarrays are efficient and cost-effective for identifying loci and imputing common SNP variants associated with disease. However, arrays are limited in detecting low-frequency SNP variants. The base-by-base resolution of whole-genome sequencing allows for the identification of both common and rare variants that may be associated with disease.

Benefits of Genome-Wide Association Studies

  • Identification of novel variant-trait associations, with more than 50,000 trait- and disease-associations reported to date 1
  • Genotype information that can be leveraged for clinical applications, including development of polygenic risk scores used for early detection, prevention, or treatment of disease as well as drug development, selection, and dosage
  • Generation of easily sharable data, facilitating analysis on increasingly large and diverse sample sets
Opportunities for GWAS and Genetic Disease

GWAS for many diseases and disorders have not yet been performed, and the large majority (79%) of participants in GWAS to date are of European ancestry. As the European population accounts for just

16% of the global population, there is a recognized need for more diverse GWAS datasets. 2

In addition to ethnic diversity, there is a need to perform GWAS on diverse disease indications for specific sub-groups. This will help provide clues about which genes and gene pathways could be involved in disease mechanisms and pathogenesis.

Successfully Identified Variants for Specific Complex Diseases

GWAS with the commonly used case-control setup approach, which compares two large groups of individuals–one case group affected by a disease and one healthy control group–have successfully identified variants for specific complex diseases, such as:

  • Type 2 diabetes
  • مرض الشلل الرعاش
  • Crohn’s disease
  • Various types of heart disease including coronary artery, atrial fibrillation, cardiomyopathy, etc.
  • Multiple types of cancer including breast, colorectal, etc.

Understanding Variant to Function Research

Researchers study populations and groups to find connections that help us understand how variants relate to each other and various diseases. Genomics is essential in driving this research. Start making these connections in your research and share your stories using the hashtag #V2Fnow.

Understanding Variant to Function Research

Using GWAS to Map Complex Genetic Traits

Researchers perform large GWAS studies to identify disease-associated DNA risk loci and develop polygenic risk scores.

From GWAS to NGS: Genetics of Children's Complex Diseases

Professors at Children's Hospital of Philadelphia discuss how they use NGS to map variants to causal genes.

Featured GWAS Products

Infinium Global Diversity Array-8 v1.0 Kit

The Global Diversity Array-8 (GDA) v1.0 BeadChip combines exceptional coverage of clinical research variants with optimized multi-ethnic, genome-wide content.

Infinium Global Screening Array-24 Kit

The Infinium Global Screening Array-24 v3.0 BeadChip is a next-generation genotyping array for population-scale genetics, variant screening, pharmacogenomics studies, and precision medicine research.

Infinium Multi-Ethnic AMR/AFR-8 Kit

A cost-effective array for understanding complex disease in diverse human populations, focused on Hispanic and African American populations.

Prioritizing Functional Genetic Variants Through Advanced Sequencing Approaches

Genome-wide association studies have identified thousands of variants with putative roles in different diseases. However, going from statistical associations to true insight into disease mechanisms remains a challenge. Recent advances in sequencing technologies have facilitated the development of strategies for assaying GWAS SNPs for potential functional relevance.

Related Solutions

Whole-Genome Sequencing

Obtain a high-resolution view of the entire genome.

المصفوفات الدقيقة

Analyze genetic variation on any scale, for a broad range of applications.

New to NGS?

Find resources designed to educate on the basics of next-generation sequencing.

مراجع
  1. Tam V, Patel N, Turcotte M, et al. Benefits and limitations of genome-wide association studies. Nat Reviews. 201920:467-484.
  2. Martin, A.R.. et al. Clinical use of current polygenic risk scores may exacerbate health disparities. Nature Genetics. 2019 51: 584-591

تقنيات مبتكرة

At Illumina, our goal is to apply innovative technologies to the analysis of genetic variation and function, making studies possible that were not even imaginable just a few years ago. من المهم بالنسبة لنا تقديم حلول مبتكرة ومرنة وقابلة للتطوير لتلبية احتياجات عملائنا. بصفتنا شركة عالمية تضع قيمة عالية للتفاعلات التعاونية ، والتسليم السريع للحلول ، وتوفير أعلى مستوى من الجودة ، فإننا نسعى جاهدين لمواجهة هذا التحدي. تعمل تقنيات التسلسل والصفيف المبتكرة من Illumina على تعزيز التقدم الرائد في أبحاث علوم الحياة ، والجينوميات الانتقالية والمستهلكين ، والتشخيص الجزيئي.

للاستخدام البحثي فقط. ليس للاستخدام في إجراءات التشخيص (باستثناء ما هو مذكور على وجه التحديد).


Metabolite-based genome-wide association studies in plants

mGWAS in plants benefit from huge diversity of the plant metabolome.

mGWAS is powerful in dissecting the genetic basis of the plant metabolome.

mGWAS provides an useful strategy for plant functional genomics.

mGWAS can be further applied to the dissection of complex traits in plants.

The plant metabolome is the readout of plant physiological status and is regarded as the bridge between the genome and the phenome of plants. Unraveling the natural variation and the underlying genetic basis of plant metabolism has received increasing interest from plant biologists. Enabled by the recent advances in high-throughput profiling and genotyping technologies, metabolite-based genome-wide association study (mGWAS) has emerged as a powerful alternative forward genetics strategy to dissect the genetic and biochemical bases of metabolism in model and crop plants. In this review, recent progress and applications of mGWAS in understanding the genetic control of plant metabolism and in interactive functional genomics and metabolomics are presented. Further directions and perspectives of mGWAS in plants are also discussed.


Naidoo P, Cloete S, Olivier J. Heritability estimates and correlations between subjectively assessed and objectively measured fleece traits in Merino sheep. South African J Animal Sci. 200434(6):13–4.

Hardy MH, Lyne AG. The pre-Natal development of wool follicles in Merino sheep. Aust J Biol Sci. 19569(3):423–41.

Fraser AS, Short BF: The biology of the fleece. Q Rev Biol. 1960(3):108.

Parry AL, Nixon AJ, Craven AJ, Pearson AJ. The microanatomy, cell replication, and keratin gene expression of hair follicles during a photoperiod-lnduced growth cycle in sheep. Cells Tissues Organs. 1995154(4):283–99.

Nixon A. Regulation of prolactin receptor expression in ovine skin in relation to circulating prolactin and wool follicle growth status. J Endocrinol. 2002172(3):605–14.

Auber L. VII.—the anatomy of follicles producing wool-Fibres, with special reference to keratinization. Earth Environmental Sci Transactions Royal Soc Edinburgh. 195262(01):191–254.

Hynd PI, Schlink AC, Phillips PM, Scobie DR. Mitotic activity in cells of the wool follicle bulb. Aust J Biol Sci. 198639(4):329.

Kaufman CK, Zhou P, Amalia PH, Michael R. GATA-3: an unexpected regulator of cell lineage determination in skin. تطوير الجينات. 200317(17):2108–22.

Rogers GE. Biology of the wool follicle: an excursion into a unique tissue interaction system waiting to be re-discovered. Exp Dermatol. 200615(12):931–49.

Wang Z, Zhang H, Yang H, Wang S, Rong E, Pei W, Li H, Wang N. Genome-wide association study for wool production traits in a Chinese Merino sheep population. بلوس واحد. 20149(9):e107101.

Hirschhorn JN, Daly MJ. Genome-wide association studies for common diseases and complex traits. نات ريف جينيت. 20056(2):95–108.

Jiang Z, Michal JJ, Chen J, Daniels TF, Kunej T, Garcia MD, et al. Discovery of novel genetic networks associated with 19 economically important traits in beef cattle. Int J Biol Sci. 20095(6):528.

Zhang C, Wang Z, Bruce H, Kemp R, Plastow G. Genome-wide association studies (GWAS) identify a QTL close to PRKAG3 affecting meat pH and colour in crossbred commercial pig lines. In: World Congress on Genetics Applied to Livestock Production 2014.

Irene VDB, Boichard D, Lund MS. Multi-breed GWAS and meta-analysis using sequences of five dairy cattle breeds improve accuracy of QTL mapping. In: Book of Abstracts of the Meeting of the European Federation of Animal Science 2015.

Zhang L, Liu JS, Ling-Yang XU, Zhao FP, Jian LU, Zhang SF, Wang HH, Zhang XN, Wei CH, Guo-Bin LU. Genome-wide Association Studies for Body Weight Traits in Sheep. China Animal Husbandry Vet Med. 2014.

Abdoli R, Mirhoseini SZ, Ghavi H-ZN, Zamani P, Gondro C. Genome-wide association study to identify genomic regions affecting prolificacy in Lori-Bakhtiari sheep. الرسوم المتحركة جينيه. 201849(5):488-91.

Jiang DI, Liu J, Xinming XU, Wang Q, LazateAiniwaer LYU. Genome-wide Association Studies for Wool and Body Mass Traits in Yearling Fine Wool Sheep. Acta Agriculturae Boreali-occidentalis Sinica. 201625(4):496-501.

Bolormaa S, Swan AA, Brown DJ, Hatcher S, Moghaddar N, van der Werf JH, Goddard ME, Daetwyler HD: Multiple-trait QTL mapping and genomic prediction for wool traits in sheep. جينيه سيل ايفول. 201749(1):1–22.

Meadows JR, Kijas EKCW. Linkage disequilibrium compared between five populations of domestic sheep. BMC Genet. 20089(1):1–10.

Sing CF: Introduction to Quantitative Genetics. Am J Human Genet. 199046(6):1231.

By I, Nagy J, Ölkner L, Komlósi L. Genetic parameters of production and fertility traits in Hungarian Merino sheep. J Animal Breeding Genet. 1999116(5):399–413.

Safari E, Fogarty NM, Gilmour AR. A review of genetic parameter estimates for wool, growth, meat and reproduction traits in sheep. Livest Prod Sci. 200592(3):271–89.

Di J, Zhang Y, Tian K-C, Lazate LJ-F, Xu X-M, Zhang Y-J, Zhang T-H. Estimation of (co) variance components and genetic parameters for growth and wool traits of Chinese superfine merino sheep with the use of a multi-trait animal model. Livest Sci. 2011138(1–3):278–88.

Yu J, Pressoir G, Briggs WH, Bi IV, Yamasaki M, Doebley JF, Mcmullen MD, Gaut BS, Nielsen DM, Holland JB. A unified mixed-model method for association mapping that accounts for multiple levels of relatedness. نات جينيه. 200638(2):203–8.

Marchini J, Cardon LR, Phillips MS, Donnelly P. The effects of human population structure on large genetic association studies. نات جينيه. 200436(5):512–7.

Vanraden PM. Efficient methods to compute genomic predictions. J Dairy Sci. 200891(11):0–4423.

Kang HM, Sul JH, Service SK, Zaitlen NA, Kong SY, Freimer NB, Sabatti C, Eskin E. Variance component model to account for sample structure in genome-wide association studies. نات جينيه. 201042(4):348–54.

Bing-ru Z, Xue-feng F, Li-juan Y, Yue-zhen T, Jun-ming H, Xu-guang W, Xi-xia H, Ke-chuan T. The difference analysis of wool traits among strains in Chinese Merino (Xinjiang type). Xinjiang Agricultural Sci. 201653(11):2135–41.

Armstrong RA. When to use the Bonferroni correction. Ophthalmic Physiol Optics J Br Coll Ophthalmic Opticians. 201434(5):502–8.

Roberts T, Chetty M. Hypohidrotic ectodermal dysplasia: genetic aspects and clinical implications of hypodontia. Die Tydskrif Van Die Tandheelkundige Vereniging Van Suid Afrika. 201873:253–6.

Megdiche S, Mastrangelo S, Ben Hamouda M, Lenstra JA, Ciani E. A combined multi-cohort approach reveals novel and known genome-wide selection signatures for wool traits in Merino and Merino-derived sheep breeds. الجبهة جينيه. 201910:1025.

Xuemei T, A CP. Keratin 17 modulates hair follicle cycling in a TNFalpha-dependent fashion. تطوير الجينات. 200620(10):1353–64.

Plafker KS, Farjo KM, Wiechmann AF, Plafker SM. The human ubiquitin conjugating enzyme, UBE2E3, is required for proliferation of retinal pigment epithelial cells. Invest Ophthalmol Vis Sci. 200849(12):5611–8.

Gaur U, Aggarwal BB. Regulation of proliferation, survival and apoptosis by members of the TNF superfamily. Biochem Pharmacol. 200366(8):1403–8.

Kondo S, Yoneta A, Yazawa H, Kamada A, Jimbow K. Downregulation of CXCR-2 but not CXCR-1 expression by human keratinocytes by UVB. J Cell Physiol. 2000182(3):366–70.

Rezza A, Wang Z, Sennett R, Qiao W, Wang D, Heitman N, Mok KW, Clavel C, Yi R, Zandstra P, et al. Signaling networks among stem cell precursors, transit-amplifying progenitors, and their niche in developing hair follicles. Cell Rep. 201614(12):3001–18.

Liu C, Sello CT, Sun Y, Zhou Y, Lu H, Sui Y, Hu J, Xu C, Sun Y, Liu J et al: De Novo Transcriptome Sequencing Analysis of Goose (Anser anser) Embryonic Skin and the Identification of Genes Related to Feather Follicle Morphogenesis at Three Stages of Development. Int J Mol Sci. 201819(10):3170.

Peck JW, Oberst M, Bouker KB, Bowden E, Burbelo PD. The RhoA-binding protein, rhophilin-2, regulates actin cytoskeleton organization. J بيول كيم. 2002277(46):43924–32.

McMullan R, Lax S, Robertson VH, Radford DJ, Broad S, Watt FM, Rowles A, Croft DR, Olson MF, Hotchin NA. Keratinocyte differentiation is regulated by the rho and ROCK signaling pathway. كور بيول. 200313(24):2185–9.

Koyama S, Purk A, Kaur M, Soini HA, Novotny MV, Davis K, Kao CC, Matsunami H, Mescher A. Beta-caryophyllene enhances wound healing through multiple routes. بلوس واحد. 201914(12):e0216104.

Calautti E, Cabodi S, Stein PL, Hatzfeld M, Kedersha N, Dotto GP. Tyrosine phosphorylation and src family kinases control keratinocyte cell–cell adhesion. J Cell Biol. 1998141(6):1449–65.

Gay DL, Yang CC, Plikus MV, Ito M, Rivera C, Treffeisen E, Doherty L, Spata M, Millar SE, Cotsarelis G. CD133 expression correlates with membrane beta-catenin and E-cadherin loss from human hair follicle placodes during morphogenesis. J Invest Dermatol. 2015135(1):45–55.

Santoro T, Maguire J, McBride OW, Avraham KB, Copeland NG, Jenkins NA, Kelly K. Chromosomal organization and transcriptional regulation of human GEM and localization of the human and mouse GEM loci encoding an inducible Ras-like protein. Genomics. 199530(3):558–64.

Popova NV, Suleimanian NE, Stepanova EA, Teti KA, Wu KQ, Morris RJ. Independent inheritance of genes regulating two subpopulations of mouse clonogenic keratinocyte stem cells. J Investig Dermatol Symp Proc. 20049(3):253–60.

Wiley LA, Dattilo LK, Kang KB, Giovannini M, Beebe DC. The tumor suppressor merlin is required for cell cycle exit, terminal differentiation, and cell polarity in the developing murine lens. Invest Ophthalmol Vis Sci. 201051(7):3611–8.

Ohyama M, Terunuma A, Tock CL, Radonovich MF, Pise-Masison CA, Hopping SB, Brady JN, Udey MC, Vogel JC. Characterization and isolation of stem cell-enriched human hair follicle bulge cells. J Clin Invest. 2006116(1):249–60.

Carvajal-Gonzalez JM, Mulero-Navarro S, Roman AC, Sauzeau V, Merino JM, Bustelo XR, Fernandez-Salguero PM. The dioxin receptor regulates the constitutive expression of the vav3 proto-oncogene and modulates cell shape and adhesion. خلية مول بيول. 200920(6):1715–27.

Giannoni E, Buricchi F, Raugei G, Ramponi G, Chiarugi P. Intracellular reactive oxygen species activate Src tyrosine kinase during cell adhesion and anchorage-dependent cell growth. Mol Cell Biol. 200525(15):6391–403.

Chang C-H, Jiang T-X, Lin C-M, Burrus LW, Chuong C-M, Widelitz R. Distinct Wnt members regulate the hierarchical morphogenesis of skin regions (spinal tract) and individual feathers. Mech Dev. 2004121(2):157–71.

Sick S, Reinker S, Timmer J, Schlake T. WNT and DKK determine hair follicle spacing through a reaction-diffusion mechanism. علم. 2006314(5804):1447–50.

Holland JD, Klaus A, Garratt AN, Birchmeier W. Wnt signaling in stem and cancer stem cells. Curr Opin Cell Biol. 201325(2):254–64.

Iwamoto Y, Nishikawa K, Imai R, Furuya M, Uenaka M, Ohta Y, Morihana T, Itoi-Ochi S, Penninger JM, Katayama I, et al. Intercellular communication between keratinocytes and fibroblasts induces local osteoclast differentiation: a mechanism underlying Cholesteatoma-induced bone destruction. Mol Cell Biol. 201636(11):1610–20.

Sambrook JRD. A laboratory manual 2000.

Li H, Durbin R. Fast and accurate short read alignment with burrows-wheeler transform. المعلوماتية الحيوية. 200925(14):1754–60.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R. Genome project data processing S: the sequence alignment/map format and SAMtools. المعلوماتية الحيوية. 200925(16):2078–9.

Wang K, Li M, Hakonarson H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. الدقة الأحماض النووية. 201038(16):e164.

Yang J, Lee SH, Goddard ME, Visscher PM. GCTA: a tool for genome-wide complex trait analysis. أنا J Hum Genet. 201188(1):76–82.

Barrett JC, Fry B, Maller J, Daly MJ. Haploview: analysis and visualization of LD and haplotype maps. المعلوماتية الحيوية. 200521(2):263–5.

Gilmour AR, Thompson R, Cullis BR. Average information REML: an efficient algorithm for variance parameter estimation in linear mixed models. Biometrics. 199551(4):1440–50.

Zhou X, Stephens M. Genome-wide efficient mixed-model analysis for association studies. نات جينيه. 201244(7):821–4.


ADDRESSING PROBLEMS IN ANALYSIS

Quality Control

One disadvantage of a case–control study design compared with family-based association studies is the lack of an internal check on genotyping quality. Standard laboratory practice of assigning both cases and controls to each plate, checking for differences in genotype frequency across plates, and genotyping duplicate samples can help eliminate systematic errors. Testing for HWE in controls can also identify problems with genotyping quality.

Hardy–Weinberg Equilibrium

Under HWE, alleles segregate randomly in the population, allowing expected genotype frequencies to be calculated from allele frequencies. A comparison of the expected and observed genotype frequencies provides a test of HWE (e.g., using a chi-square statistic). For alleles G and T, in which the frequency of allele G is ص and the frequency of allele T is ف = (1 – ص), the expected frequencies of genotypes GG, GT, and TT are ص 2 , 2pq، و ف 2. Allele frequencies (p, q) are usually estimated from the genotype sample under test, rather than obtained from external genotyping data.

Departure from HWE is generally tested for by using the Pearson chi-square test to assess goodness of fit (of the observed genotype counts to their expectation under HWE). Table 2 shows the step-by-step calculation with observed counts for genotypes GG, GT, and TT of أ, ب, ج, and an application to a data set of 100 control genotypes (GG: 60, GT: 30, TT: 10). The estimated frequency of allele G is 0.75 (= [2 × 60 + 30]/200), noting the division by the number of alleles (2ن) here, not genotypes (ن). The chi-square goodness-of-fit test statistic is then calculated from summing (O – ه)/ه 2 across genotypes, giving chi-square = 4.0. Under the null hypothesis of no departure from HWE, the test statistic has one degree of freedom (not two degrees of freedom, as implied by the table dimensions), because the allele frequency ص has been estimated from the observed data. In this test data set, a ص value of 0.046 is obtained, giving slight evidence of departure from HWE, with a deficit in the number of observed heterozygotes.

Testing for departure from Hardy–Weinberg equilibrium

Departures from HWE in control samples may be caused by the following:

1. Genotyping error. In many genotyping platforms, calling heterozygotic individuals is more challenging than homozygotic individuals, and a higher rate of missing individuals for this genotype can distort HWE.

2. Assortative mating. HWE requires random mating for the SNP under test, which is reasonable for a random SNP across the genome, but may be violated for SNPs that affect mate choice, such as height.

3. Selection. Any genotype increasing the risk of fetal loss or early death is likely to be underrepresented.

4. Population stratification. Control samples that arise from a combination of genetically distinct subpopulations may not be in HWE.

5. Chance. HWE ص values for studies of more than one SNP should be corrected appropriately for multiple testing.

Departures from HWE may be caused by any of these factors, but also by the genotyped SNP playing a role in disease susceptibility. Case genotypes for a disease mutation will only be in HWE if the genetic model is multiplicative, with genotype relative risks of 1, ص, ص 2. However, for modest effect sizes, the power to detect departures from HWE may be low in cases.

No standard guidelines for rejecting SNPs that depart from HWE have been developed. In practice, all SNPs for which HWE ص values decrease below a predetermined threshold should be checked manually for genotyping quality. Investigators should also be aware of SNPs showing significant association in which HWE ص values are close to this threshold and unsupported by neighboring SNPs in LD.

Missing Genotypes

Another indication of poor genotyping quality is low call rates, with many missing genotypes for each SNP or each individual. This is a major issue in GWAS, but it is also applicable to candidate gene association studies. Genotypes that are missing at random will not bias a test, but poor genotype call rates may indicate nonrandom missingness, with one specific genotype (often heterozygotes) having a lower call rate. This may bias tests of association. Differential rates of missingness between cases and controls (for example, because of differences in DNA extraction and storage) may also be a problem (Clayton et al. 2005).

Population Stratification

Population stratification arises in case–control studies when the two study groups are poorly matched for genetic ancestry. Confounding then occurs between disease state (case, control) and genetic ancestry, with a subsequent increase in false-positive associations. For population stratification to occur, the underlying populations must differ in SNP allele frequency and be represented at different frequencies in the case and control groups. Detecting and controlling for population stratification is important, particularly in GWAS, in which even subtle differences between cases and controls can have major effects on the analysis. Several methods are available to detect and correct for population stratification, including genomic control, the Cochran/Mantel–Haenszel test, and the transmission disequilibrium test.

Genomic control (GC) assumes that population stratification inflates the association test statistics by a constant factor λ, which can be estimated from the median or mean test statistic from a series of unlinked SNPs genotyped in both cases and controls (Devlin and Roeder 1999). Test statistics are then divided by λ and compared with a chi-square distribution or an F distribution) to test for association (Devlin et al. 2004). Genotypes at SNPs uncorrelated with disease status can also be used to infer population ancestry, assigning the samples to distinct population groups, which can then be controlled for in the analysis (Pritchard et al. 2000). In GWAS, population substructure can be identified through a principal components analysis, which models ancestral genetic differences between cases and controls and then corrects for this in the analysis (Price et al. 2006).

Where individuals can be classified into known subgroups (e.g., by birthplace), analysis can be performed within each subgroup and combined using a Cochran/Mantel–Haenszel test (Clayton et al. 2005). The issue of population stratification can be avoided by using family-based studies. The most widely used method is the transmission disequilibrium test (TDT) (Spielman et al. 1993), which tests for non-Mendelian transmission of SNP alleles from heterozygous parents to affected offspring overtransmission suggests that the SNP allele increases risk of disease.


Estimating genetic nurture with summary statistics of multi-generational genome-wide association studies

Marginal effect estimates in genome-wide association studies (GWAS) are mixtures of direct and indirect genetic effects. Existing methods to dissect these effects require family-based, individual-level genetic and phenotypic data with large samples, which is difficult to obtain in practice. Here, we propose a novel statistical framework to estimate direct and indirect genetic effects using summary statistics from GWAS conducted on own and offspring phenotypes. Applied to birth weight, our method showed nearly identical results with those obtained using individual-level data. We also decomposed direct and indirect genetic effects of educational attainment (EA), which showed distinct patterns of genetic correlations with 45 complex traits. The known genetic correlations between EA and higher height, lower BMI, less active smoking behavior, and better health outcomes were mostly explained by the indirect genetic component of EA. In contrast, the consistently identified genetic correlation of autism spectrum disorder (ASD) with higher EA resides in the direct genetic component. Polygenic transmission disequilibrium test showed a significant over-transmission of the direct component of EA from healthy parents to ASD probands. Taken together, we demonstrate that traditional GWAS approaches, in conjunction with offspring phenotypic data collection in existing cohorts, could greatly benefit studies on genetic nurture and shed important light on the interpretation of genetic associations for human complex traits.