معلومة

ما هو أفضل اختبار لتجميع SNV؟

ما هو أفضل اختبار لتجميع SNV؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا أبحث عن طريقة لتجميع الأشكال المتعددة للنيوكليوتيدات المفردة بناءً على البيانات الإكلينيكية (بشكل أساسي الكيمياء المناعية للمستقبلات). حتى الآن ، توصلت إلى اثنين فقط يتعاملان مع المتغيرات الوهمية طالما كنت أرغب في فحص وجود أو غياب الأليل الصغير ؛

  • تحليل المكون الرئيسي
  • بداهة (قواعد الرابطة)

هل تعرف أي أوراق تدعم الأساليب المذكورة أعلاه ، أو ربما تقترح طريقة بديلة؟


تحليل الاختلافات الجينومية والنسخية كتوقيع تنبؤي لسرطان الرئة الغدي

خلفية: سرطان الرئة هو السبب الرئيسي لأكبر عدد من الوفيات في جميع أنحاء العالم ، وسرطان الرئة هو الشكل الأكثر شيوعًا لسرطان الرئة. من أجل فهم الأساس الجزيئي لسرطان الغدة الرئوية ، تم إجراء تحليل تكاملي باستخدام علم الجينوم ، والنسخ ، وعلم الوراثة ، والبروتينات ، والبيانات السريرية. إلى جانب ذلك ، تم إنشاء التوقيعات النذير الجزيئية لسرطان الرئة باستخدام مستويات التعبير الجيني في عينات الورم. ومع ذلك ، فنحن بحاجة إلى توقيعات تتضمن أنواعًا مختلفة من البيانات الجزيئية ، وحتى المؤشرات الحيوية الجماعية أو المستندة إلى المريض والتي تعتبر مرشحة للاستهداف الجزيئي.

نتائج: قمنا ببناء خط أنابيب R لإجراء تحليل تلوي متكامل للتغييرات الجينومية بما في ذلك الاختلافات أحادية النوكليوتيدات وتغيرات رقم النسخ ، والاختلافات في النسخ من خلال RNA-seq والبيانات السريرية للمرضى الذين يعانون من سرطان الغدة الرئوية في مشروع أطلس جينوم السرطان. قمنا بدمج الجينات المهمة بما في ذلك الاختلافات أحادية النوكليوتيدات أو تباينات عدد النسخ والجينات المعبر عنها تفاضليًا وتلك الموجودة في الشبكات الفرعية النشطة لإنشاء توقيع للتشخيص. تم استخدام نموذج المخاطر النسبية Cox مع عقوبة Lasso و LOOCV لتحديد أفضل توقيع جيني بين فئات الجينات المختلفة. لقد حددنا توقيعًا مكونًا من 12 جينًا (BCHE ، CCNA1 ، CYP24A1 ، DEPTOR ، MASP2 ، MGLL ، MYO1A ، PODXL2 ، RAPGEF3 ، SGK2 ، TNNI2 ، ZBTB16) للتنبؤ بالمخاطر التنبؤية بناءً على وقت بقاء المرضى المصابين بسرطان الغدة الرئوية. تم تجميع المرضى في كل من بيانات التدريب والاختبار في مجموعات عالية المخاطر ومنخفضة المخاطر باستخدام درجات المخاطر للمرضى المحسوبة على أساس التوقيع الجيني المحدد. كان الاحتمال الكلي للبقاء على قيد الحياة لهذه المجموعات المعرضة للخطر مختلفًا بشكل كبير لكل من مجموعات بيانات التدريب والاختبار.

الاستنتاجات: يمكن أن يتنبأ هذا التوقيع المكون من 12 جينًا بالمخاطر التنبؤية للمرضى الذين يعانون من سرطان الغدة الرئوية في TCGA وهم منبئات محتملة لتجمعات المخاطر القائمة على البقاء على قيد الحياة للمرضى الذين يعانون من سرطان الغدة الرئوية. يمكن استخدام هذه الجينات لتجميع المرضى بناءً على الطبيعة الجزيئية ويمكن اقتراح أفضل الأدوية المرشحة لمجموعات المرضى. تتمتع هذه الجينات أيضًا بإمكانية عالية لعلاج السرطان الموجه للمرضى المصابين بسرطان الغدة الرئوية.

الكلمات الدالة: الشبكة الفرعية النشطة CNV Cox المخاطر النسبية انحدار التعبير التفاضلي سرطان الغدة الرئوية سرطان الرئة SNV Signature Survival TCGA.


ما هي TNC و MNC و CD34 + و CFU ، ولماذا يجب أن أهتم؟

هذه كلها طرق لحساب أنواع الخلايا ، وهي تخبرك ما إذا كانت مجموعة دم الحبل السري تحتوي على الكثير من الخلايا الجذعية أم لا ، وما إذا كانت تتمتع بصحة جيدة.

يحدث أن تكون الخلايا الجذعية الخلايا أحادية النواة أو MNC: عندما تنظر إليهم تحت المجهر هناك نواة واحدة فقط. لسوء الحظ ، فإن أحد أصعب جوانب بيولوجيا الخلايا الجذعية هو أنه لا يمكنك تحديد الخلية الجذعية بمجرد النظر إليها. هناك أنواع أخرى من خلايا الدم وهي أيضًا MNC ، مثل خلايا الدم الحمراء ذات النواة. الدليل الوحيد على أن الخلية هي خلية جذعية يأتي من سلوكها عندما تتكاثر.

لقد عمل العلماء لسنوات على تطوير بقع كيميائية مختلفة ذات صلة عالية بالخلايا الجذعية. أفضل علامة معروفة للخلايا الجذعية المكونة للدم هي أنها تختبر إيجابية لـ CD34 ، وهو بروتين موجود على سطح الخلايا الجذعية. لكن، CD34 + تهم ليست مقياسًا دقيقًا للخلايا الجذعية: تختلف نتائج CD34 + بين المعامل ، ويمكن أن تختلف في مختبر واحد ، و 1-2٪ فقط من الخلايا الجذعية التي تحتوي على CD34 + هي في الواقع خلايا جذعية.

ال إجمالي عدد الخلايا النووية أو TNC هو الاختبار الذي يتم الإبلاغ عنه غالبًا كمقياس لعدد الخلايا بعد معالجة دم الحبل السري. الميزة الرئيسية لقياس TNC هي أن العدد قابل للتكرار بشكل كبير داخل المختبرات وفيما بينها ، لذلك يمكن استخدامه بدقة في جميع أنحاء مجتمع بنوك الدم. والأفضل من ذلك ، يمكن أتمتة عدد TNC باستخدام جهاز يسمى مقياس التدفق الخلوي.

في الوقت الحاضر وحدات تشكيل المستعمرات أو CFU تعتبر أفضل مقياس لمعرفة ما إذا كانت الخلايا الجذعية "قابلة للحياة" ، أو أنها على قيد الحياة بصراحة تامة. يشمل عدد TNC الخلايا الحية والميتة. في اختبار CFU ، تتم مراقبة جزء صغير تحت ظروف خاضعة للرقابة لمعرفة ما إذا كانت الخلايا الجذعية تنقسم وتشكل مستعمرات. كان هذا مقياسًا ذاتيًا ، ولكن مؤخرًا تم توحيده باستخدام التكنولوجيا لتصوير الخلايا وعدد المستعمرات في الصورة. المشكلة الوحيدة المتبقية في الاختبار هي أن المستعمرات تستغرق أيامًا لتنمو.


الملخص

التنوع الوظيفي لمستضد كريات الدم البيضاء البشرية متعدد الأشكال للغاية من الفئة الأولى (HLA-I) الجينات هي أساس السيطرة المناعية الناجحة لكل من الأمراض المعدية والسرطان. تملي فرضية ميزة الأليل المتباينة أن HLA- إن التركيب الوراثي الذي يحتوي على أليلين مع تسلسل أكثر تباعدًا يتيح عرض ببتيدات مناعية أكثر تنوعًا 1 & # x020133. ومع ذلك ، فإن تأثير تسلسل الاختلاف بين HLA-I alleles & # x02014a مقياس قابل للقياس الكمي لـ HLA-I تطور & # x02014 على فعالية العلاج مثبط نقطة التفتيش المناعي (ICI) للسرطان لا تزال غير معروفة. في هذه الدراسة ، تم تحديد التباعد التطوري HLA-I (HED) للمرضى المصابين بالسرطان الذين عولجوا بـ ICIs من خلال تحديد تباعد التسلسل الكيميائي الفيزيائي بين HLA-أنا أليلات لكل مريض & # x02019s التركيب الوراثي. كان HED محددًا قويًا للبقاء على قيد الحياة بعد العلاج بـ ICIs. حتى بين المرضى متغاير الزيجوت في HLA-أنا ، المرضى الذين يعانون من HED في الربع العلوي يستجيبون بشكل أفضل للـ ICIs من المرضى الذين يعانون من HED منخفض. علاوة على ذلك ، يؤثر HED بشدة على تنوع الورم ، والببتيدات المناعية الفيروسية والذاتية ، وعدم وجود مستقبلات الخلايا التائية داخل الورم. على غرار عبء طفرة الورم ، يعد HED مقياسًا أساسيًا للتنوع في مجمع الببتيد المركب التوافق النسيجي الرئيسي ، والذي يملي فعالية ICI. ارتباط البيانات متشعب HLA ميزة الأليل لفعالية العلاج المناعي وكشف النقاب عن كيفية اعتماد استجابة ICI على الكفاءة المتطورة لـ HLAمناعة بوساطة.

أحدثت العلاجات المناعية للحصار في نقاط التفتيش ، مثل مضادات PD-1 و PD-L1 و CTLA-4 ، ثورة في علاج السرطانات في المراحل المتقدمة ، لكن أقلية فقط من المرضى تستجيب. أحد المحددات الحاسمة لاستجابة ICI هو العبء الطفري للورم (TMB) ، وهو وكيل لعدد المستضدات المستمدة من الورم والتي يمكن تقديمها على سطح الخلية بواسطة جزيئات معقد التوافق النسيجي الرئيسي (MHC) وتم التعرف عليها لاحقًا بواسطة الخلايا التائية السامة للخلايا 4 & # x020139 . العامل الجيني الآخر الذي يحدد استجابة ICI هو تغاير الزيجوت عند تعدد الأشكال للغاية HLA-أنا الموقع 10. وفقًا لميزة الزيجوت غير المتجانسة ، التي لوحظت في الأصل في دراسات الأمراض المعدية ، متغايرة الزيجوت HLA- تسهل الأنماط الجينية تقديم مجموعة أكثر تنوعًا من مستضدات الأورام إلى الخلايا التائية 10 & # x0201315.

كل فرد & # x02019s HLA- يتكون التركيب الوراثي I من زوج من الأليلات في كل من جينات الفئة الأولى الكلاسيكية & # x02014HLA-A ، -B و -ج& # x02014 وتعدد الأشكال الخاص بهم يتركز داخل مجالات ربط الببتيد 16،17. يشار إلى مجموعة الببتيدات المرتبطة بكل جزيء من الصنف الأول من معقد التوافق النسيجي الكبير (MHC-I) بشكل جماعي باسم الببتيد المناعي ، و HLA- الأليلات أنا لها خصائص مختلفة مرتبطة بالببتيد مع تداخل متفاوت وفقًا لتباعد التسلسل الكيميائي الفيزيائي بين الأليلات 1 ، 18 ، 19. ما يصاحب ذلك من تنوع HLA- تؤدي الأنماط الجينية وخصائص الارتباط بالببتيد إلى تباين ملحوظ بين الأفراد في تنوع الببتيد المناعي 1،19. قد يؤثر هذا الاختلاف على قدرة كل جهاز مناعي فردي على التعرف على مستضدات الورم ، وبالتالي قد يؤثر على الاستجابة لـ ICI. علاوة على ذلك ، أظهرت الدراسات الحديثة أن HLA يشكل النمط الجيني المشهد الطبيعي للطفرات الجينية التي لوحظت في الأورام ، وهذا الفقد الجسدي لـ HLA- أنا إحدى الآليات الممكنة التي تتهرب من خلالها الأورام من السيطرة المناعية 10،20 & # x0201323.

بدافع من ميزة الأليل المتباينة المقترحة منذ ثلاثة عقود ، 1،2 ، تفترض الدراسة الحالية أن تأثير HLA- قد يتم تعديل تغاير الزيجوت عند الاستجابة لـ ICIs من خلال مقدار الاختلاف التسلسلي بين مجالات ربط الببتيد للمريض HLA-أنا الأليلات. يؤثر الاختلاف العالي في التسلسل بين الأليلات ونطاقات ربط الببتيد # x02019 بشدة على خصائص ربط الببتيد المدمجة لجزيئات MHC-I المقابلة 2،3،24،25. وبالتالي ، قد يقدم المرضى غير المتجانسين مع الأليلات الأكثر تباعدًا مجموعة أوسع من الببتيدات للتعرف على الخلايا التائية من المرضى غير المتجانسين مع أقل تباعدًا. HLA- أنا الأليلات 2،3،25.

تم تحديد HED لأول مرة باستخدام HLA- أنا الأنماط الجينية عبر مجموعات متعددة من المرضى الذين يعانون من الورم الميلانيني النقيلي أو سرطان الرئة ذو الخلايا غير الصغيرة (NSCLC) الذين عولجوا بمضاد CTLA-4 أو مضاد PD-1 / -PD-L1 (الشكل 1 أ ، وانظر الجداول التكميلية 1 و 2). لكل مريض ، تم حساب HED في كل من HLA-A ، HLA-B و HLA-C عن طريق قياس مسافة جرانثام 3،26 بين مجالات ربط الببتيد للأليلين. تعد مسافة جرانثام مقياسًا كلاسيكيًا يسمح بتقدير الاختلافات الفيزيوكيميائية بين متواليات الأحماض الأمينية للبروتين ، مع مراعاة التركيب والقطبية والحجم. لاستكشاف المناظر الطبيعية لـ HEDs في مجموعة بيانات الدراسة الحالية ، التجميع الهرمي لـ HED لكل HLAتم إجراء -I locus لجميع تركيبات الأليل الزوجي. أظهر التجميع الهرمي لـ HEDs مجموعات متميزة من التباعد العالي والمنخفض بين الأليلات (الشكل 1 ب والبيانات الموسعة الشكل 1) ، بما يتوافق مع العلاقات المتداخلة المعروفة لـ HLA-A ، HLA-B و HLA-C الموقع 17،27. HLA-B كانت الاختلافات الزوجية أعلى بالنسبة إلى HLA-A و HLA-C (الشكل 1 ج) ، بما يتفق مع التقارير السابقة التي HLA-B هو الأقدم والأكثر تنوعًا من بين الثلاثة HLA-أنا الموقع 17،27. وعلاوة على ذلك، HLA-C الأليلات لديها أدنى اختلافات زوجية ، تمشيا مع الدراسات السابقة التي HLA-C تطورت مؤخرًا 17،27،28 (الشكل 1 ج). بعد ذلك ، لكل مريض ، تم حساب متوسط ​​HED كمتوسط ​​للاختلافات الزوجية الثلاثة HLA-A ، HLA-B و HLA-C ، بافتراض أن كل موضع يساهم بالتساوي في تقديم الببتيدات المستضدية. كان متوسط ​​توزيعات HED في المرضى من المجموعات في هذه الدراسة مماثلة لتلك التي لوحظت في أطلس جينوم السرطان (TCGA) (الشكل 1 د ، & # x200 ب ، هـ). ه). أظهرت مقارنة سابقة لمسافة جرانثام بالمقاييس الشائعة الأخرى لتباعد التسلسل أن مسافة جرانثام التقطت أفضل الخصائص الوظيفية لجزيئات HLA-I 3. تعد مسافة جرانثام مقياسًا معترفًا به تم تطبيقه لقياس تعدد أشكال الأحماض الأمينية في دراسات التطور المقارن والسرطان والأمراض المعدية والمناعة 29 & # x0201334. علاوة على ذلك ، في تحليل HLA- أنا أزواج الأليل والببتيدات المستخرجة بشكل طبيعي المستمدة من قياس الطيف الكتلي وخطوط الخلايا أحادية الموازي 35 ، تم اكتشاف ارتباط بين تنوع HED والببتيدوم (الشكل التكميلي 1). مجتمعة ، تتحقق هذه البيانات من أن مسافة Grantham هي مقياس مناسب لـ HLA- أنا تعدد الأشكال في أفواج المرضى.

أ، رسم تخطيطي للتصميم التجريبي. يتم حساب HEDs بين مجالات ربط الببتيد باستخدام مسافة Grantham ثم استخدامها لتقسيم المرضى الذين عولجوا بـ ICI s. تسمى الببتيدات المتوقعة باستخدام تسلسل الإكسوم الكامل من ورم المريض # x02019 ، الذي يتم عده وربطه بـ HED. تم أيضًا ربط الببتيدات الفيروسية والببتيدات الذاتية مع HED. ب، المجموعات الهرمية لـ HED في HLA-A ، HLA-B و HLA-C (HLA-أنا). تُظهِر الخريطة الحرارية HED المعياري لدرجة z عبر جميع الأليلات في جميع مجموعات المرضى. يشير التدرج اللوني من الأزرق إلى الأحمر إلى انخفاض HED بين أزواج الأليل إلى HED العالي بين أزواج الأليل ، على التوالي. ج ، توزيعات HED لكل منها HLA-A ، HLA-B و HLA-C النمط الجيني متغاير الزيجوت. HLA-A (ن = 279 مريضًا كحد أدنى = 1.08 ، الوسيط = 7.62 ، الحد الأقصى = 13.20) مقابل HLA-B (ن = 300 مريض كحد أدنى = 0.53 ، الوسيط = 8.10 ، الحد الأقصى = 14.33) (ص = 0.001) HLA-A عكس HLA-C (ن = 281 مريضًا كحد أدنى = 0.56 ، الوسيط = 5.60 ، الحد الأقصى = 7.58 ص & # x0003c 0.0001) HLA-B عكس HLA-C (ص & # x0003c 0.0001 على الوجهين اختبار مان ويتني). د، يعني توزيع المريض HED عبر جميع مجموعات الورم الميلانيني المعالجة بـ ICIs (ICI melanoma) و TCGA (TCGA melanoma). ه ، يعني توزيع المريض HED عبر جميع مجموعات سرطان الرئة المعالجة بـ ICI (الرئة ICI) و TCGA (الرئة TCGA).

بعد ذلك سُئل عما إذا كان HED مرتبطًا بالاستجابة لـ ICIs. تم تقسيم المرضى إلى طبقات عن طريق HED في مجموعة من 100 مريض مصاب بسرطان الجلد تم علاجهم بمضاد CTLA-4 8 (يُطلق عليه فيما بعد الفوج 1). لوحظ تحسن إجمالي البقاء على قيد الحياة بعد ICIs في المرضى الذين يعانون من ارتفاع متوسط ​​HED ، حيث تم تعريف المرتفع على أنه متوسط ​​HED أكبر من أو يساوي الربع الأعلى ، وتم تعريف المنخفض على أنه متوسط ​​HED أقل من الربع الأعلى (ص = 0.0072 ، نسبة الخطر (HR) = 0.47 ، فاصل الثقة 95٪ (CI) = 0.26 & # x020130.82) (انظر البيانات الموسعة الشكل 2 أ). كانت هذه النتائج متشابهة عبر مقاييس مختلفة (أي مجموع أو متوسط ​​أو متوسط ​​هندسي) المستخدمة لدمج الاختلافات الزوجية في HLA-A ، HLA-B و HLA-C الأليلات (انظر الجدول التكميلي 3). وجد أيضًا أن تأثير HED المتوسط ​​على البقاء كان مستقلاً عن TMB والمتغيرات الجينومية والسريرية الأخرى ، عندما تم تضمينها في نموذج انحدار كوكس متعدد المتغيرات للبقاء (انظر البيانات الموسعة الشكل 2 د). أخيرًا ، وجد أن تأثير كل من HED عالي المتوسط ​​و TMB المرتفع على البقاء الكلي بعد ICI كان أكثر وضوحًا من تأثير أي منهما بمفرده ، كما ينعكس في الانخفاض في الموارد البشرية (يُعتبر عادةً حجم التأثير في تحليلات البقاء على قيد الحياة) 36،37 عند النظر في كلا المتغيرين (انظر البيانات الموسعة الشكل 2 أ - & # x200B -cc).

اقترحت الدراسات السابقة لميزة الأليل المتباينة أن تنوع الببتيدات المناعية المتغايرة الزيجوت HLA- تختلف الأنماط الجينية باختلاف التسلسل 1،3. لذلك ، تم افتراض أنه ، حتى بين المرضى متغاير الزيجوت تماما في HLA-I ، قد تختلف الاستجابة لـ ICIs أيضًا مع HED. اللافت للنظر ، وجد أن متوسط ​​HED المرتفع كان مرتبطًا بتحسين البقاء على قيد الحياة بعد ICIs في 78 مريضًا متغاير الزيجوت بالكامل من الفوج 1 (المرجع 8) (ص = 0.0094 ، HR = 0.43 ، 95٪ CI = 0.22 & # x020130.83) (الشكل 2 أ). في مجموعة ثانية من 76 مريضًا متغاير الزيجوت تمامًا مع NSCLC تم علاجهم بشكل أساسي بمضاد PD-1 (المراجع 7 ، 10) ، وجد أيضًا أن متوسط ​​HED المرتفع كان مرتبطًا ببقاء إجمالي أفضل (ص = 0.049 ، HR = 0.32 ، 95٪ CI = 0.10 & # x020131.06) (الشكل 2 ب). لوحظ نفس الشيء في مجموعة ثالثة إضافية من 95 مريضًا متغاير الزيجوت بالكامل مصابين بسرطان الجلد النقيلي الذين عولجوا بمضاد PD-1 / -PD-L1 (المراجع 10،38) (ص = 0.025) (الشكل 2 ج). في التحليل المشترك لجميع الأفواج الثلاثة ، لوحظ وجود علاقة سلبية بين متوسط ​​HED و HR ، مما يشير إلى أن الزيادة في متوسط ​​HED تتوافق بشكل عام مع تحسين البقاء على قيد الحياة بشكل عام (انظر البيانات الموسعة الشكل 3). بالإضافة إلى البقاء على قيد الحياة ، ارتبطت الاستجابة السريرية لـ ICIs أيضًا بمتوسط ​​HED مرتفع عند النظر في جميع المرضى (HLA- أنا متجانسة الزيجوت أو متغايرة الزيجوت) (57.4٪ مقابل 32.0٪ ، ص = 0.003 ، نسبة الأرجحية (OR) = 0.35) (الشكل 2 د) ، أو مرضى متغاير الزيجوت فقط (55.6٪ مقابل 35.3٪ ، ص = 0.03 ، OR = 0.44) (الشكل 2 هـ) عبر جميع الأفواج.

أ، رابطة ارتفاع متوسط ​​HED (أحمر) مع تحسين البقاء على قيد الحياة بعد العلاج المضاد لـ CTLA-4 في مجموعة من مرضى سرطان الجلد النقيلي متغاير الزيجوت تمامًا في HLA-I (ص = 0.0094 اختبار ترتيب السجل على الوجهين). تشير مخططات الكثافة إلى التوزيع والقطع لمتوسط ​​HED المستخدم في منحنيات البقاء على قيد الحياة. TQC ، القطع الربعي الأعلى. ب، رابطة HED عالية المتوسط ​​(حمراء) مع تحسين البقاء على قيد الحياة بعد العلاج المضاد لـ PD-1 في مجموعة مستقلة من المرضى الذين يعانون من NSCLC متغاير الزيجوت بالكامل في HLA-I (ص = 0.049 اختبار ترتيب السجل على الوجهين). ج ، رابطة ارتفاع متوسط ​​HED (أحمر) مع تحسين البقاء على قيد الحياة بشكل عام في مجموعة مستقلة من المرضى المصابين بسرطان الجلد متغاير الزيجوت تمامًا في HLA-I الذين تم علاجهم بمضاد PDI (ص = 0.025 اختبار ترتيب السجل على الوجهين). د، رابطة المرضى المرتفع تعني HED مع استجابة سريرية (حمراء) لـ ICIs ، بما في ذلك جميع المرضى (متماثل الزيجوت ومتغاير الزيجوت في HLA-I) الذي توفرت منه بيانات الاستجابة السريرية أ-ج (ص = 0.003 OR = 0.35 اختبار Fisher على الوجهين & # x02019s الدقيق). تشير الأرقام الموجودة على المخططات الدائرية إلى عدد المرضى الذين يحصلون على فائدة سريرية أو لا يحصلون على أي فائدة إكلينيكية. ه ، ارتباط HED عالي المتوسط ​​مع استجابة سريرية (حمراء) للـ ICIs ، بما في ذلك فقط المرضى غير المتجانسين تمامًا في HLA-I الذين توفرت بيانات الاستجابة السريرية لهم من أ-ج (ص = 0.03 ، OR = 0.44 اختبار Fisher على الوجهين & # x02019s الدقيق). تشير الأرقام الموجودة على المخططات الدائرية إلى عدد المرضى الذين يحصلون على فائدة سريرية أو لا يحصلون على أي فائدة إكلينيكية.

لتحديد ما إذا كان HED قد يعكس ببساطة عاملاً تنبؤيًا عامًا في السرطان ، فإن الارتباط HLA- تم فحص تغاير الزيجوت أو HED مع البقاء على قيد الحياة بشكل عام بين مرضى سرطان الجلد و NSCLC الذين لم يتلقوا علاج ICI ، ولم يلاحظ أي تأثير (انظر الأشكال الموسعة للبيانات. 4 و & # x200B و 5). 5). يشير هذا إلى أن HED يعني تنبؤية للاستجابة للـ ICIs ، وقد لا تكون تنبؤية في وضع المرضى الذين يعانون من سرطان متقدم لا يعالجون بـ ICIs.

تم فحص جميع الأفواج من الشكل 2 للتحقيق في التأثير المشترك لمتوسط ​​HED و TMB على الاستجابة للـ ICIs. لقد وجد أن تأثير متوسط ​​HED على تحسين البقاء على قيد الحياة بعد ICIs (الشكل 3 أ) كان مستقلاً عن المتغيرات السريرية الأخرى في تحليل الانحدار متعدد المتغيرات Cox & # x02019s (انظر البيانات الموسعة الشكل 6 أ) ، وأن HED المرتفع لم يحدث بشكل متزامن مع الطفرات المعروفة في الجينات التي تم الإبلاغ عن تأثيرها على الاستجابة للـ ICIs (انظر البيانات الموسعة الشكل 7). علاوة على ذلك ، وجد أن التأثير المشترك لـ HED المرتفع و TMB المرتفع على البقاء الكلي بعد ICIs كان أقوى من تأثير أي منهما بمفرده ، كما يتضح من الانخفاض في الموارد البشرية عند تقسيم المرضى إلى طبقات بواسطة كلا المتغيرين 36،37 (الشكل 3 أ). & # x02013 ج). لوحظ هذا التأثير المشترك أيضًا عند تحليل المرضى غير المتجانسين تمامًا فقط (الشكل 3d & # x02013 f ، وانظر البيانات الموسعة الشكل 6 ب). علاوة على ذلك ، ظل التأثير قوياً عبر مجموعة واسعة من نقاط القطع لـ HED و TMB (الشكل 3g وانظر البيانات الموسعة الشكل 8 أ) المستخدمة لتقسيم المرضى إلى مجموعات لتحليل البقاء على قيد الحياة. HED عالية في كل من HLA-A و HLA-B كان مرتبطًا بتحسن البقاء على قيد الحياة بعد إعطاء ICI ، عند النظر في جميع المرضى أو فقط مرضى متغاير الزيجوت بالكامل (الشكل 3 ح). في التحليل متعدد المتغيرات ، وجد أن HED عالية في كليهما HLA-A و HLA-B كان مرتبطًا بشكل مستقل بتحسين البقاء (انظر البيانات الموسعة الشكل 8 ب) ، مما يشير إلى أن الاختلاف في المواضع الفردية من الفئة الأولى قد يؤثر بشكل مختلف على فعالية ICI. علاوة على ذلك ، فإن تأثير متوسط ​​HED المرتفع على تحسين البقاء على قيد الحياة بشكل عام بعد اكتشاف ICI في مجموعة بيانات إضافية لعموم السرطان تضم أكثر من 1000 مريض (انظر البيانات الموسعة الشكل 9).

أ، رابطة ارتفاع متوسط ​​HED (أحمر) مع تحسين البقاء على قيد الحياة بشكل عام بعد الحقن المجهري في جميع المرضى (HLA-أنا متماثل الزيجوت أو متغاير الزيجوت) من الشكل 2 الذي كان TMB متاحًا له (ص = 0.0034 اختبار ترتيب السجل على الوجهين). يشير مخطط الكثافة إلى التوزيع والقطع لمتوسط ​​HED المستخدم في منحنيات البقاء على قيد الحياة. ب، رابطة عالية من TMB (الأحمر) مع تحسين البقاء على قيد الحياة بشكل عام بعد الحقن المجهري بين جميع المرضى ص = 0.03 اختبار ترتيب السجل على الوجهين). يشير مخطط الكثافة إلى التوزيع والقطع لـ TMB المستخدم في منحنيات البقاء على قيد الحياة. ج ، بقاء المرضى الذين يعانون من ارتفاع متوسط ​​HED و TMB مرتفع (أحمر) بعد علاج ICI بين جميع المرضى (ص = 0.01 اختبار ترتيب السجل على الوجهين). د، رابطة ارتفاع متوسط ​​HED (أحمر) مع تحسين البقاء على قيد الحياة بشكل عام بعد الحقن المجهري في المرضى الذين يعانون من تغاير الزيجوت تمامًا في HLA-أنا من الشكل 2 لمن كان TMB متاحًا (ص = 0.001 اختبار ترتيب السجل على الوجهين). ه ، رابطة عالية TMB مع البقاء على قيد الحياة بشكل عام محسن بعد ICI بين مرضى متغاير الزيجوت بالكامل (ص = 0.02 اختبار ترتيب السجل على الوجهين). بقاء المرضى الذين يعانون من ارتفاع متوسط ​​HED و TMB مرتفع بعد علاج ICI بين مرضى متغاير الزيجوت بالكامل (ص = 0.007 اختبار ترتيب السجل). ز يُظهر تحليل نقطة القطع الارتباط بين كل من HED عالي المتوسط ​​و TMB العالي مع تحسين البقاء على قيد الحياة بعد ICIs (ن = 248 ارتفاع متوسط ​​HED: الحد الأدنى = 0.27 متوسط ​​= 0.67 حد أقصى = 1.01 ارتفاع TMB: الحد الأدنى = 0.42 متوسط ​​= 0.64 كحد أقصى = 2.38 متوسط ​​مرتفع HED و TMB: الحد الأدنى = 0.11 متوسط ​​= 0.47 حد أقصى = 1.02). تظهر البيانات انخفاضًا في الموارد البشرية عند الجمع بين HED و TMB مقارنة بأي متغير على حدة. ح يُظهر تحليل انحدار كوكس أحادي المتغير ارتباط HED المرتفع (الربع الأعلى) عند الفرد HLA-I loci مع تحسين البقاء على قيد الحياة بعد ICIs (& # x02018all & # x02019 ، HLA- أنا متماثل الزيجوت أو متغاير الزيجوت & # x02018 بشكل كامل. & # x02019 ، متغاير الزيجوت بالكامل في HLA-أنا ن = عدد المرضى). ص تم حساب القيم باستخدام اختبار الترتيب على الوجهين. تمثل الخطوط الأفقية 95٪ Cl.

بعد ذلك ، تم الافتراض بأن HED المرتفع قد يرتبط بزيادة تنوع ذخيرة neopeptide المقدمة من قبل HLA-أنا. في تحليل استكشافي يقتصر على المرضى غير المتجانسين تمامًا في كل موضع ، وجد أن عدد الببتيدات المرشحة المرتبطة بالأنماط الجينية متغايرة الزيجوت يرتبط بمتوسط ​​HED (الشكل 4 أ). علاوة على ذلك ، لا يرتبط HED المتوسط ​​بـ TMB (الشكل 4 ب) ، مما يشير إلى أن التنوع في HLA-I تعكس مجالات ربط الببتيد على وجه التحديد تنوع النيوببتيدات المرتبطة بها HLA-أنا جزيئات بدلاً من تنوع كل طفرات الورم. علاوة على ذلك ، تم اكتشاف ارتباطات بين HED وتنوع ذخيرة neopeptide في مواضع فردية من الفئة الأولى (انظر الشكل الموسع للبيانات 10 أ - & # x200B -c). ج). تمشيا مع هذه النتائج ، ارتبط HED أيضًا بوفرة الببتيدات الفيروسية المستمدة من عدد من مسببات الأمراض (الشكل 4 ج ، وانظر البيانات الموسعة الشكل 10 د - & # x200 ب-و و والجدول التكميلي 4).

أ، ارتباط متوسط ​​HED مع عدد من الببتيدات الفريدة المرتبطة بأليلات كل نمط وراثي مريض باستخدام جميع المرضى غير المتجانسين تمامًا في HLA-I من الشكل 2 الذين توفرت لهم بيانات نيوببتيد (ن = 103 ص = 0.04 ارتباط كيندال أحادي الجانب & # x02019s). كل نقطة تمثل النمط الجيني HLA-I المريض (HLA-A ، -B و -ج) المحور y يصور متوسط ​​عدد الببتيدات المرتبطة عبر HLA-A ، -B و -ج (انظر الطرق). ب، ارتباط متوسط ​​HED مع TMB (ن = 103 ص = 0.46 ارتباط كيندال على الوجهين & # x02019s). ج ، ارتباط متوسط ​​HED بعدد من الببتيدات الفيروسية الفريدة المرتبطة بأليلات كل نمط وراثي HLA-I (ن = 103 ص = 2.41 & # x000d7 10 & # x022129 ارتباط رتبة كيندال من جانب واحد & # x02019s). د، ارتباط متوسط ​​HED بعدد من الببتيدات الذاتية الفريدة من البروتين البشري المرتبط بأليلات كل نمط وراثي HLA-I (ن = 103 ص = 6.46 & # x000d7 10 & # x022126 ارتباط رتبة كيندال على الوجهين & # x02019s). ال ذ يصور المحور متوسط ​​عدد الببتيدات الذاتية المرتبطة HLA-A ، -B و -ج. ه ، رابطة HED المتوسط ​​مع داخل الورم TCR CDR3 & # x003b2 clonality (ن = 19 ص = 0.02 ارتباط بيرسون على الوجهين و # x02019). يشير الخط الأحمر إلى خط أفضل ملاءمة خطية. رسم تخطيطي يصور تأثيرات HED و TMB على تنوع imunopeptidome والاستجابة لـ ICIs. ممثل واحد HLA- أنا موضع مع HED عالية بين الأليلات.

بعد ذلك ، تم الافتراض بأن HED قد يكون مرتبطًا بتنوع إجمالي الببتيد المناعي البشري الذاتي ، والذي من المحتمل أن يولد جزء منه ببتيدات جديدة. تم إنشاء جميع الببتيدات الفريدة التي يبلغ طولها تسعة من البروتين البشري بأكمله حسابياً لتمكين بروتين ذاتي مرجعي مشترك عبر جميع المرضى ، و HLA-أداء تنبؤات ملزمة. وجد أن HED كان مرتبطًا بتنوع الببتيد المناعي الذاتي المتوقع (الشكل 4 د ، والبيانات الموسعة الشكل 10 جم - & # x200B -i). أنا ). ثم تم تحديد HED في مجموعة مستقلة من 18 فردًا منهم HLA-A و HLA-B كانت الأنماط الجينية وبيانات الببتيد المستخرج بشكل طبيعي متاحة 39 ، ولوحظ وجود ارتباط بين HED وتنوع الببتيد المناعي الذاتي (انظر الشكل التكميلي 2). تم تحليل مجموعة بيانات إضافية من الببتيدومات المشتقة من قياس الطيف الكتلي من الخلايا أحادية الموازي 35 ، والتي تتضمن بيانات الببتيد لمدة 10 HLA-A و 6 HLA-B الأليلات. HEDs وعدد الببتيدات المرتبطة بجميع الأزواج الممكنة من HLA-A و HLA-B تم حساب الأليلات (ن = 120) ، وتم العثور على ارتباط سلبي مهم بين HED وتداخل الببتيدات المرتبط بأليلي زوج معين (انظر الشكل التكميلي 1 أ). هذه البيانات تشير إلى أن أكثر تباعدا HLA-أنا الأليلات ، كلما كانت الببتيدات أكثر تميزًا. تم الكشف عن ارتباط سلبي مماثل عند النظر HLA-A الأليلات وحدها (انظر الشكل التكميلي 1 ب) ، أو HLA-B الأليلات وحدها (انظر الشكل التكميلي 1 ج). علاوة على ذلك ، وجد أن HED كان مرتبطًا بشكل إيجابي بوفرة الببتيدات المرتبطة بأزواج من الأليلات في كل موضع فردي (انظر الشكل التكميلي 1 د ، هـ). إجمالاً ، تشير هذه البيانات إلى أن الاختلاف المتزايد في التسلسل للنمط الجيني HLA-I يرتبط بزيادة تنوع الببتيدات المناعية الذاتية والورم والفيروسية.

بعد ذلك ، تم التحقيق فيما إذا كان ارتباط HED العالي مع ذخيرة neopeptide أوسع من شأنه أن يزيد من احتمال التعرف على المستضد الجديد من خلال تسلل الخلايا التائية الورمية ، وبالتالي يؤثر على التوسع النسيلي للخلايا التائية. وفقًا لذلك ، في مجموعة فرعية من المرضى الذين عولجوا بعلاج ICI والذين كان التسلسل العميق من الجيل التالي لمناطق تحديد التكامل TCR (CDR3s) متاحًا 40 ، تم العثور على ارتباط إيجابي بين متوسط ​​HED واستنساخ TCR CDR3s (الشكل 4 هـ). ومع ذلك ، ستكون هناك حاجة إلى بيانات إضافية للتحقق من صحة هذه النتيجة. الأهم من ذلك ، حيث تتفاعل TCRs مع الببتيدات الذاتية التي يقدمها كل فرد & # x02019s HLA- جزيئات I أثناء انتقاء الغدة الصعترية ، قد تؤثر HED على تنوع ذخيرة TCR للخلايا التائية في الدم المحيطي. على الرغم من عدم توفر الدم لتسلسل TCR من المرضى الذين تم تحليلهم في هذه الدراسة ، فمن المأمول أن يتم تقييم هذه الفرضية في المستقبل القريب.

مجتمعة ، تُظهر هذه البيانات أن HED & # x02014 تم قياسه من خلال الاختلاف التسلسلي بين أليلات a HLAيرتبط النمط الوراثي I & # x02014 بالاستجابة للعلاج المناعي عند نقاط التفتيش في المرضى الذين يعالجون من السرطان ، ومع تنوع الأورام ، والببتيدات المناعية الفيروسية والبشرية. بالمقارنة مع TMB ، والذي قد يكون من الصعب تقديره بدقة بسبب نقاء الورم أو الكسر النسيلي ، يمكن استنتاج HED بشكل موثوق من تسلسل الحمض النووي للأنسجة الطبيعية. علاوة على ذلك ، تشير نتائج الدراسة الحالية إلى أن المرضى الذين يعانون من ارتفاع TMB و HED المرتفع هم الأكثر عرضة للاستفادة من ICIs. الأهم من ذلك ، أن كلا من HED و TMB هما متغيرات جينية تؤثر على المناعة المضادة للورم. بشكل حاسم ، يختلف HED عن عبء المستضدات الجديدة ، والذي لا يمثل سوى مجموعة فرعية من الببتيدات الورمية التي يمكن أن تقدمها جزيئات MHC-I للمريض. بالإضافة إلى ذلك ، تعاني تقديرات عبء المستضد الجديد من خوارزميات تنبؤ ربط الببتيد- HLA غير الكاملة. نقترح أنه ، على عكس عبء المستضد الجديد ، فإن HED عبارة عن مقياس دقيق لتنوع HLA الوظيفي ، ويحدد ، جنبًا إلى جنب مع TMB ، إمكانية التحكم في الورم بوساطة الخلايا التائية (الشكل 4f). لذلك ، يجب أخذ كل من TMB و HED في الاعتبار عند تصميم التجارب السريرية المستقبلية. ستبحث دراسات أخرى في تأثير HED على تطور الورم ومرجع TCR المضيف.


7.1 الإعدادات العامة

7.1.1 تنسيق بيانات الإدخال

هناك نوعان مختلفان من بيانات الإدخال. يتم تمثيل الأول كمصفوفة حيث يمكن لكل قيمة أن تتضمن تعديلات متعددة في شكل سلسلة معقدة. في المثال التالي ، يحتوي "g1" في "s1" على نوعين من التعديلات وهما "snv" و "indel".

في هذه الحالة ، نحتاج إلى تحديد دالة لاستخراج أنواع تغيير مختلفة من هذه السلاسل الطويلة. تعريف هذه الوظيفة بسيط دائمًا ، فهو يقبل السلسلة المعقدة ويعيد متجهًا لأنواع التغيير.

بالنسبة إلى mat ، يمكننا تحديد الوظيفة على النحو التالي:

لذلك ، إذا تم ترميز التعديلات كـ snv | indel ، يمكنك تعريف الوظيفة على أنها دالة (x) strsplit (x، "|") [[1]]. يتم تعيين هذه الوظيفة المعرفة ذاتيًا إلى الوسيطة get_type في oncoPrint ().

نظرًا لأنه في معظم الحالات ، تكون الفواصل عبارة عن أحرف مفردة فقط ، إذا كانت الفواصل في: ، | ، يقوم oncoPrint () تلقائيًا ببصق سلاسل التغيير بحيث لا تحتاج إلى تحديد get_type بشكل صريح في دالة oncoPrint ().

بالنسبة لجين واحد في عينة واحدة ، نظرًا لأنه قد يتم رسم أنواع مختلفة من التغيير في شبكة واحدة في خريطة الحرارة ، نحتاج إلى تحديد كيفية إضافة الرسومات من خلال توفير قائمة بالوظائف المحددة ذاتيًا إلى الوسيطة Altern_fun. هنا إذا كانت الرسومات لا تحتوي على شفافية ، فإن ترتيب إضافة الرسومات مهم. في المثال التالي ، يتم رسم snv أولاً ثم رسم indel. يمكنك أن ترى مستطيلات indels أصغر في الواقع (0.4 * h) من تلك الخاصة بـ snv (0.9 * h) بحيث يمكنك تصور كل من snvs و indels إذا كانت في نفس الشبكة. يجب أن تتوافق أسماء قائمة الوظائف مع أنواع التغيير (هنا ، snv و indel).

بالنسبة لوظيفة الرسوم المحددة ذاتيًا (الوظائف في altern_fun ، يجب أن تكون هناك أربع وسيطات تمثل مواضع للشبكات على oncoPrint (x و y) ، وعرض الشبكات وارتفاعاتها (w و h ، والتي تُقاس بوحدة npc يتم إرسال القيم الصحيحة للوسيطات الأربعة إلى هذه الوظائف تلقائيًا من oncoPrint ().

يتم تحديد ألوان التعديلات المختلفة في العمود. يجب أن يكون ناقلًا مسمىًا تتوافق أسماؤه مع أنواع التغيير. يتم استخدامه لتوليد barplots.

يمكنك أن ترى أن الترتيب في barplots يتوافق أيضًا مع الترتيب المحدد في alter_fun. تستند grahpics في وسيلة الإيضاح إلى الوظائف المحددة في alter_fun.

إذا كنت محتارًا في كيفية إنشاء المصفوفة ، فهناك طريقة ثانية. النوع الثاني من بيانات الإدخال هو قائمة مصفوفة تحتوي كل مصفوفة على قيمة ثنائية تمثل ما إذا كان التغيير غائبًا أم موجودًا. يجب أن تحتوي القائمة على أسماء تتوافق مع أنواع التغيير.

يتوقع oncoPrint () أن جميع المصفوفات في mat_list لها نفس أسماء الصفوف وأسماء الأعمدة.

قم بتمرير mat_list إلى oncoPrint ():

في الأجزاء التالية من هذا الفصل ، ما زلنا نستخدم مصفوفة نموذج المصفوفة المفردة لتحديد بيانات الإدخال.

7.1.2 قم بتعريف المتغير المتغير ()

Altern_fun هي قائمة من الوظائف التي تضيف طبقة رسومية بطبقة (أي رسم أولًا لـ snv ، ثم لـ indel). يمكن أيضًا إضافة الرسومات بأسلوب شبكة تلو الأخرى عن طريق تحديد alter_fun كوظيفة واحدة. الاختلاف عن قائمة الدوال الآن يجب أن يقبل متغيرًا خامسًا وهو متجه منطقي. يوضح هذا المتجه المنطقي ما إذا كانت هناك تعديلات مختلفة للجين الحالي في العينة الحالية.

لنفترض أن هناك حدث snv فقط في الشبكة ، ثم v لهذه الشبكة هو:

إذا تم تعيين alter_fun كوظيفة واحدة ، يمكن أن يكون التخصيص أكثر مرونة. في المثال التالي ، يمكن أن يكون للمستطيلات الزرقاء ارتفاع مختلف في شبكة مختلفة.

فيما يلي مثال معقد لـ altern_fun حيث يتم استخدام المثلثات:

في بعض الحالات ، قد تحتاج إلى تعريف alter_fun للعديد من أنواع التعديلات. If you are not sure about the visual effect of your alter_fun , you can use test_alter_fun() to test your alter_fun . In following example, we defined seven alteration functions:

For the combination of alteration types, test_alter_fun() randomly samples some of them.

test_alter_fun() works both for alter_fun as a list and as a single function.

7.1.3 Background

If alter_fun is specified as a list, the order of the elements controls the order of adding graphics. There is a special element called background which defines how to draw background and it should be always put as the first element in the alter_fun list. In following example, backgrond color is changed to light green with borders.

Or just remove the background (don’t set it to NULL . Setting background directly to NULL means to use the default style of background whch is in grey):

7.1.4 Complex alteration types

It is very easy to have many more different alteration types when integrating information from multiple analysis results. It is sometimes difficult to design graphics and assign different colors for them (e.g. see plot in this link. On the other hand, in these alteration types, there are primary classes of alteration types which is more important to distinguish, while there are secondary classes which is less important. For example, we may have alteration types of “intronic snv”, “exonic snv”, “intronic indel” and “exonic indel”. Actually we can classify them into two classes where “snv/indel” is more important and they belong to the primary class, and “intronic/exonic” is less important and they belong to the secondary class. Reflecting on the oncoPrint, for the “intronic snv” and “exonic snv”, we want to use similar graphics because they are snvs and we want them visually similar, and we add slightly different symbols to represent “intronic” and “exonic”, E.g. we can use red rectangle for snv and above the red rectangles, we use dots to represent “intronic” and cross lines to represent “exonic”. On the barplot annotations which summarize the number of different alteration types, we don’t want to separate “intronic snv” and “exonic snv” while we prefer to simply get the total number of snv to get rid of too many categories in the barplots.

Let’s demonstrate this scenario by following simulated data. To simplify the example, we assume for a single gene in a single sample, it only has either snv or indel and it can only be either intronic or exonic. If there is no “intronic” or “exonic” attached to the gene, it basically means we don’t have this gene-related information (maybe it is an intergenic snv/indel).

Now in m , there are four different alteration types: snv , indel , intronic and exonic . Next we define alter_fun for the four alterations.

For the alteration types in the primary class ( snv and indel ), we use colorred rectangles to represent them because the rectangles are visually obvious, while for the alteration types in the secondary class ( intronic and exonic ), we only use simple symbols (dots for intronic and crossed diagonal lines for exonic ). Since there is no color corresponding to intronic and exonic , we don’t need to define colors for these two types, and on the barplot annotation for genes and samples, only snv and indel are visualized (so the height for snv in the barplot corresponds the number of intronic snv plus exonic snv).

7.1.5 Simplify alter_fun

If the graphics are only simple graphics, e.g., rectangles, points, the graphic functions can be automatically generated by alter_graphic() function. One of previous example can be simplied as:

7.1.6 Other heatmap-related settings

Column names are by default not drawn in the plot. It is can be turned on by setting show_column_names = TRUE .

Row names and percent texts can be turned on/off by setting show_pct and show_row_names . The side of both according to the oncoPrint is controlled by pct_side and row_names_side . Digits of the percent values are controlled by pct_digits .

The barplot annotations on the both side are controlled by anno_oncoprint_barplot() annotation function. Customization such as the size and the axes can be set directly in anno_oncoprint_barplot() . More examples of setting anno_oncoprint_barplot() can be found in Section 7.2.3.

Some people might want to move the right barplots to the left of the oncoPrint:

OncoPrints essentially are heatmaps, thus, there are many arguments set in Heatmap() can also be set in oncoPrint() . In following section, we use a real-world dataset to demonstrate more use of oncoPrint() function.


المواد والأساليب

Nanopore sequencing and datasets

Nanopore sequencing data for NA19240 [26], NA12878 [24], and Ashkenazi trio [29] human cell lines are publicly available. A complete description of the datasets, their base calling, mapping, and usage in our study are provided in additional file 1 along with the link to the sources.

We also sequenced the Colo829BL B-lymphoblast cell line using one nanopore PromethION flow cell and Illumina paired-end sequencing at 30× coverage. A complete description of nanopore and Illumina sequencing protocols and data obtained is also provided in Additional file 1.

CpG methylation calling from nanopore data

To call CpG methylation, we benchmarked three model-based approaches: Nanopolish [10], Megalodon [14], and DeepSignal [15]. Nanopolish uses a hidden Markov model to call CpG methylations from raw nanopore data while Megalodon and DeepSignal use neural networks. We called CpG methylation using these tools (with the default parameters) for 12 flow cells of NA12878 publicly available data (Additional file 1) and compared the results with WGBS data from ENCODE project (ENCFF835NTC) [51] and Human Methylation 27 (27k) array from Fraser et al. [25].

Variant calling

We used Clair to call SNVs [22]. We called variants for each chromosome using clair.py callVarBam --threshold 0.2 و ال HG122HD34 نموذج. Indels were filtered out. To evaluate variant calling, we compared SNVs called by Clair from nanopore data to those from 1KGP phase 3 [30] (GRCh37 coordinates). Clair’s variant calls were lifted over to GRCh37 human reference genome coordinates using CrossMap [52] for comparison to 1KGP data.

For our in-house Colo829BL sample, we compared Clair variant calls to Strelka [53] v 2.9.10 calls made from paired-end Illumina reads (Additional file 1).

Model training to improve SNV calling

We calculated average qualities and mutation frequencies for each position of each 5-mer window containing an SNV. Mutation frequencies were calculated as the number of instances over coverage for each genomic position in the 5-mer window. Base qualities for a given position were calculated as the average of all base qualities mapped to the position. We used these as inputs to a fully connected artificial neural network classifier composed of four hidden layers with a relu activation function. The first hidden layer is six times larger than the input layer and the size of subsequent hidden layers decreases through a factor two.

We trained three models to compare the classifier using different coverages. NA12878 20 flow cells (24×), NA12878 all flow cells (44×), and HG003 (80×) were used for training. First, we called variants for each dataset using Clair and then determined true and false positives using high-quality variants using the Genome in a Bottle database (GIAB) [27]. Using NA12878 20 flow cell data, a randomly selected balanced dataset of 25 million 5-mers was used for training and 4 million unseen randomly selected 5-mers were used as the validation set. For the NA12878 whole dataset and HG003 sample, the training datasets were 18M and 14.9M, respectively, and validation sets were 2.5M and 2M, respectively (Additional file 2: Fig. S6). The NA12878 20 flow cell model was used for < 30× coverage data, NA12878 all flow cells for 30×–45× coverage data, and HG003 model for > 45 coverage data.

Phasing single nucleotide variants detected from nanopore sequencing

In order to phase nanopore reads and CpG methylation, we first called SNVs for both samples (NA19240 run 1 and Colo829BL) using Clair [22], then used SNVoter to normalize the quality scores and filter out false positives (Fig. 2e and Table 1). Finally, we used WhatsHap [23, 31] v0.18 with the default parameters and --ignore-read-groups on to determine haplotype status for each SNV.

Phasing of nanopore reads and CpG methylations

Phased SNVs and CpG methylation calls were leveraged to phase reads along their CpG methylation to diploid haplotypes. After filtering out a considerable number of false-positive SNVs using SNVoter, we still noticed 10–20% false-positive SNV calls in the datasets (Table 1). These unfiltered false-positive calls, in addition to sequencing errors, can result in reads incorrectly mapping to the SNVs from haplotype 1 when the read would actually belong to the haplotype 2 and vice versa. We noticed reads presenting SNVs from both haplotypes when mapping them to phased SNVs. In NA19240 run 0, out of

3M reads which mapped to at least one phased SNV,

2M reads had SNVs from both haplotypes (Additional file 2: Fig. S7a). To further overcome false positives and the sequencing error problem, we made several filtering steps to account for remnant false-positive SNVs and haplotype ratio (number of SNVs from HP1/HP2 or HP2/HP1). As we analyzed NA19240 run 0, we noticed a lower base quality distribution for false-positive SNVs compared to true positives that could not be filtered out by SNVoter (Additional file 2: Fig. S7b). Therefore, we assigned a minimum base quality threshold to successfully map each read at a phased SNV position. To manage reads containing SNVs from both haplotypes, we defined another threshold, the haplotype ratio, which ensures the reads are assigned to a single haplotype. Based on the quality distribution of SNVs (Additional file 2: Fig. S7b), the proportion of false positives which is between 10 and 20% (Table 1) and haplotype ratios (Additional file 2: Fig. S7a), and also based on empirical phasing at a few known imprinted regions, we used seven as the minimum base quality and 0.75 as haplotype ratio. We also used two as the minimum number of phased SNVs a read must present to be considered for phasing. In order to assign a read to a defined haplotype, a read must satisfy the following criteria:

As the reads are separated to different haplotypes, their associated CpG methylations from processed methylation call file are also separated to the corresponding haplotypes. We have integrated all the steps and filters in our python3 command-line tool, NanoMethPhase. Users can input methylation call data from Nanopolish, phased variant calling file, alignment file, and reference genome to NanoMethPhase (Fig. 3c). NanoMethPhase will output phased reads in aligned format, phased mock WGBS converted format for visualization (see the “Visualization” section Fig. 4c, d), phased methylation calls, and methylation frequency files. The latter can be used for differential methylation analysis to detect DMRs between haplotypes.

Differential methylation analysis

After phasing reads and CpG methylation to haplotypes, NanoMethPhase can perform DMA to detect mono-allelic methylated regions. It uses the DSS R package [36] for DMA. Users can perform all analyses in a command-line interface and directly perform DMA using the dma module of NanoMethPhase on the output phased methylation frequency data to detect DMRs.

التصور

NanoMethPhase can convert phased reads into separate mock-WGBS bam files using the processed methylation call file from its methyl_call_processor module. Each cytosine in each CpG in each read is converted to a T, A, or N depending on the CpG being called as methylated, unmethylated, or uncalled. These pairs of files can be loaded into a genome browser such as IGV [34] in bisulfite mode for visualization (Fig. 4c, d).


First Principal Component Analysis - PCA1 Section

The first principal component is strongly correlated with five of the original variables. The first principal component increases with increasing Arts, Health, Transportation, Housing and Recreation scores. This suggests that these five criteria vary together. If one increases, then the remaining ones tend to increase as well. This component can be viewed as a measure of the quality of Arts, Health, Transportation, and Recreation, and the lack of quality in Housing (recall that high values for Housing are bad). Furthermore, we see that the first principal component correlates most strongly with the Arts. In fact, we could state that based on the correlation of 0.985 that this principal component is primarily a measure of the Arts. It would follow that communities with high values tend to have a lot of arts available, in terms of theaters, orchestras, etc. Whereas communities with small values would have very few of these types of opportunities.


أساليب

First, SNVs are called from processed RNA-seq files using Genome Analysis Toolkit (GATK) [58]. Calls are then filtered by SNPiR tools [64] to remove SNVs that may result from sequencing noise and/or alignment errors. After data transformation, sPLS-DA models are trained on SNVs limited by region of origin. Following the empirical estimation of the optimal number of selected features to be included in the model, performance is evaluating using 10-fold cross-validation. Finally, top predictive SNV features are characterized to determine their relevance to the cancer phenotype in question.

Variant calling pipeline

The variant calling and filtering pipeline, SNPiR, has been shown to obtain accurate SNVs with minimal false-positives from RNA-Seq data [64]. For each sample, the pipeline consists of several steps: pre- and post-processing, filtering, alignment, and variant calling. Burrows-Wheelers Aligner (BWA) [48] is used with default parameters to map reads as single-end sequences to the human genome (hg19), which is concatenated with exons with known splice junctions as per SNPiR protocol. Samtools and Picardtools are used to remove duplicate and unmapped reads, while GATK [58] is used for indel realignment, base calibration and variant calling using the reference SNP database, dbSNP (NCBI hg19 build 141). SNPiR tools are then used to remove mismatches from the first 6 bp of aligned reads, as well as to remove variant calls from repetitive regions, intronic sites within 4 bp of splice junctions, homopolymer runs, and ambiguously mapped reads determined by BLAT [42].

The resulting output is a BED file containing SNVs with their genomic coordinates and allele fractions. RADAR is first used to determine if SNVs are located at RNA-editing sites [67]. The SNV annotation program, ANNOVAR (v2014jul14), is then used to annotate unique SNVs using default parameters [79]. For each SNV, ANNOVAR provides information on the gene and region of origin, which include exonic, intronic, 5’ or 3’ UTR, intergenic, up/downstream, and non-coding RNA (ncRNA). ANNOVAR defines intergenic variants to those that are at least 2 kb distal from a coding sequence, whereas the ncRNA category contains variants that do not overlap coding transcript annotations and is used by ANNOVAR to encapsulate both annotated non-coding RNA, such as known miRNA and lncRNA, as well as unannotated loci in the genome. Lastly, Bedtools genomecov [66] is used to determine loci with adequate read coverage using hg19 as reference.

Data transformation and filtering

The total set of variants is transformed into a matrix SNVM, where SNVM أنا,ي is the allele fraction of the أنا-th SNV in sample ي. Allele fraction, or read-frequency, is defined as the amount of reads supporting the variant allele over the total amount of reads covering that nucleotide position. Read coverages are determined for every SNVM أنا,ي. Those SNVM أنا,ي values that do not reach the threshold read coverage (default 10) are given a non-available (NA) value. Sub-models can then be generated by limiting SNVs to those located in a region of interest, such as exonic positions, and/or by requiring a minimum number of non-zero features.

SPLS-DA and optimal number of features

Predictive models are created using sPLS-DA, which is implemented in the mixOmics R package [13, 15]. PLS-DA is a supervised, multivariate modeling technique used to determine the variation within X, the SNV data, that is correlated to Y, the class labels (e.g. disease-free versus relapse). The sparse version of the technique, sPLS-DA, seeks to identify the best ك features that provides the best discrimination between two classes, ignoring all other features. sPLS-DA thus provides a framework for both feature selection and classification.

Nested cross-validations are used to determine the amount of features, ك, utilized by sPLS-DA that result in the best predictive performance. For every iteration of 10-fold cross-validation, sub-cross-validations are performed across a range of values for ك. For each ك, the model is trained on 10-fold sub-training sets and evaluated. The value of ك with the best performance for each iteration of the parent cross-validation is then stored. This process is repeated 15 times to more accurately estimate the distribution of optimal Ks from 150 values. The optimal ك is then determined as the rounded value of ك that corresponds to the maximum of the estimated kernel density of the distribution of selected ك’s, as represented in Fig. 1.

Selection of Optimal K. A kernel density is estimated from the distribution of كs selected within the nested cross-validations during the creation of each model. The value of ك that corresponds to the max of the density is chosen as the optimal value of ك. The example shown is the distribution of Ks that maximized internal cross validations in the breast cancer exonic SNV model

Construction of gene expression models

To compare the performance of the proposed methodology with traditional gene expression classifiers, models were created using gene expression values as input. For the NSCLC dataset, Bowtie (v1.2.18) [46] and RSEM (v1.2.18) [47] were used with default parameters to align reads to the transcriptome and quantify reads, respectively. For the breast cancer dataset, BWA (v0.7.12) [48] and featureCounts (v1.4.6) [49] was used with default parameters to align reads to the genome and quantify reads, respectively. For both datasets, read counts were normalized via DESeq2 (v1.10.0) [54]. Herein, adjusted ص-values reported by DESeq2 will simply be referred to as ص-values. Models were trained on subsequent gene expression matrices using the same parameters as those used in the creation of SNV models. For each dataset, the distribution of performance statistics are compared to that of the corresponding SNV model to identify the similarity of performance between the proposed methodology and the traditional approach.

Evaluation

After the empirical estimation of the optimal value of ك, the model is then evaluated using fifteen 10-fold cross-validations to determine performance via its predictive accuracy, classification sensitivities, and area under the receiver operating characteristic curve (AUC), which seeks to quantify the relationship between true and false positive rates. Though sPLS-DA is able to train a model on features that include NA values, missing data in the test set is not compatible with the resulting model. Therefore, NA values are replaced with the mean of the means of the centered and standardized AF values for each feature within each group in the training set. For example, the mean of the normalized AF values for feature X in group أ is averaged together with the mean of normalized AF values for feature X in group ب disregarding samples from the test set. This value is then used as a proxy for the missing data in the test set.

To determine if the proposed methodology is discriminant towards the true grouping of disease phenotype, permutation tests are repeated 1000 times to construct the null distribution of model performance (i.e., no relation to phenotype) for each model. The true model performance is then compared to this null distribution to determine significance, with a significantly discriminant model outperforming the majority of permutation test models.Otherwise, it could be said that model performance is independent of the true grouping and is, thus, insignificant. For each test, one iteration of a 10-fold cross-validation is used to train and test models with randomly permuted sample group labels using the optimal K that was used in the true model. The number of models with AUC greater than or equal to the true model AUC is divided by the number of tests to determine permutation test ص-values.

Lastly, to obtain the final set of putative SNV features, the model is trained using all samples and the optimal value of ك. The selected features are then ranked by the absolute values of their predictive coefficients (or loadings) as determined by sPLS-DA. In order to assay the utility of the proposed methodology, a Friedman rank sum test is used to compare the rankings of selected features to those of traditional approaches — the univariate non-parametric tests, Fisher’s exact and Wilcoxon rank sum.

The Fisher’s exact test is implemented by the production of a 2 ×4 table for each SNV locus, where each value corresponds to the number of samples in each group with detectable levels of each allele in (A, C, G, T), while disregarding samples with sub-threshold read coverage (<10) at that locus. As the presence of an allele is binary in this case, the test only takes into account the differential abundance of the alleles across groups. Whereas, Wilcoxon rank sum test p-values are produced by comparing the distributions of continuous allele fractions and do not directly include information on their differential abundance across samples.

To determine if the proposed methodology selects SNVs that lie in genes that have significant allele-specific expression, selected SNVs were analyzed using MBASED: a method that combines evidence across multiple SNVs to identify gene-level ASE [56]. Though the method was designed for the integration of expression data with exonic SNV calls from WES and/or WGS, we applied the methodology on SNVs selected during the creation of our SNV genic models: exonic, intronic, and 3’UTR. To determine if genes from which selected SNVs are located are enriched for ASE, we compared the number of significant ASE gene/sample pairs to those found in equally sized random subsets of genes from which the total set of SNVs were called. One thousand subsets were evaluated to determine the null distribution from which enrichment ص-values can be computed.

Finally, the top 15 features selected by SNV-DA are characterized by their relevance to cancer phenotype and are analyzed via hierarchical clustering to visualize the co-occurrence of features.

دراسات الحالة

Disease outcome in non-small cell lung cancer

NSCLC is the leading cause of cancer-related mortality in the US. Adenocarcinoma, the most frequent histological subtype, accounts for 40 % of such deaths [74]. RNA samples were collected from 21 different lung adenocarcinoma tumors with known clinical outcomes obtained from the American College of Surgery Oncology Group (ACOSOG). Since the RNA specimens were received from ACOSOG with no personal identifying information, the local IRB has considered the proposed project “not human subject research” after reviewing the protocol (IRB Pro00013739). Ten of the RNA samples were derived from patients who developed cancer recurrence within three years of their initial surgical resection (Relapse R). The remaining eleven patients had remained disease free (DF) after three years. Using these samples, we sought to determine the ability of the proposed methodology to identify and prioritize candidate biomarkers that may help predict relapse phenotype in NSCLC.

RNA integrity was verified on an Agilent 2200 Bioanalyzer (Agilent Technologies, Palo Alto, CA). One hundred to two hundred ng of total RNA was used to prepare RNA-Seq libraries using the TruSeq RNA Sample Prep Kit following the protocol as described by the manufacturer (Illumina, San Diego, CA). Three samples per lane were clustered on a cBot as described by the manufacturer (Illumina, San Diego, CA). Clustered RNA-Seq libraries were paired-end sequenced with 2 ×100 cycles on a HiScanSQ. Demultiplexing was performed utilizing CASAVA to generate the Fastq files. Each sample produced approximately 25 million reads after sequencing. One sample from the relapse group was removed from subsequent analysis after being identified in our previous study as an outlier based on principle component analyses of expression and alternative splicing [2]. The removal of this sample is additionally supported by the iLOO outlier detection algorithm [27]. Using normalized counts from DESeq2[54] of all relapse samples, the algorithm identified 567 outlying gene features in the suspect sample − 5.74 standard deviations greater than the distribution of the number of outlying features in the other samples (mean = 143.44, standard deviation = 73.82).

Hormone receptor status in breast cancer

To further validate our model, we obtained a dataset from the publicly available SRA database (SRP042620), which was provided by Varley et al., 2014 [78]. In their publication, the authors sought to identify read-through transcripts that are significantly correlated with breast cancer and/or hormone receptor status. RNA-Seq was obtained from 42 ER+ and 42 TR- primary tumors using poly-A capture and Tn-RNA-Seq for library construction. Libraries were sequenced on the Illumina HiSeq 2000 using 50 bp paired-end reads, which produced 50 million reads on average. Instead of trying to predict some future outcome of the patients from which these tumors were sampled, we sought to identify SNV features that co-occur with hormone receptor status. Selected SNVs may thus provide insight into molecular mechanisms differentiating these two subgroups of breast cancer.


Silicon Saxony on the march

Bosch's new plant will add to the larger Dresden area's reputation as one of Europe's most significant microelectronics hubs. It has come to be called Silicon Saxony in a nod to its much bigger brother, Silicon Valley, in the US.

Silicon Saxony is also the name of an industry association on the ground. Its managing director, Frank Bösenberg, told the DPA news agency earlier this month that the Dresden semiconductor chip technology cluster had "seen continuous growth since 2009," mentioning some 2,300 companies with roughly 60,000 employees active in the industry in Saxony and generating revenues of some €16.5 billion last year.

Robots are indispensable helpers in Bosch's production of wafers and microchips in its Dresden plant

Several big players already on the ground are currently planning to invest a lot more to boost production in response to the rising demand for chips.

US chipmaker Globalfoundries, which absorbed the former AMD Saxony in Dresden, has said it's willing to spend €400 million on expanding its clean rooms. The firm boasts an output of 400,000 wafers a year right now and hopes to double this soon.

Further investments of €1.1 billion in its Dresden facilities over the next five years have been announced by Infineon, a Munich-based listed DAX company and another world leader in microelectronics.

In addition, Silicon Saxony executives hope semiconductor giant Intel may also join the Dresden cluster as the company is currently on the lookout for a suitable European location to invest billions of dollars.

"We are among Europe's largest semiconductor-producing locations," Silicon Saxony chief Frank Bösenberg told German public broadcaster MDR. "This concentration of similar industry players should give us a competitive edge."

The Dresden microelectronics cluster is something of an outlier in Europe, with the only significant competitor being the larger Grenoble area in France with a similar density of chipmakers, engineering companies and research institutions.


Principal Component Analysis and k-means Clustering to Visualize a High Dimensional Dataset

Key insights:

  • There are clusters in the National Health and Nutrition Exam Survey (combined diet, medical, and exam datasets, 2013- 2014) which are only visible via dimensionality reduction.
  • PCA in conjunction with k-means is a powerful method for visualizing high dimensional data.

I recently learned about principal component analysis (PCA) and I was eager to try to put it into p ractice, so I downloaded data from the National Health and Nutrition Examination Survey and began my analysis. The data contained nearly 200 features (columns) and there was no way in hell I could get a broad overview of all of them through traditional methods of visualization. Luckily, this is what doing PCA is all about. You take a ton of features, project them onto a lower-dimensional space, reduce them down to just a few important principal ones, and visualize them. Alternatively, it’s possible to use these reduced components in a machine learning pipeline, but that’s a topic for a different post.

To better understand the magic of PCA, let’s dive right in and see how I did it with my dataset in three basic steps.

Step 1: Reduce Dimensionality

In this step, we will find the optimal number of components which capture the greatest amount of variance in the data. In my case, as seen in Fig. 1 below, that number is three.

Fig. 1 shows that the first three components explain the majority of the variance in our data. For this visualization use case, we will quickly plot just the first two. We do this to notice if there are any clear clusters.

Fig. 2 shows at least two clearly distinguishable clusters. This factoid tells us that the observations in the dataset can be grouped. Because each observation in the data is a diet, lab, and physical exam for one person, we could say that the clusters represent different groups of people. It’s important to note that we do not have a target variable by which to label these groups, so we do not know exactly what these labels are. In a utopian situation, this type of analysis would let us see the sample population segregated by health condition. Fig. 2 does not show all the meaningful principal components, however. To visualize the rest of the reduced dataset with much greater granularity, we will use k-means clustering.

Step 2: Find the Clusters

In this step, we will use k-means clustering to view the top three PCA components. In order to do this, we will first fit these principal components to the k-means algorithm and determine the best number of clusters. Determining the ideal number of clusters for our k-means model can be done by measuring the sum of the squared distances to the nearest cluster center aka inertia. Much like the scree plot in fig. 1 for PCA, the k-means scree plot below indicates the percentage of variance explained, but in slightly different terms, as a function of the number of clusters.

Fig. 3 shows that after 4 clusters at (the elbow) the change in the value of inertia is no longer significant and most likely, neither is the variance of the rest of the data after the elbow point. Therefore we can discard everything after k=4 and proceed to the last step in the process.

Step 3: Visualize and Interpret the Clusters

I did this project with a basic question in mind: can people be grouped based on features like physical examination results, complete blood counts, and diet records? Reducing all those features down to principal components and then visualizing the clusters in those principal components using k-means hints that the answer to my question is most likely yes.

Figure 4 was made with Plotly and shows some clearly defined clusters in the data. I did not label the dataset, so we do not know the names of the clusters. This does not mean that we couldn’t go back and label these groups, however. Now that we know how many clusters there are in our data, we have a better sense of how many groups we can label the population with. As an example, it’s possible to come up with a model that grades well-being in this population on four grades. Introducing these labels back into the reduced dataset on the unique id of each sample will allow us to visualize them by cluster.

The ability to notice otherwise unseen patterns and to come up with a model to generalize those patterns onto observations is precisely why tools like PCA and k-means are essential in any data scientist’s toolbox. They allow us to see the big picture while we pay attention to the details.


شاهد الفيديو: اختبار الحمل المنزلي باستخدام الملح دون اللجوء لشراء تحليل الحمل (سبتمبر 2022).


تعليقات:

  1. Faing

    في رأيي ، ترتكب الأخطاء. أقترح مناقشته. اكتب لي في PM.

  2. Archaimbaud

    انت مخطئ. أقدم لمناقشته. اكتب لي في رئيس الوزراء ، سنتحدث.

  3. Gahn

    نأسف لأنهم يتدخلون ... لكنهم قريبون جدًا من الموضوع. جاهز للمساعدة.

  4. Yokazahn

    شكرا لكم على مساعدتكم في هذا الموضوع كيف اشكركم؟



اكتب رسالة