Фреймворк для выявления вариантов и генотипирования по данным секвенирования ДНК нового поколения
A framework for variation discovery and genotyping using next-generation DNA sequencing data
Аннотация
Недавние достижения в области секвенирования делают возможным всесторонний учет генетической вариабельности в популяционных выборках, создавая основу для понимания заболеваний человека, происхождения и эволюции. Однако объемы сырых данных огромны, и для преобразования этого потока в высококачественные вызовы вариантов требуется множество вычислительных этапов. Мы представляем единый аналитический фреймворк для одновременного выявления вариантов и генотипирования у нескольких образцов, который обеспечивает высокую чувствительность и специфичность на пяти технологиях секвенирования и в трех различных канонических экспериментальных дизайнах. Наш процесс включает (i) первичное картирование ридов; (ii) локальное выравнивание вокруг инделов; (iii) перекалибровку оценок качества оснований; (iv) выявление однонуклеотидных полиморфизмов и генотипирование для поиска всех потенциальных вариантов; и (v) машинное обучение для отделения истинной сегрегирующей вариабельности от артефактов, характерных для технологий секвенирования нового поколения. Здесь мы обсуждаем применение этих инструментов, реализованных в Genome Analysis Toolkit, к данным глубокого полногеномного секвенирования, секвенирования всего экзома и многообразцового низкопокрытийного (около 4×) набора данных проекта «1000 геномов».
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.