VSEARCH: универсальный инструмент с открытым исходным кодом для метагеномики
VSEARCH: a versatile open source tool for metagenomics
Аннотация
Введение: VSEARCH — это бесплатный многопоточный 64-битный инструмент с открытым исходным кодом для обработки и подготовки данных нуклеотидных последовательностей в метагеномике, геномике и популяционной геномике. Он создан как альтернатива широко используемому инструменту USEARCH (Edgar, 2010), исходный код которого недоступен, детали алгоритмов описаны лишь в общих чертах, а свободно доступна только ограниченная по памяти 32-битная версия для академического использования.
Методы: При поиске нуклеотидных последовательностей VSEARCH использует быстрый эвристический алгоритм, основанный на словах, общих для запроса и целевой последовательности, что позволяет быстро выявлять сходные последовательности; вероятно, сходная стратегия применяется и в USEARCH. Затем VSEARCH выполняет оптимальное глобальное выравнивание запроса с потенциальными целевыми последовательностями, используя полное динамическое программирование вместо эвристики seed-and-extend, применяемой в USEARCH. Парные выравнивания вычисляются параллельно с использованием векторизации и нескольких потоков.
Результаты: VSEARCH включает большинство команд для анализа нуклеотидных последовательностей, доступных в USEARCH версии 7, и несколько команд из USEARCH версии 8, в том числе поиск (точный или на основе глобального выравнивания), кластеризацию по сходству (с предварительной сортировкой по длине, по обилию или в заданном пользователем порядке), выявление химерных последовательностей (на основе референса или de novo), дерепликацию (по всей длине или по префиксу), парное выравнивание, обратное комплементарное преобразование, сортировку и субсэмплирование. VSEARCH также включает команды для обработки файлов FASTQ, а именно определение формата, фильтрацию, статистику качества чтений и объединение парных чтений. Кроме того, VSEARCH расширяет функциональность рядом новых команд и улучшений, включая перемешивание, повторную репликацию, маскирование низкокомплексных последовательностей с помощью хорошо известного алгоритма DUST, выбор между различными определениями сходства и преобразование формата файлов FASTQ. Показано, что VSEARCH более точен, чем USEARCH, при поиске, кластеризации, выявлении химер и субсэмплировании, а при объединении парных чтений не уступает USEARCH. VSEARCH медленнее USEARCH при кластеризации и выявлении химер, но значительно быстрее при объединении парных чтений и дерепликации. VSEARCH доступен по адресу https://github.com/torognes/vsearch по лицензии BSD с двумя пунктами или по лицензии GNU General Public License версии 3.0.
Выводы: VSEARCH показал себя как быстрый, точный и полноценный альтернатива USEARCH. Сообществу метагеномики теперь доступен бесплатный и открытый универсальный инструмент для анализа последовательностей.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.