Научная статья

VSEARCH: универсальный инструмент с открытым исходным кодом для метагеномики

VSEARCH: a versatile open source tool for metagenomics

2016 Rognes T., Flouri T., Nichols B. и др. Открытый доступ

Полный текст Открыть в журнале PubMed PMC

FWCI: 250 · Процитировано: 9313 · Ссылки: 40 · Лицензия: CC-BY

Цитирование по годам: 2026: 516 · 2025: 1505 · 2024: 1664 · 2023: 1481 · 2022: 1553

Введение: VSEARCH — это бесплатный многопоточный 64-битный инструмент с открытым исходным кодом для обработки и подготовки данных нуклеотидных последовательностей в метагеномике, геномике и популяционной геномике. Он создан как альтернатива широко используемому инструменту USEARCH (Edgar, 2010), исходный код которого недоступен, детали алгоритмов описаны лишь в общих чертах, а свободно доступна только ограниченная по памяти 32-битная версия для академического использования.

Методы: При поиске нуклеотидных последовательностей VSEARCH использует быстрый эвристический алгоритм, основанный на словах, общих для запроса и целевой последовательности, что позволяет быстро выявлять сходные последовательности; вероятно, сходная стратегия применяется и в USEARCH. Затем VSEARCH выполняет оптимальное глобальное выравнивание запроса с потенциальными целевыми последовательностями, используя полное динамическое программирование вместо эвристики seed-and-extend, применяемой в USEARCH. Парные выравнивания вычисляются параллельно с использованием векторизации и нескольких потоков.

Результаты: VSEARCH включает большинство команд для анализа нуклеотидных последовательностей, доступных в USEARCH версии 7, и несколько команд из USEARCH версии 8, в том числе поиск (точный или на основе глобального выравнивания), кластеризацию по сходству (с предварительной сортировкой по длине, по обилию или в заданном пользователем порядке), выявление химерных последовательностей (на основе референса или de novo), дерепликацию (по всей длине или по префиксу), парное выравнивание, обратное комплементарное преобразование, сортировку и субсэмплирование. VSEARCH также включает команды для обработки файлов FASTQ, а именно определение формата, фильтрацию, статистику качества чтений и объединение парных чтений. Кроме того, VSEARCH расширяет функциональность рядом новых команд и улучшений, включая перемешивание, повторную репликацию, маскирование низкокомплексных последовательностей с помощью хорошо известного алгоритма DUST, выбор между различными определениями сходства и преобразование формата файлов FASTQ. Показано, что VSEARCH более точен, чем USEARCH, при поиске, кластеризации, выявлении химер и субсэмплировании, а при объединении парных чтений не уступает USEARCH. VSEARCH медленнее USEARCH при кластеризации и выявлении химер, но значительно быстрее при объединении парных чтений и дерепликации. VSEARCH доступен по адресу https://github.com/torognes/vsearch по лицензии BSD с двумя пунктами или по лицензии GNU General Public License версии 3.0.

Выводы: VSEARCH показал себя как быстрый, точный и полноценный альтернатива USEARCH. Сообществу метагеномики теперь доступен бесплатный и открытый универсальный инструмент для анализа последовательностей.

метагеномический анализобработка нуклеотидных последовательностейкластеризация по сходствувыявление химерных последовательностейдерепликация последовательностейобъединение парных чтенийформат FASTQоткрытое программное обеспечение

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.

VSEARCH: универсальный инструмент с открытым исходным кодом для метагеномики

Аннотация

Переведем эту статью за 1 час

Похожие статьи

Недавнее из этого журнала