Научная статья

Стратегии нормализации и анализа дифференциальной обогащённости микроорганизмов зависят от характеристик данных

Normalization and microbial differential abundance strategies depend upon data characteristics

Microbiome
10.1186/s40168-017-0237-y
Полный текст Открыть в журнале PubMed PMC
FWCI: 123FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Процитировано: 1720 · Ссылки: 82 · Лицензия: CC-BY
Цитирование по годам: 2026: 74 · 2025: 212 · 2024: 278 · 2023: 245 · 2022: 303

Аннотация

Введение: Данные ампликонного секвенирования 16S рибосомальной РНК создают трудности для экологической и статистической интерпретации. В частности, размеры библиотек нередко различаются на порядки, а в данных много нулей. Хотя обычно требуется сравнивать относительную представленность таксонов в экосистемах двух и более групп, измерить можно только относительную представленность таксонов в полученных образцах. Поскольку сравнение относительной представленности таксонов в образце не эквивалентно сравнению их относительной представленности в экосистемах, это создаёт особую проблему. Кроме того, относительная представленность таксонов в образце, как и в экосистеме, в сумме равна 1, то есть это композиционные данные. Поскольку композиционные данные ограничены симплексом (сумма равна 1) и не являются неограниченными в евклидовом пространстве, многие стандартные методы анализа к ним неприменимы. Здесь мы оценили, как эти трудности влияют на работу существующих методов нормализации и анализа дифференциальной представленности.

Результаты: Влияние на нормализацию: большинство методов нормализации позволяют успешно группировать образцы по биологическому происхождению, если группы существенно различаются по суммарному микробному составу. Редуцирование считываний до одинаковой глубины более чётко группирует образцы по биологическому происхождению, чем другие методы нормализации, для методов ординации, основанных на наличии или отсутствии признака. Альтернативные методы нормализации потенциально уязвимы к артефактам, связанным с размером библиотеки. Влияние на тестирование дифференциальной представленности: мы продолжили предыдущее исследование и оценили семь предложенных статистических методов на редуцированных и исходных данных. Наши имитационные исследования показывают, что частота ложных открытий у многих методов тестирования дифференциальной представленности не повышается из-за самого редуцирования, хотя, разумеется, редуцирование приводит к снижению чувствительности из-за исключения части доступных данных. При группах со значительными различиями в среднем размере библиотеки (~10 раз) редуцирование снижает частоту ложных открытий. DESeq2 без добавления константы повышал чувствительность на небольших наборах данных (<20 образцов в группе), но склонялся к более высокой частоте ложных открытий при большем числе образцов, очень неравномерных (~10 раз) размерах библиотек и/или композиционных эффектах. Для выводов об обогащённости таксонов в экосистеме анализ композиции микробиомов (ANCOM) был не только очень чувствительным (при >20 образцах в группе), но и, что особенно важно, единственным протестированным методом с хорошим контролем частоты ложных открытий.

Выводы: Эти результаты помогают выбирать методы нормализации и анализа дифференциальной представленности в зависимости от характеристик данных конкретного исследования.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.