Научная статья

Imputef: импутация классов генотипов и частот аллелей у полиплоидов

Imputef: imputation of polyploid genotype classes and allele frequencies

BMC Genomics
10.1186/s12864-025-12141-4
Полный текст Открыть в журнале PubMed PMC
FWCI: 1.51FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Процитировано: 1 · Ссылки: 37 · Лицензия: CC-BY-NC-ND
Цитирование по годам: 2025: 1

Аннотация

Введение: Существует дефицит программ для импутации генотипов, специально предназначенных для полиплоидов и объединённых образцов без фазированной информации о гаплотипах и референсной панели генотипов. Многие важные сельскохозяйственные культуры являются полиплоидами, а секвенирование пулов — перспективный экономичный подход к геномной характеристике селекционных популяций, семей и других расщепляющихся линий. Нехватка инструментов импутации для таких наборов данных приводит к использованию программ, рассчитанных на диплоидные организмы, что может ухудшать результаты. Это требует разработки инструментов импутации частот аллелей, которые учитывают специфические вычислительные сложности, возникающие при анализе полиплоидных геномов и данных секвенирования пулов.

Результаты: Мы разработали imputef — инструмент для импутации частот аллелей у полиплоидных особей и объединённых образцов, для которых отсутствует богатая геномная информация, обычно доступная для модельных организмов. Пропущенные частоты аллелей импутируют как взвешенное по генетическому расстоянию среднее ненулевых частот аллелей от k ближайших соседей. Генетическое расстояние оценивают как среднюю абсолютную разницу частот аллелей по сцепленным локусам, а сцепление оценивают как коэффициент корреляции Пирсона между локусами. Минимальный порог корреляции локусов и максимальный порог генетического расстояния можно оптимизировать для каждого локуса, чтобы минимизировать ошибку импутации. При использовании параметров по умолчанию (минимальная корреляция локусов, максимальное генетическое расстояние, минимальное число сцепленных локусов и минимальное число ближайших соседей — 0,9, 0,1, 20 и 5 соответственно) imputef в целом превосходил импутацию средним значением и хорошо работал в широком диапазоне уровней разреженности (от 1% до 90% смоделированных пропусков и от 6% до 50% эмпирической разреженности) и частот минорных аллелей (1% и 5%). Точность импутации дополнительно повышалась при встроенной оптимизации для каждого локуса. Максимальное время вычислений составляло от 41 часа (380 тетраплоидов; 233 627 локусов) без оптимизации до 6 дней (275 полиплоидов; 1 526 917 локусов) с оптимизацией по каждому локусу при использовании 32 вычислительных ядер с частотой 3,7 ГГц и 60–320 ГБ памяти. Кроме того, с помощью imputef были продемонстрированы практические подходы к импутации для крупных наборов данных с неупорядоченными локусами.

Выводы: Imputef — точный инструмент для импутации частот аллелей у полиплоидов и объединённых образцов, в которых отсутствует богатая геномная информация. Ожидается, что этот инструмент повысит статистическую мощность геномных анализов у полиплоидов и пулов и расширит использование пуловых методов в селекции сельскохозяйственных культур и экологической геномике.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.