Imputef: импутация классов генотипов и частот аллелей у полиплоидов
Imputef: imputation of polyploid genotype classes and allele frequencies
Аннотация
Введение: Существует дефицит программ для импутации генотипов, специально предназначенных для полиплоидов и объединённых образцов без фазированной информации о гаплотипах и референсной панели генотипов. Многие важные сельскохозяйственные культуры являются полиплоидами, а секвенирование пулов — перспективный экономичный подход к геномной характеристике селекционных популяций, семей и других расщепляющихся линий. Нехватка инструментов импутации для таких наборов данных приводит к использованию программ, рассчитанных на диплоидные организмы, что может ухудшать результаты. Это требует разработки инструментов импутации частот аллелей, которые учитывают специфические вычислительные сложности, возникающие при анализе полиплоидных геномов и данных секвенирования пулов.
Результаты: Мы разработали imputef — инструмент для импутации частот аллелей у полиплоидных особей и объединённых образцов, для которых отсутствует богатая геномная информация, обычно доступная для модельных организмов. Пропущенные частоты аллелей импутируют как взвешенное по генетическому расстоянию среднее ненулевых частот аллелей от k ближайших соседей. Генетическое расстояние оценивают как среднюю абсолютную разницу частот аллелей по сцепленным локусам, а сцепление оценивают как коэффициент корреляции Пирсона между локусами. Минимальный порог корреляции локусов и максимальный порог генетического расстояния можно оптимизировать для каждого локуса, чтобы минимизировать ошибку импутации. При использовании параметров по умолчанию (минимальная корреляция локусов, максимальное генетическое расстояние, минимальное число сцепленных локусов и минимальное число ближайших соседей — 0,9, 0,1, 20 и 5 соответственно) imputef в целом превосходил импутацию средним значением и хорошо работал в широком диапазоне уровней разреженности (от 1% до 90% смоделированных пропусков и от 6% до 50% эмпирической разреженности) и частот минорных аллелей (1% и 5%). Точность импутации дополнительно повышалась при встроенной оптимизации для каждого локуса. Максимальное время вычислений составляло от 41 часа (380 тетраплоидов; 233 627 локусов) без оптимизации до 6 дней (275 полиплоидов; 1 526 917 локусов) с оптимизацией по каждому локусу при использовании 32 вычислительных ядер с частотой 3,7 ГГц и 60–320 ГБ памяти. Кроме того, с помощью imputef были продемонстрированы практические подходы к импутации для крупных наборов данных с неупорядоченными локусами.
Выводы: Imputef — точный инструмент для импутации частот аллелей у полиплоидов и объединённых образцов, в которых отсутствует богатая геномная информация. Ожидается, что этот инструмент повысит статистическую мощность геномных анализов у полиплоидов и пулов и расширит использование пуловых методов в селекции сельскохозяйственных культур и экологической геномике.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.