Выравнивание на основе протеиновых эмбеддингов
Protein embedding based alignment
Аннотация
Цель: Несмотря на значительный прогресс алгоритмов выравнивания, выравнивание дивергентных белковых последовательностей с попарной идентичностью менее 20–35% — так называемой «сумеречной зоны» — остаётся сложной задачей. Многие алгоритмы выравнивания с момента своего появления в 1970-х годах используют матрицы замен, однако для оценки выравниваний в сумеречной зоне они работают недостаточно хорошо. Мы разработали выравнивания на основе протеиновых эмбеддингов, или PEbA, чтобы точнее выравнивать последовательности с низкой попарной идентичностью. Подобно традиционному алгоритму Смита — Уотермана, PEbA использует алгоритм динамического программирования, но оценка совпадения аминокислот основана на сходстве их эмбеддингов из языковой модели белков.
Методы: Мы протестировали PEbA более чем на 12 000 эталонных парных выравниваниях из BAliBASE, каждое из которых было выделено из одного из множественных выравниваний последовательностей. Использовали пять различных референсных наборов BAliBASE с разной степенью идентичности последовательностей, мотивами и длиной, что позволило оценить, насколько хорошо PEbA выравнивает последовательности в разных условиях.
Результаты: PEbA значительно превосходил парные выравнивания на основе матрицы замен BLOSUM, обеспечивая различную степень улучшения качества выравнивания для пар последовательностей с разным уровнем сходства; для пар с идентичностью менее 10% улучшение было более чем в четыре раза. Мы также сравнили PEbA с эмбеддингами, полученными с помощью разных языковых моделей белков (ProtT5 и ESM-2), и обнаружили, что ProtT5-XL-U50 формирует наиболее полезные эмбеддинги для выравнивания белковых последовательностей. Кроме того, PEbA превосходил DEDAL и vcMSA — два недавно разработанных метода выравнивания на основе эмбеддингов языковых моделей белков.
Вывод: Полученные результаты показали, что универсальные языковые модели белков предоставляют полезную контекстную информацию для построения более точных выравниваний белков, чем обычно используемые методы.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.