Научная статья

Выравнивание на основе протеиновых эмбеддингов

Protein embedding based alignment

BMC Bioinformatics
10.1186/s12859-024-05699-5
Полный текст Открыть в журнале PubMed PMC
FWCI: 5.02FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Процитировано: 27 · Ссылки: 24 · Лицензия: CC-BY
Цитирование по годам: 2026: 7 · 2025: 13 · 2024: 5 · 2023: 1

Аннотация

Цель: Несмотря на значительный прогресс алгоритмов выравнивания, выравнивание дивергентных белковых последовательностей с попарной идентичностью менее 20–35% — так называемой «сумеречной зоны» — остаётся сложной задачей. Многие алгоритмы выравнивания с момента своего появления в 1970-х годах используют матрицы замен, однако для оценки выравниваний в сумеречной зоне они работают недостаточно хорошо. Мы разработали выравнивания на основе протеиновых эмбеддингов, или PEbA, чтобы точнее выравнивать последовательности с низкой попарной идентичностью. Подобно традиционному алгоритму Смита — Уотермана, PEbA использует алгоритм динамического программирования, но оценка совпадения аминокислот основана на сходстве их эмбеддингов из языковой модели белков.

Методы: Мы протестировали PEbA более чем на 12 000 эталонных парных выравниваниях из BAliBASE, каждое из которых было выделено из одного из множественных выравниваний последовательностей. Использовали пять различных референсных наборов BAliBASE с разной степенью идентичности последовательностей, мотивами и длиной, что позволило оценить, насколько хорошо PEbA выравнивает последовательности в разных условиях.

Результаты: PEbA значительно превосходил парные выравнивания на основе матрицы замен BLOSUM, обеспечивая различную степень улучшения качества выравнивания для пар последовательностей с разным уровнем сходства; для пар с идентичностью менее 10% улучшение было более чем в четыре раза. Мы также сравнили PEbA с эмбеддингами, полученными с помощью разных языковых моделей белков (ProtT5 и ESM-2), и обнаружили, что ProtT5-XL-U50 формирует наиболее полезные эмбеддинги для выравнивания белковых последовательностей. Кроме того, PEbA превосходил DEDAL и vcMSA — два недавно разработанных метода выравнивания на основе эмбеддингов языковых моделей белков.

Вывод: Полученные результаты показали, что универсальные языковые модели белков предоставляют полезную контекстную информацию для построения более точных выравниваний белков, чем обычно используемые методы.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.