Научная статья

Выравнивание на основе протеиновых эмбеддингов

Protein embedding based alignment

28 февраля 2024 Iovino B.G., Ye Y. Открытый доступ

Полный текст Открыть в журнале PubMed PMC

FWCI: 5.02 · Процитировано: 27 · Ссылки: 24 · Лицензия: CC-BY

Цитирование по годам: 2026: 7 · 2025: 13 · 2024: 5 · 2023: 1

Цель: Несмотря на значительный прогресс алгоритмов выравнивания, выравнивание дивергентных белковых последовательностей с попарной идентичностью менее 20–35% — так называемой «сумеречной зоны» — остаётся сложной задачей. Многие алгоритмы выравнивания с момента своего появления в 1970-х годах используют матрицы замен, однако для оценки выравниваний в сумеречной зоне они работают недостаточно хорошо. Мы разработали выравнивания на основе протеиновых эмбеддингов, или PEbA, чтобы точнее выравнивать последовательности с низкой попарной идентичностью. Подобно традиционному алгоритму Смита — Уотермана, PEbA использует алгоритм динамического программирования, но оценка совпадения аминокислот основана на сходстве их эмбеддингов из языковой модели белков.

Методы: Мы протестировали PEbA более чем на 12 000 эталонных парных выравниваниях из BAliBASE, каждое из которых было выделено из одного из множественных выравниваний последовательностей. Использовали пять различных референсных наборов BAliBASE с разной степенью идентичности последовательностей, мотивами и длиной, что позволило оценить, насколько хорошо PEbA выравнивает последовательности в разных условиях.

Результаты: PEbA значительно превосходил парные выравнивания на основе матрицы замен BLOSUM, обеспечивая различную степень улучшения качества выравнивания для пар последовательностей с разным уровнем сходства; для пар с идентичностью менее 10% улучшение было более чем в четыре раза. Мы также сравнили PEbA с эмбеддингами, полученными с помощью разных языковых моделей белков (ProtT5 и ESM-2), и обнаружили, что ProtT5-XL-U50 формирует наиболее полезные эмбеддинги для выравнивания белковых последовательностей. Кроме того, PEbA превосходил DEDAL и vcMSA — два недавно разработанных метода выравнивания на основе эмбеддингов языковых моделей белков.

Вывод: Полученные результаты показали, что универсальные языковые модели белков предоставляют полезную контекстную информацию для построения более точных выравниваний белков, чем обычно используемые методы.

выравнивание белковых последовательностейпротеиновые эмбеддингиязыковые модели белковсумеречная зона идентичностиматрицы замен BLOSUMBAliBASEалгоритм Смита — Уотермана

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.

Выравнивание на основе протеиновых эмбеддингов

Аннотация

Переведем эту статью за 1 час

Похожие статьи