Научная статья

Биологическая структура и функция возникают при масштабировании обучения без учителя на 250 миллионов последовательностей белков

Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences

Proceedings of the National Academy of Sciences of the United States of America
10.1073/pnas.2016239118
Полный текст Открыть в журнале PubMed PMC
FWCI: 149FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Процитировано: 2751 · Ссылки: 80 · Лицензия: CC-BY-NC-ND
Цитирование по годам: 2026: 294 · 2025: 842 · 2024: 774 · 2023: 530 · 2022: 339

Аннотация

В области искусственного интеллекта сочетание масштабов данных и мощности модели, реализованное благодаря обучению без учителя, привело к значительному прогрессу в обучении представлений и статистической генерации. В науках о жизни ожидаемый рост секвенирования обещает беспрецедентный объем данных о естественном разнообразии последовательностей. Моделирование языка белков на масштабе эволюции — логичный шаг к предиктивному и генеративному искусственному интеллекту в биологии. Для этого мы использовали обучение без учителя, чтобы обучить глубокую контекстную языковую модель на 86 миллиардах аминокислот из 250 миллионов последовательностей белков, охватывающих эволюционное разнообразие. Полученная модель содержит в своих представлениях информацию о биологических свойствах. Представления были получены только из данных о последовательностях. Пространство обученных представлений имеет многоуровневую организацию, отражающую структуру от уровня биохимических свойств аминокислот до отдаленной гомологии белков. Информация о вторичной и третичной структуре закодирована в представлениях и может быть выявлена линейными проекциями. Обучение представлений формирует признаки, которые обобщаются в широком диапазоне применений, обеспечивая лучший на тот момент результат в контролируемом предсказании эффекта мутаций и вторичной структуры и улучшая лучшие на тот момент признаки для предсказания дальнодействующих контактов.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.