Биологическая структура и функция возникают при масштабировании обучения без учителя на 250 миллионов последовательностей белков
Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences
Аннотация
В области искусственного интеллекта сочетание масштабов данных и мощности модели, реализованное благодаря обучению без учителя, привело к значительному прогрессу в обучении представлений и статистической генерации. В науках о жизни ожидаемый рост секвенирования обещает беспрецедентный объем данных о естественном разнообразии последовательностей. Моделирование языка белков на масштабе эволюции — логичный шаг к предиктивному и генеративному искусственному интеллекту в биологии. Для этого мы использовали обучение без учителя, чтобы обучить глубокую контекстную языковую модель на 86 миллиардах аминокислот из 250 миллионов последовательностей белков, охватывающих эволюционное разнообразие. Полученная модель содержит в своих представлениях информацию о биологических свойствах. Представления были получены только из данных о последовательностях. Пространство обученных представлений имеет многоуровневую организацию, отражающую структуру от уровня биохимических свойств аминокислот до отдаленной гомологии белков. Информация о вторичной и третичной структуре закодирована в представлениях и может быть выявлена линейными проекциями. Обучение представлений формирует признаки, которые обобщаются в широком диапазоне применений, обеспечивая лучший на тот момент результат в контролируемом предсказании эффекта мутаций и вторичной структуры и улучшая лучшие на тот момент признаки для предсказания дальнодействующих контактов.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.