Научная статья

Комплексная оценка языковых моделей

Holistic Evaluation of Language Models

Annals of the New York Academy of Sciences
10.1111/nyas.15007
Полный текст Открыть в журнале PubMed
FWCI: 70.9FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Процитировано: 184 · Ссылки: 65 · Лицензия: Закрытая
Цитирование по годам: 2026: 54 · 2025: 116 · 2024: 124 · 2023: 146 · 2022: 3

Аннотация

Языковые модели, такие как GPT-3, PaLM и ChatGPT, лежат в основе почти всех основных языковых технологий, однако их возможности, ограничения и риски изучены недостаточно. Мы представляем Holistic Evaluation of Language Models (HELM) для повышения прозрачности языковых моделей.

Языковые модели могут использоваться для самых разных целей, и их поведение должно соответствовать множеству требований. Чтобы ориентироваться в огромном пространстве возможных сценариев и метрик, мы разработали таксономию этого пространства и отобрали репрезентативные подмножества.

Мы оценивали модели в 16 основных сценариях и по 7 метрикам, выявив важные компромиссы. Основную оценку мы дополнили семью целевыми исследованиями для углубленного анализа отдельных аспектов, включая знание мира, рассуждение, непроизвольное воспроизведение защищенного авторским правом контента и генерацию дезинформации.

Мы провели бенчмаркинг 30 языковых моделей от OpenAI, Microsoft, Google, Meta, Cohere, AI21 Labs и других компаний. До HELM модели оценивались лишь по 17,9% основных сценариев HELM, а у некоторых известных моделей не было ни одного общего сценария. Нам удалось увеличить этот показатель до 96,0%: теперь все 30 моделей сопоставлены в одинаковых стандартизованных условиях.

Наша оценка выявила 25 ключевых выводов верхнего уровня. Для полной прозрачности мы публикуем в открытом доступе все исходные промпты и ответы моделей. HELM — это постоянно обновляемый бенчмарк для сообщества, который пополняется новыми сценариями, метриками и моделями.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.