Научная статья

Комплексная оценка языковых моделей

Holistic Evaluation of Language Models

Annals of the New York Academy of Sciences

25 мая 2023 Bommasani R., Liang P., Lee T. Открытый доступ

FWCI: 70.9 · Процитировано: 184 · Ссылки: 65 · Лицензия: Закрытая

Цитирование по годам: 2026: 54 · 2025: 116 · 2024: 124 · 2023: 146 · 2022: 3

Языковые модели, такие как GPT-3, PaLM и ChatGPT, лежат в основе почти всех основных языковых технологий, однако их возможности, ограничения и риски изучены недостаточно. Мы представляем Holistic Evaluation of Language Models (HELM) для повышения прозрачности языковых моделей.

Языковые модели могут использоваться для самых разных целей, и их поведение должно соответствовать множеству требований. Чтобы ориентироваться в огромном пространстве возможных сценариев и метрик, мы разработали таксономию этого пространства и отобрали репрезентативные подмножества.

Мы оценивали модели в 16 основных сценариях и по 7 метрикам, выявив важные компромиссы. Основную оценку мы дополнили семью целевыми исследованиями для углубленного анализа отдельных аспектов, включая знание мира, рассуждение, непроизвольное воспроизведение защищенного авторским правом контента и генерацию дезинформации.

Мы провели бенчмаркинг 30 языковых моделей от OpenAI, Microsoft, Google, Meta, Cohere, AI21 Labs и других компаний. До HELM модели оценивались лишь по 17,9% основных сценариев HELM, а у некоторых известных моделей не было ни одного общего сценария. Нам удалось увеличить этот показатель до 96,0%: теперь все 30 моделей сопоставлены в одинаковых стандартизованных условиях.

Наша оценка выявила 25 ключевых выводов верхнего уровня. Для полной прозрачности мы публикуем в открытом доступе все исходные промпты и ответы моделей. HELM — это постоянно обновляемый бенчмарк для сообщества, который пополняется новыми сценариями, метриками и моделями.

оценка языковых моделейстандартизованный бенчмарксценарии и метрикипрозрачность моделейвоспроизводимость оценокгенерация дезинформациивоспроизведение защищенного контентарассуждение и знание мира

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.

Комплексная оценка языковых моделей

Аннотация

Переведем эту статью за 1 час

Недавнее из этого журнала