Комплексная оценка языковых моделей
Holistic Evaluation of Language Models
Аннотация
Языковые модели, такие как GPT-3, PaLM и ChatGPT, лежат в основе почти всех основных языковых технологий, однако их возможности, ограничения и риски изучены недостаточно. Мы представляем Holistic Evaluation of Language Models (HELM) для повышения прозрачности языковых моделей.
Языковые модели могут использоваться для самых разных целей, и их поведение должно соответствовать множеству требований. Чтобы ориентироваться в огромном пространстве возможных сценариев и метрик, мы разработали таксономию этого пространства и отобрали репрезентативные подмножества.
Мы оценивали модели в 16 основных сценариях и по 7 метрикам, выявив важные компромиссы. Основную оценку мы дополнили семью целевыми исследованиями для углубленного анализа отдельных аспектов, включая знание мира, рассуждение, непроизвольное воспроизведение защищенного авторским правом контента и генерацию дезинформации.
Мы провели бенчмаркинг 30 языковых моделей от OpenAI, Microsoft, Google, Meta, Cohere, AI21 Labs и других компаний. До HELM модели оценивались лишь по 17,9% основных сценариев HELM, а у некоторых известных моделей не было ни одного общего сценария. Нам удалось увеличить этот показатель до 96,0%: теперь все 30 моделей сопоставлены в одинаковых стандартизованных условиях.
Наша оценка выявила 25 ключевых выводов верхнего уровня. Для полной прозрачности мы публикуем в открытом доступе все исходные промпты и ответы моделей. HELM — это постоянно обновляемый бенчмарк для сообщества, который пополняется новыми сценариями, метриками и моделями.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.