Оценка больших языковых моделей на многоязычных знаниях о вакцинах: исследование бенчмарка
Evaluating large language models on multilingual vaccine knowledge: a benchmark study
Аннотация
Большие языковые модели (БЯМ) все чаще используются врачами и населением для получения информации о вакцинах, однако их фактическая точность на разных языках и в различных вакцинных темах остается недостаточно изученной. Мы оценили 13 БЯМ с помощью VaxEval — многоязычного бенчмарка знаний о вакцинах, включающего 1886 вопросов с множественным выбором по 14 вакцинам на английском языке (71%), испанском (13%) и китайском (16%). Все задания прошли контроль качества, а эталонные ответы были верифицированы по авторитетным рекомендациям и рецензируемым источникам. Производительность моделей оценивали при нулевом, нескольких примерах и chain-of-thought (CoT) prompting, а точность exact-match определяли как выбор заранее заданного эталонного варианта ответа. Для оценки связи между группой моделей (новые флагманские модели против более ранних моделей), стратегией prompting, языком и типом вакцины, а также правильностью ответа использовали логистическую регрессию со смешанными эффектами. Средняя точность по моделям составила 86,0% на английском языке, 83,7% на испанском и 80,0% на китайском. Флагманские модели чаще давали правильный ответ, чем более ранние версии (ОШ 1,57; 95% ДИ 1,50-1,65; P < 0,001). Использование нескольких примеров было связано с большей правильностью ответов (ОШ 1,17; P < 0,001), тогда как prompting с chain-of-thought — с меньшей правильностью (ОШ 0,79; P < 0,001). Результаты варьировали в зависимости от типа вакцины и категории вопросов, что подчеркивает необходимость строгой оценки, структурированных ограничителей и целенаправленной доработки перед применением БЯМ для коммуникации по вопросам вакцинации.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.