Научная статья

Результаты ChatGPT и GPT-4 на письменном экзамене для сертификации по нейрохирургии

Performance of ChatGPT and GPT-4 on Neurosurgery Written Board Examinations

Neurosurgery
10.1227/neu.0000000000002632
Открыть в журнале PubMed
FWCI: 7.42FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Процитировано: 173 · Ссылки: 7 · Лицензия: Неизвестна
Цитирование по годам: 2026: 9 · 2025: 68 · 2024: 101 · 2023: 23

Аннотация

Введение: Интерес к генеративным большим языковым моделям быстро растёт. Хотя ChatGPT (GPT-3.5), универсальная большая языковая модель, показал результат, близкий к пороговому на экзаменах для студентов-медиков, эффективность ChatGPT и его преемника GPT-4 на специализированных экзаменах и факторы, влияющие на точность ответов, остаются неясными. Целью исследования было оценить результаты ChatGPT и GPT-4 на имитационном письменном нейрохирургическом экзамене из 500 вопросов.

Методы: Для оценки ChatGPT и GPT-4 использовали Self-Assessment Neurosurgery Examinations (SANS), экзамен самооценки Американской коллегии нейрохирургов № 1. Вопросы были в формате множественного выбора с одним лучшим ответом. Для оценки различий в результативности в зависимости от характеристик вопросов применяли критерий χ2, точный критерий Фишера и однофакторную логистическую регрессию.

Результаты: ChatGPT (GPT-3.5) и GPT-4 набрали 73,4% (95% ДИ 69,3–77,2%) и 83,4% (95% ДИ 79,8–86,5%) соответственно, тогда как средний результат пользователей составлял 72,8% (95% ДИ 68,6–76,6%). Обе большие языковые модели превысили порог сдачи прошлого года, равный 69%. Хотя результаты ChatGPT и пользователей банка вопросов не различались (P = .963), GPT-4 превосходил обе группы (для обеих P < .001). GPT-4 ответил правильно на все вопросы, на которые правильно ответил ChatGPT, и на 37,6% (50/133) оставшихся вопросов, на которые ChatGPT ответил неверно. Среди 12 категорий вопросов GPT-4 значимо превосходил пользователей по каждой из них, был сопоставим с ChatGPT в 3 категориях (функциональные, прочие общие и позвоночник) и превосходил и пользователей, и ChatGPT по вопросам о опухолях. Больший объём текста (отношение шансов = 0,89 на правильный ответ на каждые дополнительные 10 слов) и вопросы более высокого уровня, требующие решения проблемы (отношение шансов = 0,40; P = .009), были связаны с меньшей точностью ответов у ChatGPT, но не у GPT-4 (для обоих P > .005). На момент исследования мультимодальный ввод был недоступен; поэтому на вопросах с изображениями ChatGPT и GPT-4 отвечали правильно лишь в 49,5% и 56,8% случаев соответственно, опираясь только на контекстные подсказки.

Выводы: Большие языковые модели достигли проходного результата на имитационном письменном экзамене по нейрохирургии из 500 вопросов, при этом GPT-4 значимо превосходил ChatGPT.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.