Результаты ChatGPT, GPT-4 и Google Bard в банке вопросов для подготовки к устному экзамену по нейрохирургии
Performance of ChatGPT, GPT-4, and Google Bard on a Neurosurgery Oral Boards Preparation Question Bank
Аннотация
Введение: Общие большие языковые модели, такие как ChatGPT (GPT-3.5), продемонстрировали способность проходить медицинские экзамены с выбором ответа. Однако сравнительная точность разных языковых моделей и их результаты в тестах, преимущественно основанных на вопросах более высокого уровня, связанных с тактикой ведения, изучены недостаточно. Мы оценили результаты 3 языковых моделей (GPT-3.5, GPT-4 и Google Bard) на банке вопросов, специально разработанном для подготовки к устному экзамену по нейрохирургии. Методы: Для оценки точности языковых моделей использовали Self-Assessment Neurosurgery Examination Indications Examination из 149 вопросов. Вопросы вводили в формате одного наилучшего ответа, с выбором из нескольких вариантов. Различия в результатах в зависимости от характеристик вопросов оценивали с помощью критерия χ2, точного критерия Фишера и однофакторной логистической регрессии. Результаты: В банке вопросов, где преобладали вопросы более высокого уровня (85,2%), ChatGPT (GPT-3.5) и GPT-4 правильно ответили на 62,4% (95% ДИ 54,1–70,1%) и 82,6% (95% ДИ 75,2–88,1%) вопросов соответственно. Для сравнения, Bard набрал 44,2% (66/149, 95% ДИ 36,2–52,6%). GPT-3.5 и GPT-4 показали значительно более высокие результаты, чем Bard (оба P < 0,01), а GPT-4 превзошла GPT-3.5 (P = 0,023). Среди 6 субспециальностей GPT-4 имела значительно более высокую точность в категории Spine по сравнению с GPT-3.5 и в 4 категориях по сравнению с Bard (во всех случаях P < 0,01). Включение задач более высокого уровня ассоциировалось со снижением точности ответов для GPT-3.5 (отношение шансов [ОШ] = 0,80; P = 0,042) и Bard (ОШ = 0,76; P = 0,014), но не для GPT-4 (ОШ = 0,86; P = 0,085). На вопросах, связанных с визуализацией, GPT-4 превзошла GPT-3.5 (68,6% против 47,1%; P = 0,044) и была сопоставима с Bard (68,6% против 66,7%; P = 1,000). Однако GPT-4 демонстрировала значительно более низкую частоту «галлюцинаций» на вопросах, связанных с визуализацией, чем GPT-3.5 (2,3% против 57,1%; P < 0,001) и Bard (2,3% против 27,3%; P = 0,002). Отсутствие текстового описания вопроса значимо повышало вероятность галлюцинаций у GPT-3.5 (ОШ = 1,45; P = 0,012) и Bard (ОШ = 2,09; P < 0,001). Выводы: В банке вопросов, преимущественно включавшем клинические ситуации более высокого уровня сложности для подготовки к устному экзамену по нейрохирургии, GPT-4 набрала 82,6%, превзойдя ChatGPT и Google Bard.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.