Научная статья

Результаты ChatGPT, GPT-4 и Google Bard в банке вопросов для подготовки к устному экзамену по нейрохирургии

Performance of ChatGPT, GPT-4, and Google Bard on a Neurosurgery Oral Boards Preparation Question Bank

12 июня 2023 Ali R., Tang O.Y., Connolly I.D. и др.

FWCI: 11.6 · Процитировано: 249 · Ссылки: 4 · Лицензия: Неизвестна

Цитирование по годам: 2026: 17 · 2025: 93 · 2024: 154 · 2023: 52

Введение: Общие большие языковые модели, такие как ChatGPT (GPT-3.5), продемонстрировали способность проходить медицинские экзамены с выбором ответа. Однако сравнительная точность разных языковых моделей и их результаты в тестах, преимущественно основанных на вопросах более высокого уровня, связанных с тактикой ведения, изучены недостаточно. Мы оценили результаты 3 языковых моделей (GPT-3.5, GPT-4 и Google Bard) на банке вопросов, специально разработанном для подготовки к устному экзамену по нейрохирургии. Методы: Для оценки точности языковых моделей использовали Self-Assessment Neurosurgery Examination Indications Examination из 149 вопросов. Вопросы вводили в формате одного наилучшего ответа, с выбором из нескольких вариантов. Различия в результатах в зависимости от характеристик вопросов оценивали с помощью критерия χ2, точного критерия Фишера и однофакторной логистической регрессии. Результаты: В банке вопросов, где преобладали вопросы более высокого уровня (85,2%), ChatGPT (GPT-3.5) и GPT-4 правильно ответили на 62,4% (95% ДИ 54,1–70,1%) и 82,6% (95% ДИ 75,2–88,1%) вопросов соответственно. Для сравнения, Bard набрал 44,2% (66/149, 95% ДИ 36,2–52,6%). GPT-3.5 и GPT-4 показали значительно более высокие результаты, чем Bard (оба P < 0,01), а GPT-4 превзошла GPT-3.5 (P = 0,023). Среди 6 субспециальностей GPT-4 имела значительно более высокую точность в категории Spine по сравнению с GPT-3.5 и в 4 категориях по сравнению с Bard (во всех случаях P < 0,01). Включение задач более высокого уровня ассоциировалось со снижением точности ответов для GPT-3.5 (отношение шансов [ОШ] = 0,80; P = 0,042) и Bard (ОШ = 0,76; P = 0,014), но не для GPT-4 (ОШ = 0,86; P = 0,085). На вопросах, связанных с визуализацией, GPT-4 превзошла GPT-3.5 (68,6% против 47,1%; P = 0,044) и была сопоставима с Bard (68,6% против 66,7%; P = 1,000). Однако GPT-4 демонстрировала значительно более низкую частоту «галлюцинаций» на вопросах, связанных с визуализацией, чем GPT-3.5 (2,3% против 57,1%; P < 0,001) и Bard (2,3% против 27,3%; P = 0,002). Отсутствие текстового описания вопроса значимо повышало вероятность галлюцинаций у GPT-3.5 (ОШ = 1,45; P = 0,012) и Bard (ОШ = 2,09; P < 0,001). Выводы: В банке вопросов, преимущественно включавшем клинические ситуации более высокого уровня сложности для подготовки к устному экзамену по нейрохирургии, GPT-4 набрала 82,6%, превзойдя ChatGPT и Google Bard.

большие языковые моделинейрохирургический экзаменустные экзаменытактика ведениявопросы по визуализациигаллюцинации искусственного интеллектаGPT-4Google Bard

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.

Результаты ChatGPT, GPT-4 и Google Bard в банке вопросов для подготовки к устному экзамену по нейрохирургии

Аннотация

Переведем эту статью за 1 час

Похожие статьи

Недавнее из этого журнала