Может ли искусственный интеллект сдать экзамен Американской коллегии хирургов-ортопедов? Ординаторы-ортопеды против ChatGPT
Can Artificial Intelligence Pass the American Board of Orthopaedic Surgery Examination? Orthopaedic Residents Versus ChatGPT
Аннотация
Введение: В последние годы достигнут значительный прогресс в области нейронных сетей, глубокого обучения и искусственного интеллекта (ИИ). Ранее системы ИИ на основе глубокого обучения строились вокруг узкоспециализированных областей и обучались на данных конкретных наборов признаков, что обеспечивало высокую точность и воспроизводимость. Новая модель ИИ на основе больших языковых моделей и неспецифических предметных областей, ChatGPT (OpenAI), привлекла большое внимание. Хотя ИИ демонстрирует способность обрабатывать огромные массивы данных, практическое применение этих знаний остается сложной задачей.
Цель: (1) Какой процент вопросов Orthopaedic In-Training Examination может правильно ответить генеративный чат-бот на основе предварительно обученного трансформера (ChatGPT)? (2) Как этот показатель соотносится с результатами ординаторов-ортопедов разных уровней, и если результат ниже 10-го процентиля по сравнению с ординаторами 5-го года обучения, что, вероятно, соответствует неудовлетворительной оценке на письменном экзамене Американской коллегии хирургов-ортопедов, способен ли эта большая языковая модель сдать письменный экзамен по ортопедической хирургии? (3) Влияет ли усложнение таксономии вопросов на способность модели выбирать правильные ответы?
Методы: В исследование случайным образом отобрали 400 из 3840 общедоступных вопросов на основе Orthopaedic In-Training Examination и сравнили средний балл с результатами ординаторов, проходивших тест в течение 5-летнего периода. Вопросы с изображениями, схемами или диаграммами исключили, включая пять вопросов, на которые модель не смогла ответить, в результате чего 207 вопросов были предъявлены с регистрацией «сырых» баллов. Результаты ответов модели сравнивали с ранжированием ординаторов-ортопедов по Orthopaedic In-Training Examination. На основании данных предыдущего исследования порог прохождения/непрохождения был установлен на уровне 10-го процентиля. Затем отвеченные вопросы классифицировали по таксономии Баквальтера, основанной на воспроизведении знаний и включающей все более сложные уровни интерпретации и применения знаний; сравнивали результаты модели на разных таксономических уровнях, анализ проводили с использованием критерия хи-квадрат.
Результаты: ChatGPT правильно выбирал ответ в 47% случаев (97 из 207) и ошибался в 53% случаев (110 из 207). По данным ранее проведенного тестирования Orthopaedic In-Training Examination, модель оказалась на 40-м процентиле среди ординаторов 1-го года обучения (PGY1), на 8-м процентиле среди PGY2 и на 1-м процентиле среди PGY3, PGY4 и PGY5; исходя из этого результата (и при использовании заранее определенного порога в 10-й процентиль PGY5 как критерия прохождения), маловероятно, что модель сдала бы письменный экзамен. Эффективность модели снижалась с увеличением уровня таксономии вопросов: правильно были отвечены 54% (54 из 101) вопросов Tax 1, 51% (18 из 35) вопросов Tax 2 и 34% (24 из 71) вопросов Tax 3 (p = 0,034).
Выводы: Хотя вероятность сдачи письменного экзамена по ортопедической хирургии у этой универсальной большой языковой модели невысока, ее результаты тестирования и объем знаний сопоставимы с уровнем ординатора-ортопеда первого года обучения. Способность модели давать точные ответы снижается по мере роста таксономического уровня и сложности вопросов, что указывает на дефицит в практическом применении знаний.
Клиническая значимость: Современный ИИ, по-видимому, лучше справляется с вопросами, основанными на знании и интерпретации, и с учетом результатов этого исследования и других перспективных направлений может стать дополнительным инструментом в обучении ортопедов.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.