Научная статья

Может ли искусственный интеллект сдать экзамен Американской коллегии хирургов-ортопедов? Ординаторы-ортопеды против ChatGPT

Can Artificial Intelligence Pass the American Board of Orthopaedic Surgery Examination? Orthopaedic Residents Versus ChatGPT

Clinical Orthopaedics and Related Research
10.1097/CORR.0000000000002704
Полный текст Открыть в журнале PubMed PMC
FWCI: 5.01FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Процитировано: 143 · Ссылки: 14 · Лицензия: Неизвестна
Цитирование по годам: 2026: 11 · 2025: 52 · 2024: 69 · 2023: 16

Аннотация

Введение: В последние годы достигнут значительный прогресс в области нейронных сетей, глубокого обучения и искусственного интеллекта (ИИ). Ранее системы ИИ на основе глубокого обучения строились вокруг узкоспециализированных областей и обучались на данных конкретных наборов признаков, что обеспечивало высокую точность и воспроизводимость. Новая модель ИИ на основе больших языковых моделей и неспецифических предметных областей, ChatGPT (OpenAI), привлекла большое внимание. Хотя ИИ демонстрирует способность обрабатывать огромные массивы данных, практическое применение этих знаний остается сложной задачей.

Цель: (1) Какой процент вопросов Orthopaedic In-Training Examination может правильно ответить генеративный чат-бот на основе предварительно обученного трансформера (ChatGPT)? (2) Как этот показатель соотносится с результатами ординаторов-ортопедов разных уровней, и если результат ниже 10-го процентиля по сравнению с ординаторами 5-го года обучения, что, вероятно, соответствует неудовлетворительной оценке на письменном экзамене Американской коллегии хирургов-ортопедов, способен ли эта большая языковая модель сдать письменный экзамен по ортопедической хирургии? (3) Влияет ли усложнение таксономии вопросов на способность модели выбирать правильные ответы?

Методы: В исследование случайным образом отобрали 400 из 3840 общедоступных вопросов на основе Orthopaedic In-Training Examination и сравнили средний балл с результатами ординаторов, проходивших тест в течение 5-летнего периода. Вопросы с изображениями, схемами или диаграммами исключили, включая пять вопросов, на которые модель не смогла ответить, в результате чего 207 вопросов были предъявлены с регистрацией «сырых» баллов. Результаты ответов модели сравнивали с ранжированием ординаторов-ортопедов по Orthopaedic In-Training Examination. На основании данных предыдущего исследования порог прохождения/непрохождения был установлен на уровне 10-го процентиля. Затем отвеченные вопросы классифицировали по таксономии Баквальтера, основанной на воспроизведении знаний и включающей все более сложные уровни интерпретации и применения знаний; сравнивали результаты модели на разных таксономических уровнях, анализ проводили с использованием критерия хи-квадрат.

Результаты: ChatGPT правильно выбирал ответ в 47% случаев (97 из 207) и ошибался в 53% случаев (110 из 207). По данным ранее проведенного тестирования Orthopaedic In-Training Examination, модель оказалась на 40-м процентиле среди ординаторов 1-го года обучения (PGY1), на 8-м процентиле среди PGY2 и на 1-м процентиле среди PGY3, PGY4 и PGY5; исходя из этого результата (и при использовании заранее определенного порога в 10-й процентиль PGY5 как критерия прохождения), маловероятно, что модель сдала бы письменный экзамен. Эффективность модели снижалась с увеличением уровня таксономии вопросов: правильно были отвечены 54% (54 из 101) вопросов Tax 1, 51% (18 из 35) вопросов Tax 2 и 34% (24 из 71) вопросов Tax 3 (p = 0,034).

Выводы: Хотя вероятность сдачи письменного экзамена по ортопедической хирургии у этой универсальной большой языковой модели невысока, ее результаты тестирования и объем знаний сопоставимы с уровнем ординатора-ортопеда первого года обучения. Способность модели давать точные ответы снижается по мере роста таксономического уровня и сложности вопросов, что указывает на дефицит в практическом применении знаний.

Клиническая значимость: Современный ИИ, по-видимому, лучше справляется с вопросами, основанными на знании и интерпретации, и с учетом результатов этого исследования и других перспективных направлений может стать дополнительным инструментом в обучении ортопедов.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.