Научная статья

Может ли искусственный интеллект сдать экзамен Американской коллегии хирургов-ортопедов? Ординаторы-ортопеды против ChatGPT

Can Artificial Intelligence Pass the American Board of Orthopaedic Surgery Examination? Orthopaedic Residents Versus ChatGPT

Clinical Orthopaedics and Related Research

23 мая 2023 Lum Z.C. Открытый доступ

10.1097/CORR.0000000000002704

Полный текст Открыть в журнале PubMed PMC

FWCI: 5.01 · Процитировано: 143 · Ссылки: 14 · Лицензия: Неизвестна

Цитирование по годам: 2026: 11 · 2025: 52 · 2024: 69 · 2023: 16

Введение: В последние годы достигнут значительный прогресс в области нейронных сетей, глубокого обучения и искусственного интеллекта (ИИ). Ранее системы ИИ на основе глубокого обучения строились вокруг узкоспециализированных областей и обучались на данных конкретных наборов признаков, что обеспечивало высокую точность и воспроизводимость. Новая модель ИИ на основе больших языковых моделей и неспецифических предметных областей, ChatGPT (OpenAI), привлекла большое внимание. Хотя ИИ демонстрирует способность обрабатывать огромные массивы данных, практическое применение этих знаний остается сложной задачей.

Цель: (1) Какой процент вопросов Orthopaedic In-Training Examination может правильно ответить генеративный чат-бот на основе предварительно обученного трансформера (ChatGPT)? (2) Как этот показатель соотносится с результатами ординаторов-ортопедов разных уровней, и если результат ниже 10-го процентиля по сравнению с ординаторами 5-го года обучения, что, вероятно, соответствует неудовлетворительной оценке на письменном экзамене Американской коллегии хирургов-ортопедов, способен ли эта большая языковая модель сдать письменный экзамен по ортопедической хирургии? (3) Влияет ли усложнение таксономии вопросов на способность модели выбирать правильные ответы?

Методы: В исследование случайным образом отобрали 400 из 3840 общедоступных вопросов на основе Orthopaedic In-Training Examination и сравнили средний балл с результатами ординаторов, проходивших тест в течение 5-летнего периода. Вопросы с изображениями, схемами или диаграммами исключили, включая пять вопросов, на которые модель не смогла ответить, в результате чего 207 вопросов были предъявлены с регистрацией «сырых» баллов. Результаты ответов модели сравнивали с ранжированием ординаторов-ортопедов по Orthopaedic In-Training Examination. На основании данных предыдущего исследования порог прохождения/непрохождения был установлен на уровне 10-го процентиля. Затем отвеченные вопросы классифицировали по таксономии Баквальтера, основанной на воспроизведении знаний и включающей все более сложные уровни интерпретации и применения знаний; сравнивали результаты модели на разных таксономических уровнях, анализ проводили с использованием критерия хи-квадрат.

Результаты: ChatGPT правильно выбирал ответ в 47% случаев (97 из 207) и ошибался в 53% случаев (110 из 207). По данным ранее проведенного тестирования Orthopaedic In-Training Examination, модель оказалась на 40-м процентиле среди ординаторов 1-го года обучения (PGY1), на 8-м процентиле среди PGY2 и на 1-м процентиле среди PGY3, PGY4 и PGY5; исходя из этого результата (и при использовании заранее определенного порога в 10-й процентиль PGY5 как критерия прохождения), маловероятно, что модель сдала бы письменный экзамен. Эффективность модели снижалась с увеличением уровня таксономии вопросов: правильно были отвечены 54% (54 из 101) вопросов Tax 1, 51% (18 из 35) вопросов Tax 2 и 34% (24 из 71) вопросов Tax 3 (p = 0,034).

Выводы: Хотя вероятность сдачи письменного экзамена по ортопедической хирургии у этой универсальной большой языковой модели невысока, ее результаты тестирования и объем знаний сопоставимы с уровнем ординатора-ортопеда первого года обучения. Способность модели давать точные ответы снижается по мере роста таксономического уровня и сложности вопросов, что указывает на дефицит в практическом применении знаний.

Клиническая значимость: Современный ИИ, по-видимому, лучше справляется с вопросами, основанными на знании и интерпретации, и с учетом результатов этого исследования и других перспективных направлений может стать дополнительным инструментом в обучении ортопедов.

ChatGPT в ортопедииписьменный экзамен ортопедовординаторы-ортопедытаксономия Баквальтераприменение знанийбольшие языковые моделиискусственный интеллект в обучении

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.

Может ли искусственный интеллект сдать экзамен Американской коллегии хирургов-ортопедов? Ординаторы-ортопеды против ChatGPT

Аннотация

Переведем эту статью за 1 час

Похожие статьи

Недавнее из этого журнала