Научная статья

Оценка GPT как вспомогательного инструмента в принятии рентгенологического решения: GPT-4 против GPT-3.5 в пилотном исследовании по маммологической визуализации

Evaluating GPT as an Adjunct for Radiologic Decision Making: GPT-4 Versus GPT-3.5 in a Breast Imaging Pilot

Journal of the American College of Radiology : JACR
10.1016/j.jacr.2023.05.003
Полный текст Открыть в журнале PubMed PMC
FWCI: 9.65FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Процитировано: 210 · Ссылки: 32 · Лицензия: Закрытая
Цитирование по годам: 2026: 20 · 2025: 78 · 2024: 117 · 2023: 57

Аннотация

Цель: Несмотря на растущую популярность и высокую эффективность, исследований, оценивающих использование больших языковых моделей для поддержки клинических решений, недостаточно. В настоящем исследовании оценивали способность ChatGPT (Generative Pre-trained Transformer) 3.5 и GPT-4 (OpenAI, Сан-Франциско, Калифорния) к поддержке клинических решений в радиологии путем выбора соответствующих методов визуализации для двух важных клинических ситуаций: скрининга рака молочной железы и боли в молочной железе.

Методы: Ответы ChatGPT сравнивали с критериями целесообразности Американского колледжа радиологии для боли в молочной железе и скрининга рака молочной железы. Форматы запросов включали открытый формат и формат «выберите все подходящие варианты». Критерии оценки определяли, соответствовали ли предложенные методы визуализации рекомендациям Американского колледжа радиологии. Для каждого запроса выполняли три повторные попытки, а для расчета итоговых баллов использовали среднее значение.

Результаты: И ChatGPT-3.5, и ChatGPT-4 достигли среднего балла 1,830 по 2-балльной шкале в открытом формате для запросов о скрининге рака молочной железы. ChatGPT-3.5 достиг средней доли правильных ответов 88,9% в формате «выберите все подходящие варианты», тогда как у ChatGPT-4 этот показатель составил 98,4% для запросов о скрининге рака молочной железы. При боли в молочной железе ChatGPT-3.5 набрал в среднем 1,125 из 2 в открытом формате и 58,3% правильных ответов в формате «выберите все подходящие варианты»; соответствующие показатели для ChatGPT-4 составили 1,666 из 2 и 77,7%.

Обсуждение: Полученные результаты демонстрируют возможную применимость больших языковых моделей, таких как ChatGPT, для принятия рентгенологических решений, что может улучшить клинический рабочий процесс и рациональное использование ресурсов радиологии. Для оценки и внедрения таких инструментов необходимы большее число сценариев применения и более высокая точность.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.