Оценка GPT как вспомогательного инструмента в принятии рентгенологического решения: GPT-4 против GPT-3.5 в пилотном исследовании по маммологической визуализации
Evaluating GPT as an Adjunct for Radiologic Decision Making: GPT-4 Versus GPT-3.5 in a Breast Imaging Pilot
Аннотация
Цель: Несмотря на растущую популярность и высокую эффективность, исследований, оценивающих использование больших языковых моделей для поддержки клинических решений, недостаточно. В настоящем исследовании оценивали способность ChatGPT (Generative Pre-trained Transformer) 3.5 и GPT-4 (OpenAI, Сан-Франциско, Калифорния) к поддержке клинических решений в радиологии путем выбора соответствующих методов визуализации для двух важных клинических ситуаций: скрининга рака молочной железы и боли в молочной железе.
Методы: Ответы ChatGPT сравнивали с критериями целесообразности Американского колледжа радиологии для боли в молочной железе и скрининга рака молочной железы. Форматы запросов включали открытый формат и формат «выберите все подходящие варианты». Критерии оценки определяли, соответствовали ли предложенные методы визуализации рекомендациям Американского колледжа радиологии. Для каждого запроса выполняли три повторные попытки, а для расчета итоговых баллов использовали среднее значение.
Результаты: И ChatGPT-3.5, и ChatGPT-4 достигли среднего балла 1,830 по 2-балльной шкале в открытом формате для запросов о скрининге рака молочной железы. ChatGPT-3.5 достиг средней доли правильных ответов 88,9% в формате «выберите все подходящие варианты», тогда как у ChatGPT-4 этот показатель составил 98,4% для запросов о скрининге рака молочной железы. При боли в молочной железе ChatGPT-3.5 набрал в среднем 1,125 из 2 в открытом формате и 58,3% правильных ответов в формате «выберите все подходящие варианты»; соответствующие показатели для ChatGPT-4 составили 1,666 из 2 и 77,7%.
Обсуждение: Полученные результаты демонстрируют возможную применимость больших языковых моделей, таких как ChatGPT, для принятия рентгенологических решений, что может улучшить клинический рабочий процесс и рациональное использование ресурсов радиологии. Для оценки и внедрения таких инструментов необходимы большее число сценариев применения и более высокая точность.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.