Диагностическая точность большой языковой модели ChatGPT-4o при интерпретации КТ околоносовых пазух при хроническом риносинусите
Diagnostic Performance of a Large Language Model (ChatGPT-4o) in Chronic Rhinosinusitis CT Scan Interpretation
Аннотация
Введение: Большие языковые модели, такие как ChatGPT, все чаще используют врачи для поддержки клинических решений из-за их простоты и универсальности. Однако их работа в диагностической визуализации изучена недостаточно. В этом проспективном исследовании оценивали способность ChatGPT интерпретировать компьютерные томограммы околоносовых пазух при хроническом риносинусите с оценкой радиолога в качестве эталона.
Методы: В проспективном когортном исследовании 102 корональные КТ-среза околоносовых пазух оценивали сертифицированный радиолог и ChatGPT-4o. Каждый снимок записывали с экрана и дважды загружали в ChatGPT для оценки воспроизводимости, в результате чего получили 306 интерпретаций. Радиолог анализировал те же записи экрана, что и ChatGPT. Оба оценщика определяли 11 заранее заданных бинарных анатомических признаков и рассчитывали баллы по шкале Lund-Mackay. Диагностическую точность оценивали с использованием стандартных показателей точности, а согласованность между оценщиками — с помощью общепринятых коэффициентов надежности.
Результаты: ChatGPT показал вариабельные результаты по анатомическим признакам. Чувствительность варьировала от 0,00 до 0,89, специфичность — от 0,26 до 0,95. Наиболее высокой чувствительностью модель отличалась для утолщения слизистой оболочки (0,84) и расширения пазухи (0,73), а также демонстрировала хорошее согласие с радиологом по отношению к бумажной пластинке решетчатой кости (AC1 = 0,92) и передней решетчатой артерии (AC1 = 0,77). Однако для уровней «воздух-жидкость» и истончения кости результаты были плохими. Согласованность с радиологом по большинству признаков была низкой (AC1 < 0,4 в 82% переменных), а воспроизводимость между запусками ChatGPT была ограниченной (средний AC1 = 0,29). Корреляция между запусками для баллов Lund-Mackay была слабой (0,11), а согласованность с радиологом — плохой (ICC < 0,07).
Выводы: ChatGPT частично способен выявлять отдельные КТ-признаки со стороны околоносовых пазух, однако общей диагностической согласованностью не обладает. Визуализация по-прежнему требует участия радиолога, а клиническое применение больших языковых моделей в диагностической визуализации должно быть осторожным.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры и база международных клинреков по оториноларингологии.