Научная статья

Диагностическая точность большой языковой модели ChatGPT-4o при интерпретации КТ околоносовых пазух при хроническом риносинусите

Diagnostic Performance of a Large Language Model (ChatGPT-4o) in Chronic Rhinosinusitis CT Scan Interpretation

Laryngoscope Investigative Otolaryngology
10.1002/lio2.70433
Полный текст Открыть в журнале PubMed PMC
FWCI: 0.00FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Ссылки: 13 · Лицензия: CC-BY-NC-ND

Аннотация

Введение: Большие языковые модели, такие как ChatGPT, все чаще используют врачи для поддержки клинических решений из-за их простоты и универсальности. Однако их работа в диагностической визуализации изучена недостаточно. В этом проспективном исследовании оценивали способность ChatGPT интерпретировать компьютерные томограммы околоносовых пазух при хроническом риносинусите с оценкой радиолога в качестве эталона.

Методы: В проспективном когортном исследовании 102 корональные КТ-среза околоносовых пазух оценивали сертифицированный радиолог и ChatGPT-4o. Каждый снимок записывали с экрана и дважды загружали в ChatGPT для оценки воспроизводимости, в результате чего получили 306 интерпретаций. Радиолог анализировал те же записи экрана, что и ChatGPT. Оба оценщика определяли 11 заранее заданных бинарных анатомических признаков и рассчитывали баллы по шкале Lund-Mackay. Диагностическую точность оценивали с использованием стандартных показателей точности, а согласованность между оценщиками — с помощью общепринятых коэффициентов надежности.

Результаты: ChatGPT показал вариабельные результаты по анатомическим признакам. Чувствительность варьировала от 0,00 до 0,89, специфичность — от 0,26 до 0,95. Наиболее высокой чувствительностью модель отличалась для утолщения слизистой оболочки (0,84) и расширения пазухи (0,73), а также демонстрировала хорошее согласие с радиологом по отношению к бумажной пластинке решетчатой кости (AC1 = 0,92) и передней решетчатой артерии (AC1 = 0,77). Однако для уровней «воздух-жидкость» и истончения кости результаты были плохими. Согласованность с радиологом по большинству признаков была низкой (AC1 < 0,4 в 82% переменных), а воспроизводимость между запусками ChatGPT была ограниченной (средний AC1 = 0,29). Корреляция между запусками для баллов Lund-Mackay была слабой (0,11), а согласованность с радиологом — плохой (ICC < 0,07).

Выводы: ChatGPT частично способен выявлять отдельные КТ-признаки со стороны околоносовых пазух, однако общей диагностической согласованностью не обладает. Визуализация по-прежнему требует участия радиолога, а клиническое применение больших языковых моделей в диагностической визуализации должно быть осторожным.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры и база международных клинреков по оториноларингологии.