Ограничения моделей искусственного интеллекта для диагностики рака кожи в реальных условиях
Limits of Artificial Intelligence Models for Skin Cancer Diagnosis in Realistic Settings
Аннотация
Значимость: Системы искусственного интеллекта для выявления рака кожи хорошо работают в контролируемых условиях, но в повседневной клинической практике нередко уступают ожиданиям, что ставит под вопрос их готовность к внедрению.
Цель: Сравнить точность диагностики алгоритмов искусственного интеллекта и врачей разных уровней подготовки при распознавании кожных новообразований, включая редкие и атипичные случаи, в реалистичном клиническом контексте.
Дизайн, условия проведения и участники: Многоцентровое диагностическое исследование, в котором сравнивали диагностическую эффективность моделей искусственного интеллекта и врачей-дерматологов с разным стажем — от менее 1 года до более 10 лет. Использовали набор дерматологических изображений, отражающих повседневные клинические ситуации; в него вошли 1117 случаев, включая клинические и дерматоскопические изображения с соответствующими метаданными. В исследование включали данные с 16 марта 2023 года по 1 августа 2025 года.
Воздействие: Три алгоритма искусственного интеллекта: сверточная нейронная сеть первого поколения и 2 фундаментальные модели — PanDerm, моно- и мультимодальная. Врачи оценивали 100 стратифицированных случайных случаев из того же набора данных.
Основные исходы и методы оценки: Первичным исходом была многоклассовая точность диагностики на уровне каждого респондента при классификации кожных поражений. Вторичные исходы включали чувствительность, специфичность и сбалансированную точность для бинарного деления на доброкачественные и злокачественные образования. Сравнивали результаты алгоритмов искусственного интеллекта и врачей с учетом уровня опыта.
Результаты: В исследовании участвовали 652 врача (медиана возраста [межквартильный размах] — 33 [29–37] года; 559 [85,7%] — женщины), которые выполнили 1092 итерации тестирования. Все врачи превосходили сверточную нейронную сеть по точности (средняя [SD] точность 65,9% [10,5%] против 56,7% [3,9%]; разница 9,2 процентного пункта [п.п.]; 95% ДИ, от -9,8 до 8,5 п.п.; P < 0,001). Точность моно-модальной модели была выше, чем у врачей со стажем менее 3 лет (средняя [SD] точность 72,2% [3,5%] против 68,2% [7,6%]; разница 4,0 п.п.; 95% ДИ, 3,2–4,9 п.п.; P < 0,001). Врачи-эксперты со стажем более 10 лет достигли наивысшей многоклассовой точности диагностики — в среднем 74,2% (5,7%), превзойдя все модели искусственного интеллекта по этому первичному конечному пункту: 56,7% (3,9%) для сверточной нейронной сети, 72,2% (3,5%) для моно-модальной модели и 66,3% (3,8%) для мультимодальной модели.
Выводы и значимость: В этом диагностическом исследовании современная фундаментальная модель превзошла врачей со стажем менее 3 лет по точности диагностики кожных поражений и была сопоставима с врачами со стажем 3–10 лет, но оставалась хуже экспертов со стажем более 10 лет, что подчеркивает как перспективы, так и текущие ограничения искусственного интеллекта в дерматологической диагностике.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры и база международных клинреков по дерматологии.