Модели машинного обучения для неинвазивной триажной оценки женщин с подозрением на эндометриоз на основе когорты, в которой диагноз верифицирован лапароскопически и гистологически
Machine learning models for non-invasive endometriosis triage using a laparoscopically and histologically verified cohort
Аннотация
Цель: разработать и провести внутреннюю валидацию моделей машинного обучения для неинвазивной триажной оценки женщин с риском эндометриоза на основе структурированных клинических переменных в когорте, верифицированной лапароскопически и гистологически.
Дизайн исследования: в ретроспективное исследование включили 2546 женщин, которым в 2008–2023 годах выполнена лапароскопическая операция в двух третичных референсных центрах в Сан-Паулу, Бразилия. Эндометриоз подтвердили у 1983 пациенток, у 563 контрольных больных его не было; это соответствовало обогащенной распространенности заболевания в условиях третичной помощи 77,9%. Сравнивали две стратегии отбора признаков: отбор, основанный на клинической оценке, и статистически оптимизированный отбор. Предобработку, отбор признаков, масштабирование MinMax и метод синтетического увеличения меньшинства (SMOTE) выполняли в рамках обучающего контура стратифицированной 10-кратной перекрестной проверки, чтобы минимизировать утечку информации. Основными показателями эффективности были F1-мера, полнота, положительная прогностическая ценность (PPV), отрицательная прогностическая ценность (NPV) и AUC-ROC; точность приводили только как вторичный показатель.
Результаты: статистически оптимизированный отбор признаков обеспечил небольшое, но устойчивое улучшение дискриминации и F1-меры у большинства моделей. Наилучший F1-score в анализе со статистически оптимизированным отбором показала модель XGBoost: 0,916 (95% ДИ 0,909–0,922), при полноте 0,932 (95% ДИ 0,921–0,943), PPV 0,900 (95% ДИ 0,894–0,906), NPV 0,730 (95% ДИ 0,700–0,761) и AUC-ROC 0,895 (95% ДИ 0,887–0,904). Наивысшую PPV показала ансамблевая модель: 0,924 (95% ДИ 0,899–0,947). Наиболее информативными переменными были бесплодие, дисменорея, выраженность боли, циклическая кишечная боль, патологические данные влагалищного исследования, число сообщаемых заболеваний и характеристики менструальной кровопотери.
Выводы: модели машинного обучения на основе структурированных клинических переменных могут помочь в неинвазивной триажной оценке женщин с риском эндометриоза. Ценность обновленной схемы — в использовании клинически верифицированной когорты, прозрачного отбора признаков и внутренней валидации с учетом утечки данных, а не в исключении диагностически сложных случаев. Поскольку исследование было ретроспективным, внутренне валидированным в третичных референсных центрах с обогащенной распространенностью заболевания, до внедрения необходимы внешняя валидация, локальная калибровка и проспективная оценка клинической полезности.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем полный перевод, краткий конспект и красивую инфографику.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры и база международных клинреков по акушерству и гинекологии.