Научная статья

Диагностическая точность и достоверность цитирования четырёх больших языковых моделей на отоларингологических клинических виньетках

Diagnostic accuracy and citation integrity of four large language models on otolaryngology vignettes

European Archives of Oto-Rhino-Laryngology : Official Journal of the European Federation of Oto-Rhino-Laryngological Societies (EUFOS) : Affiliated with the German Society for Oto-Rhino-Laryngology - Head and Neck Surgery
10.1007/s00405-026-10253-5
Открыть в журнале PubMed
FWCI: 0.00FWCI — Field-Weighted Citation Impact (индекс цитируемости с поправкой на область науки). 1.0 = среднее, > 1 = выше среднего · Ссылки: 40 · Лицензия: Закрытая

Аннотация

Цели: В исследовании сравнивали диагностическую точность и достоверность цитирования четырёх больших языковых моделей (БЯМ), включая одну общую модель (ChatGPT-4) и три модели, предназначенные для клинического и исследовательского использования (OpenEvidence, Perplexity и Pathway), на стандартизированных отоларингологических клинических виньетках.

Методы: Каждой БЯМ предложили 100 валидированных клинических виньеток по оториноларингологии с запросом на формулировку диагноза и подтверждающих ссылок. Диагностическую точность оценивали по сравнению с эталонными ответами, а ошибки классифицировали как логические, информационные или явные. Также сравнивали число цитат, тип источников, частоту галлюцинаций и показатели CiteScore журналов.

Результаты: Все модели продемонстрировали высокую диагностическую точность (82,0–91,0%); наибольшая численная точность была у ChatGPT-4 (91,0%), однако различия между моделями не достигли статистической значимости (p = 0,057). Наиболее частыми у всех моделей были логические ошибки. OpenEvidence и Perplexity выдавали наибольшее число цитат на ответ, тогда как ChatGPT-4 — наименьшее и при этом имел самую высокую частоту галлюцинаций (23,0%). Предпочтения в источниках различались: OpenEvidence и Pathway чаще опирались на обзорные статьи, а Perplexity — на сайты государственных и общественно-здравоохранительных организаций. У OpenEvidence средний CiteScore журналов, на которые он ссылался, был самым высоким.

Выводы: Это первое исследование, в котором оценивали одновременно диагностическую точность и достоверность цитирования БЯМ в оториноларингологии. Хотя ChatGPT-4 оказался наиболее точным, у него была и наибольшая частота фиктивных ссылок, что указывает на компромисс между точностью и надёжностью источников. OpenEvidence был немного менее точным, но предоставлял более последовательные и проверяемые ссылки, что показывает возможность сочетать достоверность цитирования с диагностической эффективностью при клинической интеграции.

Переведем эту статью за 1 час

Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.

Попробовать бесплатно →

Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.