Диагностическая точность и достоверность цитирования четырёх больших языковых моделей на отоларингологических клинических виньетках
Diagnostic accuracy and citation integrity of four large language models on otolaryngology vignettes
Аннотация
Цели: В исследовании сравнивали диагностическую точность и достоверность цитирования четырёх больших языковых моделей (БЯМ), включая одну общую модель (ChatGPT-4) и три модели, предназначенные для клинического и исследовательского использования (OpenEvidence, Perplexity и Pathway), на стандартизированных отоларингологических клинических виньетках.
Методы: Каждой БЯМ предложили 100 валидированных клинических виньеток по оториноларингологии с запросом на формулировку диагноза и подтверждающих ссылок. Диагностическую точность оценивали по сравнению с эталонными ответами, а ошибки классифицировали как логические, информационные или явные. Также сравнивали число цитат, тип источников, частоту галлюцинаций и показатели CiteScore журналов.
Результаты: Все модели продемонстрировали высокую диагностическую точность (82,0–91,0%); наибольшая численная точность была у ChatGPT-4 (91,0%), однако различия между моделями не достигли статистической значимости (p = 0,057). Наиболее частыми у всех моделей были логические ошибки. OpenEvidence и Perplexity выдавали наибольшее число цитат на ответ, тогда как ChatGPT-4 — наименьшее и при этом имел самую высокую частоту галлюцинаций (23,0%). Предпочтения в источниках различались: OpenEvidence и Pathway чаще опирались на обзорные статьи, а Perplexity — на сайты государственных и общественно-здравоохранительных организаций. У OpenEvidence средний CiteScore журналов, на которые он ссылался, был самым высоким.
Выводы: Это первое исследование, в котором оценивали одновременно диагностическую точность и достоверность цитирования БЯМ в оториноларингологии. Хотя ChatGPT-4 оказался наиболее точным, у него была и наибольшая частота фиктивных ссылок, что указывает на компромисс между точностью и надёжностью источников. OpenEvidence был немного менее точным, но предоставлял более последовательные и проверяемые ссылки, что показывает возможность сочетать достоверность цитирования с диагностической эффективностью при клинической интеграции.
Переведем эту статью за 1 час
Загрузите PDF, а мы сделаем краткий конспект, красивую инфографику и завернем в PDF.
Попробовать бесплатно →Также в Подтеме: еженедельные литобзоры, база международных клинреков и конспекты свежих мед. статей и подкастов каждый день.