Обеспокоенность по поводу “ преувеличенных ” утверждений исследований об эффективности ИИ над врачами: вводящие в заблуждение утверждения разжигают шумиху и создают риск для безопасности пациентов, предупреждают исследователи

Их выводы вызывают озабоченность по поводу качества доказательств, лежащих в основе многих из этих исследований, и подчеркивают необходимость улучшения их дизайна и стандартов отчетности.
Искусственный интеллект (ИИ) – это инновационная и быстро развивающаяся область, способная улучшить уход за пациентами и облегчить перегрузку медицинских услуг.

Глубокое обучение – это отрасль искусственного интеллекта, которая показала особые перспективы в области медицинской визуализации.
Объем опубликованных исследований по глубокому обучению растет, и некоторые заголовки в СМИ, в которых утверждается, что врачи заявляют о превосходных результатах, разожгли шумиху о быстром внедрении.

Но методы и риск предвзятости исследований, стоящих за этими заголовками, подробно не исследовались.
Чтобы решить эту проблему, группа исследователей проанализировала результаты опубликованных исследований за последние 10 лет, сравнив эффективность алгоритма глубокого обучения в медицинской визуализации с опытными клиницистами.
Они нашли всего два подходящих рандомизированных клинических испытания и 81 нерандомизированное исследование.

Из нерандомизированных исследований только девять были проспективными (отслеживание и сбор информации о людях с течением времени) и только шесть были протестированы в «реальных» клинических условиях.
Среднее количество людей-экспертов в группе сравнения составляло всего четыре человека, в то время как доступ к необработанным данным и коду (чтобы позволить независимую проверку результатов) был сильно ограничен.
Более двух третей (58 из 81) исследований были признаны подверженными высокому риску систематической ошибки (проблемы в дизайне исследования, которые могут повлиять на результаты), а соблюдение признанных стандартов отчетности часто было низким.
Три четверти (61 исследование) заявили, что эффективность ИИ была по крайней мере сопоставима (или лучше) с показателями врачей, и только 31 (38%) заявили, что необходимы дальнейшие проспективные исследования или испытания.

Исследователи указывают на некоторые ограничения, такие как возможность пропущенных исследований и акцент на исследованиях медицинской визуализации с глубоким обучением, поэтому результаты могут не применяться к другим типам ИИ.
Тем не менее, они говорят, что в настоящее время «существует множество предположительно преувеличенных заявлений об эквивалентности (или превосходстве над) клиницистами, что представляет собой потенциальный риск для безопасности пациентов и здоровья населения на уровне общества."
Слишком многообещающие формулировки «делают исследования уязвимыми для неправильного толкования средствами массовой информации и общественности, и, как следствие, к возможному оказанию ненадлежащей помощи, которая не обязательно соответствует наилучшим интересам пациентов», – предупреждают они.

«Повышению безопасности пациентов лучше всего будет способствовать развитие высококачественной и прозрачной доказательной базы», ​​- заключают они.