Логотип Гарвардської медичної школи. Джерело: hms.harvard.edu
У новому дослідженні, опублікованому в журналі Science, великі мовні моделі показали вищу або співставну точність діагностики у відділенні невідкладної допомоги порівняно з лікарями.
Що відомо
Роботу провела команда дослідників з Гарвардської медичної школи та медичного центру Beth Israel Deaconess. Вони перевіряли, як моделі OpenAI, зокрема o1 та 4o, справляються з медичними кейсами, використовуючи реальні дані пацієнтів.
В одному з експериментів було проаналізовано 76 випадків звернення пацієнтів до відділення невідкладної допомоги. Два лікарі-інтерністи формували діагнози паралельно з моделями ШІ. Після цього інші два лікарі, які не знали, де відповіді людини, а де ШІ, оцінювали точність діагнозів.
За результатами модель o1 на кожному етапі діагностики або перевершувала, або була на рівні з лікарями та моделлю 4o. Найбільша різниця спостерігалась на етапі первинного сортування пацієнтів у відділенні невідкладної допомоги, коли інформації про стан найменше, а рішення потрібно ухвалювати швидко.
У випадках тріажу o1 давав точний або близький до правильного діагноз у 67%
випадків. Для порівняння один лікар досягав 55% точності, інший 50%.
Дослідники підкреслили, що дані не проходили попередньої обробки, а моделі працювали з тією ж інформацією з електронних медичних карт, що була доступна лікарям у реальному часі.
Попри результати, автори наголошують, що це не означає готовності ШІ до самостійних клінічних рішень. Йдеться радше про потребу у подальших проспективних випробуваннях у реальних умовах медицини.
Лікарі також застерігають, що наразі відсутня чітка система відповідальності за медичні рішення, згенеровані ШІ, а пацієнти все ще потребують участі людини у критичних рішеннях.
Джерело: Science