ChatGPT nie zdał polskiego egzaminu z chorób wewnętrznych. Sztuczna inteligencja nie zastąpi lekarzy

Q: Z jakimi pytaniami najgorzej poradziła sobie sztuczna inteligencja?

Sztuczna inteligencja najgorszej wypadła pytaniach z zakresu pulmonologii (46.71 proc.), diabetologii (45.1 proc.) i kardiologii (43.72 proc.).

Data aktualizacji: 22 października 2024

~ 3 minuty czytania

Autor: Piotr Brzózka - dziennikarz wyróżniony w konkursie Dziennikarz Medyczny Roku 2023

Chat GPT oblał egzamin specjalizacyjny z „interny”. Naukowcy z Uniwersytetu Mikołaja Kopernika w Toruniu udowodnili, że sztuczna inteligencja nie jest w stanie zastąpić ludzkiego umysłu w dziedzinie medycyny. Jeśli zatem są grupy zawodowe, które nie muszą się obawiać konkurencji ze strony AI, niewątpliwie należą do nich lekarze. Póki co.

Sztuczna inteligencja wykorzystywana w medycynie

Źródło: 123RF

W skrócie

Polscy naukowcy sprawdzili, czy ChatGPT może zastąpić lekarzy.
Sztuczna inteligencja nie zaliczyła egzaminu specjalizacyjnego z chorób wewnętrznych.
AI najlepiej poradziła sobie z pytaniami z alergologii, najgorzej - kardiologii.

Spis treści

ChatGPT to narzędzie rozwijane od kilku lat przez laboratorium OpenAI z San Francisco w USA. Generując teksty odpowiadające na dowolne niemal zapytania, sztuczna inteligencja jest w stanie wykonywać coraz bardziej zaawansowane zadania. Z jej możliwości już dziś korzysta wiele branż, w tym także medycyna.

AI wspiera lekarzy między innymi w diagnostyce chorób nowotworowych i skomplikowanych urazów, naukowcom pomaga w pracy nad nowymi lekami. Liczne eksperymenty prowadzone w ostatnim czasie na świecie pokazują, że ChatGPT jest coraz bliższy doskonałości. Wciąż jednak ma bardzo poważne ograniczenia, które na dziś nie pozwalają traktować go jako realnej alternatywy dla lekarzy. Dowiedli tego właśnie polscy uczeni.

Reklama

Jak wypadł ChatGPT na egzaminie specjalizacyjnym z interny?

Naukowcy z Collegium Medicum Uniwersytetu im. Mikołaja Kopernika postanowili przetestować ChatGPT sprawdzając, jak sztuczna inteligencja poradzi sobie z egzaminem specjalizacyjnym z „interny”, czyli działu medycyny zajmującego się schorzeniami narządów wewnętrznych, uznawanego za „królową nauk o zdrowiu”. Wniosek płynący z badania można streścić jednym zdaniem: Chat egzamin po prostu nie zdał.

- Było zaledwie kilka dziedzin, mniejszych gałęzi tego egzaminu, w których wyniki sztucznej inteligencji były w miarę akceptowalne, ale w dalszym ciągu gorsze od wyników ludzkich - mówi dr Szymon Suwała z Katedry Endokrynologii i Diabetologii Wydziału Lekarskiego Collegium Medicum UMK, jeden z autorów eksperymentu.

Rezygnując z części ustnej, naukowcy poddali narzędzie opracowane przez OpenAI egzaminowi pisemnemu, dodatkowo usuwając z niego zadania niewykonalne z powodów technicznych, czyli na przykład zawierające obrazki lub elementy powiązane logicznie z innymi pytaniami.

Łącznie w 10 sesjach ChatGPT otrzymał 1191 pytań. W żadnym przypadku nie udało się osiągnąć progu 60 procent poprawnych odpowiedzi, który na prawdziwym egzaminie pozwala lekarzowi uzyskać specjalizację bez konieczności stawania przed komisją i odpowiadania ustnie. Odpowiedzi poprawne uzyskane przez AI mieściły się w przedziale pomiędzy 47,5 a 53,3 procent (średnio 49,37 proc.). To znacznie poniżej dopuszczalnego pułapu i przeciętnych wyników notowanych przez lekarzy podchodzących do tych samych zadań.

Sztuczna inteligencja najlepiej radziła sobie z pytaniami z dziedziny alergologii (71.43 procent prawidłowych odpowiedzi) i chorób zakaźnych (55.26 proc.), najgorszej zaś w pytaniach z zakresu pulmonologii (46.71 proc.), diabetologii (45.1 proc.) i kardiologii (43.72 proc.).

Bardziej szczegółowa analiza wykazała, że ChatGPT odpowiedział poprawnie na 52,88 procent pytań o prostej konstrukcji i tylko 29,38 procent bardziej złożonych. Tego typu dysproporcję stwierdza się także w przypadku faktycznie odbywających się egzaminów specjalizacyjnych z „interny”, jednak u lekarzy jest ona zdecydowanie mniejsza, a uzyskiwane wyniki są znacząco lepsze (przeciętnie odpowiednio 70,16 oraz 66,39 procent).

Reklama

ChatGPT zdał egzamin lekarski w USA. Czy może zastąpić lekarzy?

Co ciekawe, inspiracją do wykonania badania przeprowadzonego w Polsce, był niedawny sukces ChatGPT w innym wyzwaniu o zbliżonym charakterze. Chodzi o egzamin USMLE (United States Medical Licensing Examination), będący trzyetapowym sprawdzianem dla przyszłych lekarzy, którzy chcą podjąć pracę w USA - jego zaliczenie pozwala uzyskać licencję na wykonywanie zawodu w Stanach. Sztuczna inteligencja zaliczyła ten egzamin, choć nie na szczególnie wysokim poziomie.

Inne eksperymenty, przeprowadzone w Europie wykazały, że Chat GPT był w stanie poradzić sobie również z egzaminami z kardiologii oraz okulistyki, aczkolwiek oblał testy z gastroenterologii czy ortopedii. Wszystko to pokazuje, że AI ma ogromny potencjał, jeśli chodzi o zastosowanie w medycynie, jednak droga do tego, by sztuczna inteligencja mogła zastąpić człowieka jest wciąż bardzo daleka.

- Nauki medyczne, wbrew pozorom, nie są naukami ścisłymi. One mają więcej wspólnego z naukami humanistycznymi. Nie bez kozery mówi się o sztuce lekarskiej. Bardzo często mając kontakt z pacjentem, widzimy pewne niuanse, których sztuczna inteligencja może nie zauważyć. Często mówimy studentom, że choroby książek nie czytają - komentuje dr Szymon Suwała z Collegium Medicum UMK.

Naukowiec zauważa, że pacjent może cierpieć na kilka różnych chorób, może mieć kilka innych schorzeń, może być genetycznie inaczej zbudowany niż ogół populacji. - I nagle się okazuje, że choroba, która wydawała się prosta, logiczna, dokładnie opisana, przebiega u pacjenta zupełnie inaczej. Czy sztuczna inteligencja będzie w stanie połączyć wszystkie składowe? Być może w przyszłości tak, natomiast nie sądzę, żeby to była kwestia najbliższych dni, tygodni, miesięcy czy nawet lat. Myślę, że to będą dekady - podkreśla dr Suwała.

Czytaj również

Sztuczna inteligencja w medycynie: przyszłość diagnostyki

Bibliografia

Szymon Suwała i inni, ChatGPT fails the Polish board certification examination in internal medicine: artificial intelligence still has much to learn, Pol Arch Intern Med. 2023.
Marcin Behrendt, ChatGPT oblał egzamin z
Lekarz internista versus ChatGPT, https://www.cm.umk.pl/aktualnosci-2/6469-lekarz-internista-versus-chatgpt.html, [data dostępu: 16.04.2024].

Artykuł napisany przez

Piotr Brzózka - dziennikarz wyróżniony w konkursie Dziennikarz Medyczny Roku 2023

Dziennikarz wyróżniony w konkursie "Dziennikarz Medyczny Roku 2023". Autor tysięcy publikacji o tematyce medycznej, ekonomicznej, politycznej i społecznej. Przez 15 lat związany z Dziennikiem Łódzkim i Polska TheTimes. Z wykształcenia socjolog stosunków politycznych, absolwent Wydziału Ekonomiczno-Socjologicznego Uniwersytetu Łódzkiego. Po godzinach fotografuje, projektuje, maluje, tworzy muzykę.

Pokaż więcej