DÅRLIGERE RESULTATER: Forskning viser at kunstig intelligens er utsatt for feil som gjør at beslutninger blir dårligere etter hvert.

Foto: Elnur / Shutterstock / NTB

Kunstig intelligens i norske pasientjournaler –når maskinene hallusinerer

Vår tro på at KI-modeller bare blir bedre når vi forer dem med mer data, er feil.

Diba Ainechi medisinstudent, Universitetet i Oslo

Natalie Halvorsen lege og PhD stipendiat, Universitetet i Oslo og Oslo universitetssykehus

Yuichi Mori professor og lege, Universitetet i Oslo og Oslo universitetssykehus

Michael Bretthauer professor og overlege, Universitetet i Oslo og Oslo universitetssykehus

Publisert 10.11.2023 - 09:15

Annonse kun for helsepersonell

PÅ FÅ ÅR har bruken av kunstig intelligens (KI) som beslutningsverktøy for leger og andre helsearbeidere gått fra fantasi til virkelighet. Det er stor entusiasme for KI hos mange teknologer og helsearbeidere.

Det amerikanske teknologikonsernet Epic, som eier journalsystemet bak Helseplattformen i Helse Midt-Norge, er en pådriver for KI i pasientjournaler. I USA har Epic allerede tatt i bruk KI i beslutningsverktøy som direkte fores med pasientdata for å predikere hvilke pasienter som har høy risiko for komplikasjoner og død.

Her hjemme skriver Helseplattformen AS på sine nettsider at de jobber aktivt med å etablere de samme KI-modeller i journalsystemet i Midt-Norge. Ny forskning advarer nå om hallusinering av KI i elektroniske pasientjournaler.

KI I NORSKE PASIENTJOURNALER. Ny forskning publisert 10. oktober i et av verdens store medisinske tidsskrifter, Annals of Internal Medicine, viser at KI-modellene i pasientjournaler ikke er så gode som mange håpet på. Mest alvorlig er det at KI fungerer dårligere med tiden (hittil hadde man antatt at mer trening gjør KI bedre over tid).

Annonse kun for helsepersonell

Forskerne brukte data fra 130.000 pasienter ved to store sykehus i Boston og New York. KI-verktøyet i pasientjournalen som skulle forutsi død eller nyresvikt hos pasienter på intensivavdeling, tok i økende grad feil om hvilken pasient som var dårligst. I en lederartikkel advarer forskere fra Johns Hopkins universitetet i Baltimore mot at KI kan «drift off», som betyr at KI forteller sannheten i mindre og mindre grad jo lengre det brukes.

« DRIFT » OG HALLUSINERING. I praksis fungerer KI-beslutningsverktøyet slik at legen får en advarsel på PC-skjermen med oppfordring om å flytte ressurser og prioriteringer fra én pasient til en annen, basert på KI-en sine antagelser om hvem som er dårligst.

Legen vet ikke hvorfor KI-en for eksempel mener at Olsen har høyere risiko for å få hjerteinfarkt enn Hansen og bør prioriteres til plass på intensiv, fordi KI-modellene er utilgjengelige for granskning (såkalt black box).

I likhet med mennesker, har man tenkt at KI-modellene vil lære av sine valg, og dermed forbedre seg. Men den nye forskingen viser at KI kan blir dårligere over tid. KI kan utvikle seg i feil retning og lede leger og sykepleiere til å ta gale beslutninger.

Faren for forverring av KI-modellers nøyaktighet etter innføring har vært kjent blant teknologer en stund. Der er tre typer feil som kan oppstå: konseptdrift, datadrift og hallusinasjoner.

Hallusinasjoner oppstår når KI feiltolker dataene den mates med. Hallusinasjoner kan oppstå når KI blir overtrent på spesifikke datasett, eller når den møter uventede mønstre eller endringer.
Konseptdrift oppstår når egenskapene til dataene som brukes til å trene KI-modeller endres over tid, ved endringer i pasientpopulasjonen, diagnostikk eller behandling.
Datadrift oppstår når egenskapene til dataene som mates inn i KI-systemet, endres over tid, ved endringer i innsamling, kvalitet eller lagring av data.

MÅ TESTES GRUNDIG. Den nye forskningen tydeliggjør at vår tro på at KI-modeller bare blir bedre når vi forer dem med mer data, er feil. Vi advarer mot innføring av KI-modeller i norsk helsevesen uten slik testing. Det er avgjørende å være oppmerksom på farlig drift og hallusinasjoner av KI-beslutningsverktøy, også etter innføring.

I Norge gjennomgår alle nye legemidler nøyaktig testing i randomiserte studier med kliniske endepunkter som er relevante for pasienter før de tas i bruk på norske sykehus. Uttesting av kunstig intelligens i medisinsk praksis bør følge lignende regler, både før og etter innføring. Det bør gjøres med de mest anerkjente medisinske forskningsmetoder. Overlege Jon Henrik Laake ved Oslo universitetssykehus har nylig beskrevet hvordan det kan gjøres i praksis og vi har beskrevet konseptet i tidsskriftet Science tidligere.

Annonse kun for helsepersonell

KI kan hjelpe til å gjøre helsevesenet bedre, men faren for skadevirkningene er store med dagens naivitet hos mange. Det kan få alvorlige følger for pasienter pga. hallusinasjoner i dårlig testede KI-beslutningsverktøy.

Muligheten til å forklare KI-modellene, åpenhet rundt bruk og oppdateringer, og ikke minst feil, bør etter vår mening være en del av retningslinjene for bruk av KI i norsk helsevesen. Vi ser frem til konkretisering av Regjeringens nye milliardsatsing på kunstig intelligens og håper at god testing prioriteres, slik at KI blir et gode og ikke en trussel mot norske pasienter.

Ingen oppgitte interessekonflikter

Alle forfattere er medlemmer av forskergruppen Klinisk Effektforskning som leder OPERA, et EU-finansiert prosjekt for utvikling og klinisk testing av kunstig intelligens innen mage- og tarmsykdommer.