Villedning eller veiledning: Hallusinerer språkmodellene eller kan de være pålitelige?
I tiden fremover blir det viktig at studenter, undervisere og forskere mestrer denne digitale kompetansen, slik at man unngår at det bare er mytene om hallusinering som ukritisk lever videre.
Når en av fire sykepleiestudenter stryker på den nasjonale eksamenen, når medisinstudenter trenger mer formativ vurdering, og når forskningsmetodekompetansen blant studentene har et forbedringspotensial, kan det være aktuelt å se på hva KI kan bidra med.
Kunstig intelligens er både et «etisk minefelt» med mange skyggesider, men også en banebrytende teknologi med en rekke interessante muligheter. Derfor er det viktig å adressere noen implikasjoner av at for første gang i historien er kapabilitetene til en ikke- menneskelig enhet i stand til å bruke menneskespråk på en måte som er så lik måten mennesker bruker det, at det blir vanskelig å skille mellom om det er et menneske eller en maskin som kommuniserer. Med andre ord, denne KI-en (f.eks. språkmodellene GPT-4, Gemini Advanced, Claude, etc.) genererer tekst, forstår språk og samhandler på en måte som er nesten identisk med menneskelig kommunikasjon. Dette kan betegnes som et teknologisk paradigmeskifte (på godt og ondt) siden det markerer en betydelig milepæl innen utviklingen av kunstig intelligens og språkteknologi. Men hva innebærer dette i praksis? Hallusinerer og villeder språkmodellene så mye som det blir hevdet?
På den nasjonale sykepleieeksamen klarte GPT-4 å besvare 50 av 53 flervalgsoppgaver korrekt
Dette adresserte man i denne casestudien og der man ønskte å se på hvor kapabel GPT-4 egentlig er til å håndtere krevende norskspråklige skoleeksamener i medisin, sykepleie, samt essay-baserte eksamener i forskningsmetode.
Er språkmodellene pålitelige?
Intensjonen bak casestudien er å undersøke om de kraftigste språkmodellene som GPT-4 hallusinerer eller er pålitelige i akademiske kontekster. Man så på hvordan dette utspilte seg når man anvender stringente ledetekster (chain of thought prompting) basert på studieplaner, eksamensspørsmål, karakterskala, sensorveiledning og retningslinjer for akademiske ph.d. – paper.
De mer inngående funnene er berørt i artikler som er publisert (1, 2, 3) og noen som er under publisering, men i korte trekk viser hovedfunnene fra denne casestudien at:
• I den første fasen fant man at GPT-4 presterte svært godt på skoleeksamener i medisin (87,3 prosent korrekt) og sykepleie (96,2 prosent korrekt), og dette også er i tråd med det internasjonale kunnskapsgrunnlaget. Det spesielle med våre funn er at den presterer såpass bra på norskspråklige skoleeksamener (både våren 2023 og ved retesting våren 2024).
• Skoleeksamenen i medisin var på sjette året og hvor oppgavene oftest var formulert som pasientcaser (og ikke fakta-spørsmål per se). Likevel klarte GPT-4 å besvare 96 av 110 eksamensoppgaver korrekt.
• I tillegg klarte GPT-4 å gi presis tilbakemelding på to anonymiserte medisinske prøvesvar fra et nasjonalt laboratorium.
• På den nasjonale sykepleieeksamen klarte den å besvare 50 av 53 flervalgsoppgaver korrekt, samt at den interessant nok klarte å besvare 3 av 5 visuelle illustrasjonene i eksamensoppgavesettet korrekt. Dermed er GPT-4 kapabel til å analysere bilder av kroppsorgan når kvaliteten på disse bildene er gode. En stikkprøve av tannlegeeksamensoppgaver viser samme tendensen og hvor GPT-4 oftest klarer å vurdere autentiske bilder av tannskader og forklare hva disse viser.
• Også på de seks essay-baserte eksamenene i forskningsmetode ga GPT-4 såpass gode besvarelser at det holdt i snitt til karakteren B.
• I den andre fasen ble GPT-4 utfordret på om den kan gi en vurdering av ett akademisk paper på ni sider på doktorgradsnivå. Dette ble så sammenlignet med vurderingen av en sensor av samme paperet. GPT-4 mestret også dette godt og sammenligningen viser sammenfall på flere områder, samt at GPT-4 ga grundigere vurdering av besvarelsen på noen områder.
Så kan man spørre hvorfor GPT-4 presterer såpass bra på relativt krevende, norskspråklige akademiske eksamener. Det enkle svaret er at i denne casestudien brukte man stringente ledetekster (chain of thought prompting) og den kraftigste språkmodellen (GP-4), og i tiden fremover blir det viktig at studenter, undervisere og forskere mestrer denne digitale kompetansen, slik at man unngår at det bare er mytene om hallusinering som ukritisk lever videre.
Implikasjonene av casestudien er at GPT-4 kan være en sparringpartner for studenter og kan bidra til å støtte både formative og summative vurderingspraksiser i høyere utdanning under visse forutsetninger og som denne medisinstudenten viser eksempel på her. Samtidig understreker casestudien behovet for årvåkenhet rundt de mange skyggesidene ved KI-bruk i høyere utdanning, behovet for klarere regulativ rundt studenters KI-bruk, samt at domenespesifikke språkmodeller bør utvikles innen ulike fagdisipliner.
Kanskje det viktigste rådet til studentenes bruk av språkmodeller er det som GPT-4 selv gir under alle svar den genererer: «ChatGPT can make mistakes. Check important info.» og som viser at den både kan villede og veilede. Dermed må slike KI-kilder alltid kritisk vurderes og krysspeiles opp mot andre kilder i studentenes læringsarbeid.
Rune Johan Krumsvik har skrevet boka "Digital kompetanse i KI-samfunnet". Utover dette er det ikke oppgitt noen interessekonflikter.