Ny studie: Studenters svar får lägre betyg — när de ställs mot AI

Alexandra Farazouli, doktorand vid Institutionen för pedagogik och didaktik, säger att studien manar till eftertanke. Foto: Jennifer Snårbacka

Studenter får sämre betyg när AI-genererade svar är med i mixen. Det visar en ny studie från Stockholms universitet, där man låtit lärare betygsätta studenters gamla tentasvar och AI-genererade svar.

Det här kan fungera som en påminnelse om att kvalitén på betygssättning fortsatt är mycket viktig, säger studieförfattaren Alexandra Farazouli.

Hur påverkas betygsättningen av chatbottarnas uppkomst? Den frågeställningen har en forskargrupp på SU undersökt.

I studien har man bett universitetslärare från svenska universitet, i blindo, bedöma tidigare rättade tentor samt svar genererade med hjälp av AI.

24 universitetslärare, verksamma i Sverige, från fyra olika institutioner inom humaniora och samhällsvetenskap deltog.

Lärarna visste inte om att det fanns AI-genererade texter i underlaget eller hur många de var, säger Alexandra Farazouli, studiens huvudförfattare och doktorand vid institutionen för pedagogik och didaktik vid SU.

Ett resultat som förvånade Farazouli var att de texter som studenter producerat själva fick lägre betyg, än vad de tidigare fått, när lärarna samtidigt betygsatte AI-genererade svar. Bland annat fick en tenta inom pedagogik, som tidigare fått A som betyg, nu bara E och F av bedömarna.

– Jag förväntade mig inte att lärare skulle bli mer petiga med studenternas texter. Det kunde vara simpla brister, som inte egentligen spelar någon roll, som de nu underkände, säger hon.

AI-genererade svar fick beröm

Samtidigt fick de AI-genererade svaren i många fall godkänt. I studien godkände lärarna 37,5 procent av AI-svaren inom pedagogik, och som högst var godkännandegraden inom filosofi — 85,7 procent.

AI-svaren hade genererats på tre olika sätt. I ett hade man ställt tentfrågan till chatbotten och kopierat svaret rakt av. I ett annat hade man genererat svaren genom att ställa tentafrågan till chatbotten och bett den infoga referenser till litteratur.

Avslutningsvis bad man chatbotten generera mer avancerade svar, med direkta hänvisningar till specifik kurslitteratur och i en viss teckenmängd.

– Vi fick inte det resultat vi väntade oss, att det svar som var mest manipulerat skulle få högst betyg eftersom det använde fler referenser och ofta producerade längre och mer sofistikerade svar. Vi fick inget svar på om en typ av AI-svar var bättre än något annat, säger hon.

Efter bedömningen intervjuades lärarna, och de berömde bland annat språket, precisionen och kreativiteten i de AI-genererade svaren, berättar Farazouli.

Läs mer: AI-fusk är inte en stor oro för SU – sätter ändå in arbetsgrupp

“Nya utmaningar”

Dock hittade lärarna även fel i AI-svaren — såsom dålig argumentation, brist på referenser och att svaren var orelaterade till kursen. Samma brister nämndes också i studentskrivna texter, och i flera fall trodde lärarna att studenternas egna svar var AI-genererade.

Farazouli vill inte dra någon slutsats om att studenters egna texter i framtiden riskerar få lägre betyg.

– Studiens utformning möjliggjorde inte en jämförelse mellan studenters svar och svar skrivna av chatbottar, säger hon.

Däremot tror hon att studien fungerar som en tankeväckare kring lärares bedömningsrutiner — misstankar om AI-fusk har gjort att lärarnas förtroende för studenterna fått sig en törn.

– Lärarna har fått nya utmaningar efter chattbottarnas uppkomst. När Chat GPT lanserades blev lärarna automatiskt rädda att studenter kommer att fuska. Men man behöver ställa sig frågan: Är det fusk när studenter tar hjälp av Chat GPT, och i vilken utsträckning?

Läs mer: Sju studenter fällda för AI-fusk på SU — trodde det var tillåtet

“Kan fungera som en påminnelse”

Flera SU-studenter har stängts av för att ha använt AI i tentor det senaste året. Att slopa hemtentor och införa mer bevakad tentamen för att råda bot på AI-fusket är inte en lösning, enligt Alexandra Farazouli.

– Vi vet inte vilken typ av inlärning som nya teknologier medför. Jag ser potentiella fördelar med att studenter lär sig genom att använda sig av Chat GPT, det kan jämföras med Wikipedia. Så länge man inte kopierar och klistrar, så kan det vara ett hjälpmedel att börja tänka kring ett ämne.

Endast fyra av de 14 AI-genererade svaren i studien upptäcktes vid plagiatkontroll. Många lärare har efterfrågat goda verktyg för att upptäcka AI-fusk, men verktygen hänger inte med i utvecklingen.

– Forskning visar att det är nära inpå omöjligt att skapa en fungerande AI-plagiatkontroll. Det som behövs är att lärare är mer involverade i betygssättningen, det krävs kunskap, tid och uppmärksamhet. Det här kan fungera som en påminnelse om att kvalitén på betygssättning fortsatt är mycket viktig, säger Farazouli.

Jennifer Snårbacka