Generativ AI, ChatGPT og implikasjonene for testutvikling

Chat GPT har tatt utdanningsverdenen med storm ettersom lærere kjemper for å håndtere bekymringer rundt juks ved hjelp av generativ AI. Bekymringer om at elever bruker programmet til å generere menneskelignende essays, korte konstruerte svar og i noen tilfeller utføre analytisk tenkning, har fått lærere til å fordømme programmet i stor grad. Etter at støvet har lagt seg rundt opinionen rundt Chat GPT, er det imidlertid tydelig at det har fordeler og er kommet for å bli.

Verktøy som generativ AI har kraften til å endre utdanningslandskapet og kan vise seg å være en ressurs for både lærere og elever. Å bruke generativ AI til å lage nivåbasert lesing, utvikle skriveoppgaver og til og med generere vurderingsspørsmål kan gjøre livet enklere for lærere, samtidig som det forbedrer elevenes læringsutbytte.

Hvordan kan AI-verktøy brukes i vurdering?

AI-verktøy som Chat GPT kan brukes av vurderingsforfattere på ulike måter, avhengig av vurderingens spesifikke behov. Her er noen eksempler:

Generering av testspørsmål: Chat GPT og annen generativ AI-programvare kan brukes til å generere testspørsmål for en rekke fag og vanskelighetsgrader. Vurderingsforfattere kan legge inn spørsmål eller emner, og Chat GPT kan bruke sine språkgenereringsfunksjoner til å produsere spørsmål som vurderer studentenes forståelse og kunnskap.

Vurdering av svar: AI kan brukes til å vurdere åpne svar fra studenter. Ved å trene AI-en på et sett med svar som allerede er vurdert av menneskelige vurderere, kan den lære å tildele poengsummer til nye svar basert på deres likhet med treningssettet.

Lage adaptive vurderingsspørsmål: Chat GPT kan brukes til å lage adaptive vurderingsopplevelser som justerer vanskelighetsgraden på spørsmål basert på elevenes svar. Ved å analysere elevenes svar i sanntid kan Chat GPT generere spørsmål som er passende utfordrende for hver elev.

Gi tilbakemelding: Chat GPT kan brukes til å gi raskere tilbakemelding til studentene på svarene deres. Ved å analysere innholdet og strukturen i studentenes svar, kan Chat GPT gi tilbakemeldinger som er spesifikke, informative og handlingsrettede.

Verdien av generativ AI for å lage vurderingsspørsmål

Å utvikle testspørsmål er en tidkrevende og kjedelig oppgave for lærere. Det kan være utfordrende å lage nok spørsmål til å teste elevene, og å lage en samling spørsmål å hente fra til en eksamen tar tid bort fra andre oppgaver som planlegging, kommunikasjon med elevene og utvikling av kvalitetsinnhold. Å bruke generativ AI til å lage vurderingsspørsmål er et alternativ som lærere og testutviklere kan bruke for å spare tid og være mer effektive.

Noen måter generativ AI er verdifull når man lager vurderingsspørsmål på er:

Lag enorme mengder innhold med letthet

Den kanskje største fordelen med å bruke Chat GPT til å generere vurderingsspørsmål er hvor raskt det kan lage enorme mengder spørsmål. Som lærer kan du gi Chat GPT en kopi av noe du jobber med og be den generere spørsmål om emnet. Du kan også spesifisere hvor mange spørsmål du ønsker og på hvilket nivå. Ved å gjøre dette kan en lærer eller testutvikler utvikle hundrevis av spørsmål på få minutter, en oppgave som vanligvis ville tatt tid, krefter eller penger å utføre i så stor skala.

Generativ AI er ikke perfekt, og noen spørsmål er kanskje ikke det testutvikleren håpet på. Når man bruker Chat GPT til å generere vurderingsspørsmål, er det fortsatt nødvendig å ha et menneske som ser gjennom og redigerer eventuelle spørsmål som ikke passer. Prosessen med å redigere spørsmål er imidlertid vanligvis raskere enn å generere spørsmål fra bunnen av.

Tilfeldiggjøring av testspørsmål

Randomisering av testspørsmål er prosessen med å bruke en eller flere spørsmålsbanker å trekke tilfeldig fra når man utformer en test. Tradisjonelt ble denne prosessen gjort manuelt, en lærer ville lage to eller tre versjoner av en test ved å flytte spørsmålene rundt. Dette tok enormt mye tid, men med moderne testprogramvare som TAO-testing kan lærere sømløst sette inn spørsmål i plattformen, og plattformen kan randomisere rekkefølgen spørsmålene gis i på en test. I tillegg til å randomisere spørsmål, kan digitale testplattformer også randomisere svarvalg.

Alt dette bidrar til å forbedre testvaliditeten og påliteligheten, redusere juksing og forbedre den generelle testintegriteten. Selv om Chat GPT kan generere forskjellige former for en test, krever det fortsatt personlig innsats å kopiere, lime inn og skrive ut forskjellige testversjoner. Å bruke en testplattform, som TAO-testing, fremskynder dette og samler hele prosessen, fra testutvikling til karaktersetting, på ett sted.

Eksempler på spørsmålstyper

Chat GPT kan utvikle spørsmål for et bredt spekter av vurderinger eller behov, inkludert:

Faktabaserte spørsmål: Spørsmål basert på faktisk informasjon. For eksempel: «Hva er den største planeten i solsystemet vårt?»
Konseptuelle spørsmål: Spørsmål knyttet til forståelsen av konsepter og prinsipper. For eksempel: «Hva er forskjellen mellom vær og klima?»
Analytiske spørsmål: Spørsmål som er utformet for å analysere og tolke informasjon. For eksempel: «Hva er noen potensielle årsaker til den nåværende klimakrisen?»
Spørsmål om kritisk tenkning: Spørsmål for å evaluere informasjon og danne seg vurderinger. For eksempel: «Tror du at sosiale medier har en positiv eller negativ innvirkning på samfunnet? Forklar svaret ditt.»
Kreative spørsmål: Spørsmål som er utformet for å generere unike og innovative ideer. For eksempel: «Hva er noen mulige løsninger for å redusere plastavfall i havene våre?»
Scenariobaserte spørsmål: Dette er spørsmål som presenterer et hypotetisk scenario og ber studenten om å svare. For eksempel: «Du er administrerende direktør i et selskap som har blitt anklaget for uetisk praksis. Hvordan ville du håndtert situasjonen?»

Vurderer psykometri: Validitet og pålitelighet med Chat GPT

Psykometri er et viktig aspekt ved å lage effektive vurderingsspørsmål, ettersom det innebærer å utforme spørsmål som er pålitelige, gyldige og rettferdige for alle testdeltakere. AI-genererte spørsmål må fortsatt evalueres mot psykometriske prinsipper for å sikre at de oppfyller de nødvendige standardene.

En måte å forene AI-generert innhold med psykometri på er å innlemme menneskelig gjennomgang og kvalitetskontroll i vurderingsprosessen. Menneskelige eksperter innen det aktuelle fagområdet og psykometrikere kan evaluere de genererte spørsmålene for validitet, pålitelighet og rettferdighet. De kan også sikre at spørsmålene samsvarer med de tiltenkte læringsmålene og er passende for den tiltenkte målgruppen.

En annen måte å sikre kvaliteten på AI-generert innhold på er å bruke maskinlæringsalgoritmer som er spesielt utviklet for å optimalisere psykometriske egenskaper, for eksempel IRT-modeller (item response theory). Disse modellene kan bidra til å identifisere elementer som er for vanskelige eller for enkle, og kan justere vanskelighetsgraden basert på svarene fra testdeltakerne for å sikre at poengsummene nøyaktig gjenspeiler testdeltakerens evner.

Konklusjonen

Chat GPT tilbyr et enormt potensial for bruk av kunstig intelligens til generering av testelementbanker, noe som sparer testutviklere tid, penger og krefter. Bruk av generativ kunstig intelligens til å utvikle tester i klasserommet er en måte å hjelpe lærere med å lage tester med mange forskjellige nivåer uten å måtte bruke timer på å omarbeide forskjellige spørsmål.

Når det kombineres med en nettbasert testplattform, som TAO, kan testutvikling bli svært tilpasset for å møte behovene til individuelle elever, samtidig som testintegriteten forbedres gjennom randomisering av testspørsmål. Alt dette fører til en testopplevelse som er kjernen i hva vurdering er utformet for å gjøre, informerer lærere om hvor en elev er, hvilke skritt de skal ta videre og hvordan man kan forbedre læringsutbyttet for elevene.

Hvordan kan AI-verktøy brukes i vurdering?

Verdien av generativ AI for å lage vurderingsspørsmål

Lag enorme mengder innhold med letthet

Tilfeldiggjøring av testspørsmål

Eksempler på spørsmålstyper

Vurderer psykometri: Validitet og pålitelighet med Chat GPT

Konklusjonen

Relaterte artikler

Hvorfor digital matematikkvurdering fortsatt sliter med å fange opp reell tenkning

Hvorfor AI-feilinformasjonskunnskap blir en kjerneferdighet

Formativ vs. diagnostisk vurdering: Hva er forskjellen?

Abonner på bloggen vår