Forskning

Ekvivalensstudier – fra administrering med papirutgave til Q-interactive

I en overgangsperiode vil mange av testene som nå tilbys i Q-interactive (i sin helhet eller delvis) også finnes i versjoner for papir og penn (heretter kalt papirutgaver), og normer basert på data som er samlet inn med de ulike papirutgavene. Et grunnleggende spørsmål dreier seg om hvorvidt den psykometriske informasjonen som finnes for hver papirutgave, også er gyldig for den digitale versjonen, eller om det digitale administreringsformatet medfører en så omfattende endring i grensesnitt at normene ikke lenger er pålitelige. Det digitale formatet betyr i prinsippet at administrering av testoppgavene skjer ved hjelp av to synkroniserte iPad-er. Testlederen leser instruksjoner, registrerer testpersonens svar og tar tiden på den ene iPad-en, og testpersonen eksponeres for stimuli og angir svar på den andre. Pearson i USA gjennomfører kontinuerlig såkalte ekvivalensstudier med hensikt på å undersøke hvorvidt normene for papirutgavene også kan benyttes når administreringsformatet endres. Ekvivalensstudier gjennomføres deltest for deltest, og studienes utforming varierer med ulike oppgavetyper. Nedenfor finner du et generelt resonnement om ekvivalensstudier. Her kan du lese mer om ekvivalensstudier for WISC-V ››

Det har vært et mål ved tilpasningen til digital administrering med Q-interactive å oppnå samsvar mellom råskårer generert med papirutgaven av en test og den digitale ekvivalenten. Det skal med andre ord ikke ha noen betydning for resultatet til en testperson om testingen er gjennomført med papirutgaven eller med Q-interactive. Hvis slik ekvivalens kan demonstreres, betyr det at de psykometriske egenskapene som er gjeldene for papirutgaven (som normer, reliabilitet og validitet), også er gyldig for resultatene som oppnås med Q-interactive. Dette er én av årsakene til at visse elementer i testenes papirutgaver (for eksempel klossene i deltesten Terningmønster og enkelte svarhefter til andre tester) er beholdt i originalformatet. Målet er at det aller meste av det fysiske materiellet etter hvert skal erstattes av interaktive digitale grensesnitt. Men i denne fasen var vurderingen at den tilpasningen som en del deltester ville kreve, også ville bety at ekvivalensen i råskårer ble påvirket, noe som i sin tur ville påvirke muligheten for å benytte normer innsamlet med papirutgavene.

Utgangspunktet for alle ekvivalensstudier som er gjennomført, er antakelsen om at digital administrering kan påvirke testresultatet av flere grunner, som for eksempel hvordan testpersonen og testlederen bruker iPad-en, hvordan testoppgaver/stimuli presenteres for testpersonen, hvor korrekt systemet kan registrere og skåre når testpersonen trykker på iPad-en, og overgripende effekter av den digitale administreringen. Et eksempel på en slik effekt var tidlige forsøk med bruk av iPad-tastatur, slik at testlederen kunne skrive ned testpersonens muntlige svar. Bruk av tastatur førte blant annet til at testpersonene begynte å svare langsommere for at testlederen skulle rekke å skrive. Dette var én av flere årsaker til at man valgte å ikke inkludere administrering med tastatur.

Hvis en testoppgave innledningsvis ble vurdert som ikke ekvivalent mellom de to formatene (det vil si at det var grunn til å anta at råskåren ville bli påvirket som følge av den digitale administreringen), ble den opprinnelige årsaken undersøkt. Dersom en observert effekt er et resultat av at testlederen blir mer nøyaktig i administreringen eller skåringen (for eksempel fordi enkelte feilkilder elimineres automatisk), anses Q-interactive et metodologisk fremskritt. Manglende ekvivalens er i slike tilfeller ikke nødvendigvis et problem. Et rimelig mål er at ny teknologi skal kunne produsere resultater som er ekvivalente med dem som oppnås av testledere som bruker papirformatet korrekt. Det bør ikke forventes at det digitale formatet skal reprodusere administrerings- eller skåringsfeil. På den annen side, dersom en digital effekt kommer av at testlederen eller testpersonen er mindre nøyaktig, bør man prioritere å tilpasse Q-interactive slik at feilkilden blir eliminert. Når dette ikke er gjennomførbart, bør effekten håndteres med normjustering. I de gjennomførte ekvivalensstudiene er administrering og skåring filmet for å gjøre det mulig å analysere effektene av administreringsformatet.

Flere eksperimentelle modeller er benyttet for å undersøke graden av ekvivalens mellom papirutgaven og Q-interactive. Rapportene som kan lastes ned fra www.helloq.com/research, redegjør for de forskjellige fremgangsmåtene, som er tilpasset oppgavetypene i ulike deltester. Nivået som ble satt for ekvivalens for utfallet fra papirutgave vs. digital administrering, skulle ikke overstige en effektstørrelse på 0.2 (Cohen's d).

Ekvivalensstudiene som er gjennomført så langt viser til følgende konklusjoner; selv om det er observert små effekter av administreringsformatet, er ikke disse effektene reproduserbare eller systematiske, med mindre en åpenbar årsak kan oppdages (f.eks gjennom å studere videopptak av en administrering). Studiene som er gjennomført viser dessuten at det ikke er noen statistisk signifikante forskjeller vedrørende effekt av administreringsformat mellom grupper basert på alder, kjønn, sosioøkonomisk status eller evnenivå.

Samlet kan vi slå fast at de hittil gjennomførte studiene har vist at den psykometriske informasjonen som er samlet inn med papirutgaver av deltester, er gyldig også når administreringen skjer på Q-interactive. Mer utfyllende informasjon finnes på www.helloq.com/research.