Posts Tagged ‘ekspertvurdering’

Brugertest nu?

torsdag, december 9th, 2010

Usertesting.com har fået en dansk pendant, som jeg synes skal have et par ord med på vejen.

Velkommen til brugertest.nu
 - der tilbyder at man kan stille testopgaver, som så formidles til "brugere", der løser de testopgaverne og kvitterer med en video med testerens stemme og optagelse af hvad der foregik på dennes skærm. I realiteten samme data som man ville få hvis man selv lavede en brugertest. Det primære i produktet er, at brugertest.nu formidler opgaverne og har fast tilknyttede testere de kan trække på.

Det gøres efter eget udsagn både billigere og nemmere end hvis man selv gøre det.

Brugertest.nu tilbyder også at gøre mere af det beskidte arbejde med at lave testopgaver og fortolke på resultaterne – hvilket er nok så interessant.

Prisen er fornuftig, man kan godt gøre det billigere selv, men skal de jo også betale husleje, udstyr og lave lidt profit, så passer det nok meget godt.

Det umiddelbare indtryk
Jeg synes afgjort det har sin berettigelse, hvis man er opmærksom på hvad man får og hvad man ikke får. Jeg synes det placerer sig et godt sted mellem den professionelle kommercielle brugertest (hvad enten den er intern eller pr- konsulent) og så den helt hjemmegjorte test, som fx Steve Krug eller jeg selv agiterer for i vores bøger. Til gengæld synes jeg ikke der er tale om et reelt alternativ til den brugertest, hvor en usabilitykompetence (fx mig selv), udfører en test in-house eller for andre. Det skal jeg prøve begrunde:

Lad os først kigge lidt på selve testen. Det er værd at huske på, at det afgjort største arbejde ved en brugertest er forarbejde og efterbehandling af testene. Selve testen, altså afviklingen, er den mindste del. Det kører som regel bare på skinner og kan gøres meget billigere (Jeg plejer at "betale" testere 400,- for 1.5 time, mens brugertest.nu skal have 500,- for 20 minutter).

Er det pengene værd?
Brugertest.nu tilbyder at lave for/efter-arbejde – uden at jeg ikke rigtigt kan gennemskue kvaliteten af denne og ikke har noget reelt at hænge den op på – for 10.000. Altså kan jeg få hele testen for 12.500. Det er da en fin pris. Men jeg har set nogle af de store kanoner, tilbyde noget lignende for 25.000. For den lille biks er de ekstra 12.500 sikkert mange penge, for større forretninger er det pebernødder, i relation til vigtigheden af at resultaterne – og særligt de re-designs de kan medføre – og for den betydning de kan have for omsætningen.

Med andre ord: Vil du føle dig mere sikker på at få en testleder med 200+ brugertests under huden til at fortælle dig hvor problemerne ligger end nogle relativt ubeskrevne blade der tester med nogle brugere du ikke rigtig kender?

Handling, ikke holdning
De test-eksempler brugertest.nu viser på deres hjemmeside emmer af  holdninger fra testerens side. Hvis man studerer lidt usability-teori, eller blot læser Jakob Nielsen, vil man se at holdning ikke har meget værdi. Det handler om handling. Hvis brugerne sidder og ævler om hvad de synes, så lærer du ikke noget. Tager du det for gode varer, så er du ikke blot inkompetent til at tolke resultaterne, men du skyder dig også i foden. Derudover har du ingen mulighed for at spørge ind til det der sker, hvormed du bliver mindre klog på det meget vigtige: Hvorfor?  – med mindre du er heldig at testpersonen selv begrunder.

Nuvel, man kan se at testeren rent faktisk er blevet bedt om at fortælle om sitet, men det tager lang tid og til 500,- pr. 20 minut, så er det nogle dyre minutter. Problemet er altså at de der laver opgaverne, skal vide hvad de gør: Der er stor fare for crap-in/crap/out.

Og hvad gør du hvis testeren ikke rigtigt får løst opgaven eller løser den på en måde du ikke kan bruge til noget. Betaler man så? Du kan ikke moderere undervejs, så du må bare håbe på det bedste.

Umodereret tænkt-højt
Så er det bare problemet omkring at tænke-højt i almindelighed. Forsøg viser tydeligt at brugerens opgaveløsning bliver mærkbart forandret af at der samtidigt skal tænkes højt. Det tager længere tid og testerne har en tendens til at rationalisere, altså logisk begrunde det de gør. Der er totalt say/do konflikt i spil. Netop derfor er fx eyetracking blevet populært, hvor testeren efterfølgende begrunder sine handlinger retrospektivt.

Som jeg kan se det, har vi som kunder ingen måde at vide hvem der tester vores website. Pudsigt nok lægger brugertest.nu op til at kunder efterfølgende graduerer (rater) testerne. Det er interessant nok. Hvad er en god tester? Den der fandt flest problemer? Den er kommer igennem flest ting? Den du bedst kan lide at høre på? Jeg har aldrig før hørt om at man på den måde eksplicit vurderede testernes kvalitet, men jeg lærer gerne hvorfor.

Konstruktivt kritisk
Heldigvis synes jeg (næsten) ikke de lover mere end de tilbyder. Vi ved alle at det er fornuftigt at teste, vi ved også at det kan være et stort arbejde at sætte op og vi ved hvad det er vi bliver tilbudt af denne service. Jeg har ikke rigtigt behovet selv, men som jeg sagde ovenfor, så har produktet som sådan sin berettigelse – jeg vil dog mene at man skal købe analysen med før at det giver mening.

Ps. skulle du i stedet være interesseret i at få en erfaren usability-specialist til at lave en times identifikation af dit websites problemer, med grundlag i rigtigt mange test og års erfaring som både underviser, tester, specialist og interaktionsdesigner, så skriver du bare en mail til mig ;-)

Disclaimer: Jeg er blevet gjort opmærksom på, at det ser lidt "underligt" ud at jeg kritiserer en service og så afslutter med reklamere for mig selv som produkt. Lad mig starte med at sige at det egentligt var ment som drillerier/provokation. Jeg er ikke en modydelse til brugertest.nu, jeg er ikke usabilitykonsulent, jeg lever ikke af at lave ekspertvurderinger og tage kunder fra brugertest.nu.

Jeg har nogle meninger om brugertest.nu som går meget på metoden, på hvad brugertest.nu "lover" sine kunder og på værdien af produktet. Hvad jeg selv går og roder med at projekter og hvad jeg ellers tjener penge på, er irrelevant i den sammenhæng og bør ikke (eller kan ikke med fordel) læses ind i den kontekst.

Jeg er også blevet beskyldt (indirekte) for at bruge grimme metoder, fordi jeg har kontaktet brugertest.nu's kunder og spurgt om jeg må se deres testvideoer. Det måtte jeg af ubegribelige årsager ikke. Det er så faldet brugertest.nu lidt for brystet. Jeg synes nu det er reelt nok, det er jo ikke statshemmeligheder, men blot almindelige brugere der fortæller om deres oplevelse på sitet – jeg kunne jo bare spørge min mor…

Kunderne sladrede så til brugertest.nu – og brugertest inviterede i stedet til at jeg prøvede produktet selv (sådan næsten gratis). Det vil jeg så blogge om i nærmeste fremtid. Men lad mig sige det således: Jeg blev ikke skuffet :-)

/Ole

Ekspertvurdering revisited

fredag, marts 19th, 2010

Jeg har tidligere gjort mig klog på at "ekspertvurdere", et emne jeg interesserer mig for at flere årsager: De studerende jeg underviser på IT-Universitetet skal introduceres til denne metode-kategori, men også fordi jeg selv gerne vil have skovlen under de metoder jeg har i værktøjskassen – måske er de to ting det samme :-)

Hele pointen med denne blog er at give dig mulighed for at blive inspireret eller oplyst via de erfaringer jeg gør mig – derfor skal du ikke snydes for mine nyeste forståelser indenfor emnet.

Kært barn har mange navne: Ekspertvurdering, usability evaluering, expert review, heuristic evaluation – Hvorom disse begreber ikke dækker over det samme, så er der vigtige metodiske overlap:

1) De tager alle udgangspunkt i vurdering af et IT-produkts brugbarhed UDEN direkte inddragelse af produktets brugere.
2) De er alle til dels subjektive, sådan at forstå at det er enkeltpersoner der subjektivt tager stilling til produktets kvalitet.

Fra min stol er der to grundlæggende udfordringer med disse metoder:

1) Fordi de er subjektive – hvor enkeltpersoner udfra en eller kontekst finder og definerer problemstillinger – så giver de statistisk set aldrig helt den samme mængde af problemer, nærmest uanset hvor mange gange de gentages. Er dit bud ligeså godt som mit?

2) Metoderne kan udføres på mange forskellige måder og jeg oplever det som svært at give en god entydig beskrivelse af hvordan det gøres godt. Hvordan kommer jeg igang med at lave en fornuftig evaluering af et website?

Metodeoverblik
Jeg kunne lige starte med at ridse noget metodisk landskab op:

1) Cognitve walkthrough – kognitiv gennemgang. Som navnet antyder, ser metoden på den kognitive belastning en bruger oplever i interaktionen med en brugerdialog. Metoden tager udgangspunkt i Human Action Cycle som vi kender den fra fx Donald Norman. Med udgangspunkt i dennes trin, spørger man til hvilke kognitive belastninger brugeren vil opleve undervejs i interaktionen. Det hedder walkthrough fordi man systematisk gennemgår en opgaves trin (fx via task analysis) og stiller de samme grundlæggende spørgsmål til hver sekvens

Det handler mest om indlæring (ease of use), men deri ligger jo også brugbarheden. Er det let at lære, så er det nok også let at bruge. Omend denne metode er lidt stringent og ingenøragtig :D- så er den supergod som forklaringsmodel til evaluering af brugbarhed. Det svære ligger i, at man som evaluator skal forstå/vide/have erfaret, hvad der giver brugeren kognitiv belastning.

2) Så et spring i en helt anden retning: Metaphors of thinking. Her er jeg nærmest ovre i den diamentrale modsætning, men igen er det en ikke-empirisk evalueringsmetode, med subjektiv gennemgang at brugergrænseflader. Denne metode tager udgangspunkt i 5 metaforer, der beskriver den menneskelige handlen og tankeproces (überkort fortalt). Det kan fx handle om dannelsen af vaner og hvordan en brugerdialog kan understøtte etableringen og brugen af vaner (som jo er en blanding af erfaringer og menneskelige kognitive processer). Denne metode er på papiret langt sværere at gå til, fordi det kræver forståelse for metaforerne og den bagvedliggende forståelse af disse.

3) Heuristisk evaluering (HE). Jacob Nielsen og Rolf Molich's udødelige klassiker, som nok mest overlever idag som navn, snarere end som specifik metode. Så HE bliver tit en slags massebetegnelse for alle typer evalueringer, om der så står ekspert, usability eller heuristisk foran. Metoden trækker på 10 såkaldte heuristikker (fordi de ikke turde kalde de "principper" :-) ), hvor evaluatoren forholder identificerede problemstillinger med disse 10 forhold omkring "God skik og brug".

(Husk at se Rolf Molich's gentagne og påtrængende sammenligning af evalueringsmetoder i Comparative Usability Evaluation undersøgelserne).
(Se eventuelt også dette paper om variationer eller forbedringer af HE: A comparative evaluation of heuristic-based usability inspection methods).

Tre perspektiver
Det var tre metoder, tre perspektiver, tre grundlag at spørge ind med. For de første to er det påkrævet at opstille en kontekst for gennemgangen, typisk de opgaver som brugeren søger at løse i produktet. Min erfaring er, at det også er en meget god idé for HE. Den kontekst kan være meget forskelligartet: Det kan være personas, det kan være funktioner/features, det kan være resultatet af en spørgeskema – men det er det man vælger at fokusere gennemgangen imod, en ramme, en afgrænsning.

HE kan man også tage mere generelt, som en slags tjekliste, men det kræver at kan oversætter heuristikkerne til regler for godt interaktionsdesign, så man ved hvad man skal se efter. Dermed kommer man (som jeg oplever det) potentielt kun længere væk fra den faktiske (formodede) brug.

Men når nu det hele handler om en individuel, subjektiv vurdering, hvordan så med validitet og ikke mindst reliabilitet  – altså hvor vidt vi reelt får svar på det vi spørger om og især om gentagne evalueringer kommer til samme resultat. Grundlæggende må man nok acceptere at disse metoder minder om smagsdommeri. Om et slags peer-review, hvor en der ved lidt bedre, giver sit besyv. Derved kaster jeg umiddelbart en hvid pind efter disse begreber, måske mest efter HE, der kun er funderet på sine 10 (delvist forældede og software-relaterede) heuristikker. Men hvis jeg ved at der er problemer med resultaterne, så kan jeg også bedre forhold mig til dem.

Udfordringerne
Så tilbage til de to udfordringer:

1) Ja, de er subjektive – så hvad gør man der? Målet må være at finde en måde at påpege kvaliteter i den måde de udføres. Et kunen være at påpege evaluatorens kvalitet igennem dennes erfaring og evner. En anden kunne være at opstille brugerens mål og opgaver, for at henvise til den værdi der kan skabes i det evaluere netop denne. En tilgang kunne være at beskrive helhedsorientering og systematik (altså metodik), for derved at kunne gentage og sammenligne resultater. Det gør ikke metoderne mindre subjektive, men udstiller så svar på denne udfordring og angiver derved en kvalitet. Metoderne angiver naturligvis at flere evaluatorer udfører metoden, sammenligner og prioriterer problemer, for derved at konsolidere disse.

2) Hvordan udføres en evaluering bedst muligt? Hvor skal man starte? Det kommer an på hvad formålet er. For de studerende, der potentielt aldrig har lavet en evaluering før, er det underordnet om man bruger heuristikker eller andre former for usability-relaterede principper og regler. De skal blot have noget at læne sig opad. På sigt opbygger de deres eget katalog af heuristikker og opøver derved noget der med rette kan kaldes for "ekspert-gennemgang". Jeg tror meget metodevalget afhænger af hvad man vil. Fordi evaluering af websites ofte er mere generel, ikke kun ser på løsningen af en specifik afgrænset opgave og ser på den samlede oplevelse, så er det nemmest at gå efter HE. Men resultatet bliver derefter. Det bliver lidt på overfladen og det bliver potentielt falske positiver – problemer der faktisk ikke er problemer for de virkelige brugere.

Svaret herfra bliver derfor – brug HE og de retningslinje-orieterede tilgange til det generelle og det "lette". Brug de andre metoder til det specifikke og opgave-relaterede.

Jeg er ikke færdig med disse metoder, men jeg er nu blevet langt klogere på hvilke der er, hvad deres udfordringer er,hvordan jeg kan retfærdiggøre brugen af dem og hvordan jeg kan argumentere for at levere en evaluering af en god kvalitet.

Kunsten at ekspertvurdere

mandag, april 6th, 2009

Det giver på mange måde god mening at “ekspertvurdere” indenfor usability. Det er hurtigere og relativt billigere end så mange andre testformer. Metoden kan udføres individuelt og uafhængigt af den øvrige organisations rammer og ressourcer. Ekspertvurderinger er glimrende til at bakke op under andre testmetoder, enten som forberedelse eller som den lille alternative metode der kan udføres indimellem de øvrige.

Og hvis det er en udfordring at sikre ensartethed og kvalitet indenfor brugervenlighedstests, så mener jeg det står endnu værre til med ekspertvurderingerne. Men, der er dog den store forskel, at ekspertvurderinger som oftest foretages af personer indenfor et projekt, mens brugervenlighedstest som regel sendes til konsulenter eller eksterne kompetencer.

Lad mig i denne sammenhæng definere eksperten som ‘usability-kompetencen’. Altså den person, der ved noget om usability i organisationen. Jeg accepterer, at denne kompetence ikke altid kan kaldes “ekspert”, men hvis vi først skal finde ud af hvem der er eksperter før der må evalueres, så kommer vi aldrig igang.

I samme åndedrag er det nok også fornuftigt at tale om en vurdering og ikke en test. Ekspertvurderingen (også selv om vi kalder det usability-evaluering), er og bliver jo en subjektiv vurdering, baseret på ekspertens skøn. Så i princippet er ekspertvurderingen bare en ekspert, der synes noget nogenlunde kvalificeret om usability i et produkt.

Men skal vi tale om rigtig ‘metode’, så skal der nok mere til:

Metode: Systematisk og fastlagt fremgangsmåde som anvendes når et arbejde skal udføres el. et problem løses. [sproget.dk]

Ordet ‘systematisk’ er for mig synonym med værdi, når det gælder ekspertvurdering. Helhedsorienteret og systematisk, ynder jeg at sige. For hvis metoden skal give værdi, så bør man kræve at der bruges en metodisk (og deri systematisk) tilgang, så vurderingen netop ikke bliver tilfældig og “alt for” subjektiv.

Nu har jeg så på fire semestre på IT-Universitetet, undervist studerende i at lave ekspertvurdering, med udgangspunkt i den heuristiske evaluering, som den mere eller mindre blev beskrevet af Molich og Nielsen engang i 90′erne. Resultatet taler sit tydelige sprog, det er en svær metode at få noget systematisk ud af, svær at skabe nogen reel værdi fra.

Derfor har jeg søgt efter måder at foretage ekspertvurderinger på, både igennem at opstille “hjemmelavede” metoder, hvor de studerende selv definerer områder eller features, som de så udsatte for undersøgende spørgsmål – og igennem at afsøge markedet for andre metoder, der kan fungere som grundlag for ekspertvurderinger.

I denne omgang vil jeg blot skitsere et overblik, som jeg selv bruger og har glæde af.

Jeg vælger at dele ekspertvurderinger op i tre typer:

  1. Design-baserede
  2. Usability-guideline baserede
  3. Kognitivt funderede (i mangel af bedre navn)

Lad mig kort beskrive hvorfor og hvilke:

1) For langt de fleste webdesignere, webmastere, webredaktører, webudviklere, webdesignere og alle disse deltagere i web-udviklingen (som ikke har et explicit fokus på usability, men har det som delopgave), er den nemmeste måde at sikre høj brugbarhed, at se på bedste praksis, de-facto standarder og designmønstre. Med udgangspunkt i samlinger af sådanne design-guidelines, kan man sammenligne med sin egen løsning og vurdere om produktet er på rette vej. Der findes også virkeligt mange interaktions-design bøger, der opstiller sådanne retningslinjer.

Metodisk står disse guidelines svagt (man skal nemlig oftest selv lave metoden), men i praksis tror jeg de har enorm betydning. Jeg hører stadig personer der taler om “3 klik fra startsiden” og lignende forenklede brug-retningslinjer, som er alt for generelle og i værste fald forældede. Men igen, det er nemt at forholde sig til og det giver i første omgang hurtige, relativt store og synlige resultater. Det kunne der sagtens komme noget god metode ud af, så længe design-principperne vedligeholdes til at afspejle tidens erfaringer.

2) Den føromtalte heuristiske evaluering hører til i kategorien usability-guidelines. Heuristikkerne er nogle overordnede begreber, der beskriver vigtige forhold i interaktionen og dialogen mellem bruger og system. Den store udfordring ved heuristikkerne, er at eksperten selv “oversætte” heuristik til design og omvendt. Visse heuristikker er svære at oversætte til konkrete design og jeg har set rigtigt mange ekspertvurderinger, hvor selv meget relevante heuristikker aldrig kommer i spil. Så metoden sikrer en systematisk tilgang, men det hjælper ikke stort, hvis man ikke er ekspert nok til forstå dem.

Der findes en del forskellige samlinger af usability-guidelines, de fleste funderet i forståelse som den Donald Norman præsenterer i “The Design of Everyday Things”. De kræver næsten altid en medfølgende beskrivelse, for ellers kan de være for abstrakte. En af pointerne i min egen beskrivelse af ekspertvueringen i “Usability, Testmetoder…”, var netop at give en bedre beskrivelse af hvordan Nielsen/Molich’s heuristikker kan forstås helt praktisk og konkret – så ikke-endnu-eksperter også kan få glæde af den heuristiske evaluering. Mit bedste bud på en mere nutidig tilgang findes i “A Comparative Evaluation of Heuristic-Based Usability Inspection Methods
Chattratichart, J. & Lindgaard, G. – den kan du findes på ACM, hvis du har adgang dertil.

3) De kognitivt funderede metoder indbefatter metoder som kognitiv gennemgang og Metaphors of Thinking (MOT). Begge metoder tager udgangspunkt i de kognitive processer der foregår i brugerens hjerne når der interageres. Den kognitive gennemgang er en systematisk tilgang til det Norman kalder “Action Cycle“, som er en model over de trin vores tankeprocesser gennemgår i en interaktion (eller handling). Men metoden siger til gengæld ikke noget om hvilke dele af løsningen der skal gennemgåes. MOT tager udgangspunkt 5 metaforer, der tilsammen beskriver 5 forskellige måder vores tankeprocesser fungerer på (meget kort fortalt, læs selv mere…).

Lidt firkantet kan man sige at 1) tager udgangspunkt i designet, 2) tager udgangspunkt i interaktionen og 3) tager udgangspunkt i brugeren. Man kan også sige at forholdet til det konkrekte design der evalueres, bliver mere abstrakt, jo længere man bevæger sig væk fra design-guidelines (hvilket også forklarer behovet for at give klare design-eksempler i de mest abstrakte metoder).

Ok, det var en meget hurtig og generel beskrivelse, men den tjener alligevel til det formål at udpege forskellige typer af tilgange til ekspertvurderingen. Jeg ser dem ofte blandet sammen, fx ligger kendskabet design-guidelines ofte til grund for de problemer der identificeres i de heuristiske evalueringer.

Sidst jeg bad en gruppe usability-kompetencer gennemgå et website med MOT, oplevede jeg at de sagde “jamen, så snart man sætter sig i brugerens sted, så finder man jo altid problemer”. Det skal nok være rigtigt, men det vigtige her er måske netop at lade sig lede og styre af systematikken. At forstå, at uden metodikken, så bliver resultatet aldrig større end ekspertens eget kendskab til usability-problemer eller end af de spørgsmål eksperten så lidt tilfældigt får stillet til designet. Mere konkret betyder det sandsynligvis, at mange ekspertvurderinger kunne blive langt mere værdifulde, samtidigt med at de kunne give et øget fokus på de dele af interaktionen, som ligger udenfor eskpertens vidensfelt (men som måske i langt højere grad ligger indenfor brugerens).

Her bevæger jeg så måske ind på et område, hvor det begynder at gøre lidt ondt på mange, nemlig det faktiske kendskab til, og erfaring med, metoderne – professionalismen kunne jeg måske også være lidt kæk og kalde det. Men ikke mere om det nu.

Herfra vil jeg selv fortsætte med at undersøge og forstå disse metoder, for bedre at kunne rådgive de studerende på IT-Universitetet når de skal igang med ekspertvurderingens glæder. Men jeg håber ovenstående opdeling kan tjene til lidt indsigt, ligesom jeg selv vil prøve at udbygge dne opdeling, ved at knytte metoder og variationer på, i takt med at jeg finder dem. Du kan jo vælge at tilføje eller korrigere…

Ohlhu