Når man som jeg, permanent har en 5-10 splittests kørende, går der en del tid med at kigge på testtal og deres udvikling. Generelt kigger jeg forbi mine tests på optimizely en gang om dagen, primært for at vurdere om jeg skal sætte dem på pause eller ej. Men når jeg nu er forbi kigger jeg da også nysgerrigt på tallene og glæder mig til de konklusioner jeg skal drage. Men de er drilske de tal, for de ændrer sig over tid og gårdsdagens konklusion kan i mellemtiden være blevet spist af konverteringer til fordel for en anden testvariation.
Jeg ser to umiddelbare udfordringer: Tid og konverteringsvariation.
Vi ved godt alle sammen, at flere testdata giver mere troværdige resultater. Jeg har test hvor 200 konverteringer giver et tydeligt resultat og test med 4000 konverteringer uden et tydeligt resultat. Jeg har test hvor resultaterne ser solide ud efter en uge, men ser mudrede ud igen efter 2. De fleste testværktøjer viser resultaternes troværdighed i form af et tal (eller en grafisk visning), en type for statistisk signifikans, der på baggrund af en meget avanceret formel (really) sætter tal på om resultaterne er statistisk troværdige. Det tal skal man tage meget alvorligt. 95% sikkerhed er normen, men 99% eller 100% er langt at foretrække.
(Det ser flot ud herover, men notér lige hvor få konverteringer der er i spil)
Når du ser andres resultater, så kig efter antal konverteringer og statistisk signifikans. Ofte skal du se godt efter, for det er ikke altid folk i branchen er villige til rigtigt at vise de tal frem
Jeg har tidligere skrevet at man ikke kan tage andre konverterings-forbedrings-procenter for gode vare, hvilket jeg kun kan bekræfte efter selv at have testet mere, men skal man tage temperaturen af kvaliteten i andres test, (fx de konsulenter du har betalt dyrt for) så er det netop føromtalte tal der skal kigges efter.
Nå, men tid. Jo altså: Giv dine testresultater tid til at stabelisere sig. Lomme-metoden er at se på grafernes jævnhed. Begynder de at danse, så skal man være forsigtig:
Havde jeg truffet beslutninger på baggrund af ovenstående graf for tidligt, så havde konklusionerne været forkerte. Det er en reel udfordring.
Konverteringsvariation: Det leder mig til en relateret udfordring, nemlig at konverteringsrater ikke er stabile. De kan, ligesom besøgstal, være stærkt svingende. De er også påvirket af omverdenen, af trafik, af kampagner og alt muligt andet. Hvis du er sej er dine splittest segmenterede, sådan at kun en bestemt del af din trafik indgår og der dermed skabes et mere jævnt billede. Men langt de fleste (mig selv inklusive) tester på tværs af al trafik. Hvilket også er ok langt hen ad vejen, selvom det er en fejlkilde vi må forholde os til.
Jeg kan ikke lade være med at blive lidt irriteret, når jeg som her har dykkende konvertering:

Trøsten er, at forholdet mellem de to grafer netop er relativt og derfor stadig udtrykker en forskel mellem de to de variationer. Hvis jeg oveni oplever grafer med de krydsende konverteringsrater, så skaber det jo unægteligt en vis usikkerhed.
Jeg forstår godt ønsket om at at få hurtige resultater, om ikke at bruge alle sine "impressions" op på kontoen (fordi de koster penge) og for at få store og tydelige forskellige i variationernes konverteringsrater. Men faktum er bare, at konverteringsoptimering, ligesom alt andet i denne IT-branche, er drilsk og at man (ligesom i Google Analytics) skal holde tungen lige i munden, når man skal aflæse og reagere på disse tal.
God fornøjelse – hører gerne fra dig hvis du har lignende erfaringer.
/Ole G.










For nyligt skrev jeg et indlæg til et (u)navngivent netværk at usability-interesserede. Jeg spurgte hvad deltagerne mente om mit 







