Na het einde van een A/B test hoop je op positieve resultaten zodat je de nieuwe variant kunt implementeren. Al dat werk en tijd is dan niet voor niets geweest. De resultaten of de conclusies die je trekt moeten wel kloppen. Je wilt uiteraard niet dat achteraf blijkt dat de nieuwe variant eigenlijk een verslechtering is!
De testresultaten geven niet een eenduidig JA of NEE antwoord. Ze geven aan hoe waarschijnlijk het is dat jouw hypothese succesvol is. Hoe groter de kans, hoe zekerder je kunt zeggen dat jouw aanname klopt.
De data interpreteren
In de eind-testresultaten zie je veel gemiddelde percentages. Daarbij kunnen deze gemiddelde afwijken. Dit betekent dat er risico’s kunnen zijn waarbij een variant niet kan presteren zoals je zou willen. Wat is de impact van zo’n risico en is dat het waard?
Bij zo’n gemiddelde percentage hoort een betrouwbaarheidsinterval. Dat is een percentage dat aangeeft hoe zeker je bent dat de gevonden waarde tussen bepaalde waarden ligt. Bij 95% betekent dat als je de test 100 exact opnieuw zou doen, 95 van van die uitslagen overeenkomen met je verwachtingen.
In de bovenstaande voorbeeld van Google Optimize, laat 95%-betrouwbaarheidsinterval zien dat het resultaat tussen 54.8% en 67.6% ligt. De gemiddelde bouncepercentage was 61.02% (mediaan).
Stel dat een variant B, een gemiddeld bouncepercentage laat zien van 53% dat betekent dat deze relatief minder bounces had t.o.v. 61.02% (variant A). Dus 8.02% daling van de bounces.
De 95% betrouwbaarheidsinterval van 53% is (51% – 55%) t.o.v. 61.02% (54.8% – 67.6%). De bovengrens van 53% overlapt met de ondergrens van 61.02% dus in theorie is er kans dat de varianten hetzelfde resultaat laten zien.
Het verschil in de bouncepercentages tussen variant A en B wordt ook vermeld in Google Optimize. Dit wordt gemodelleerde verbetering genoemd. Dit kan bijvoorbeeld zijn tussen de 3% en 55%. Het is altijd positief en in worst case kan dit ‘maar’ 3% zijn.
In dit geval kun je de betere variant implementeren. Het kan zijn dat de verbetering niet heel veel oplevert en de kans dat het slechter presteert is nihil.
Wanneer de onder- en/of bovengrenzen veel overlap hebben dan is de kans groot dat het verschil komt door toeval en niet door de wijziging in de variant. Vaak is de gemiddelde verbetering dan ook kleiner. Het is dan riskanter om dan een variant toch te implementeren. Er is dan meer onzekerheid.
Betrouwbaarheid resultaten
Bij A/B testen wordt vaak 95% statistische significantie aangehouden. Met de Sample Size Calculator van Optimizely kun je uitrekenen hoe groot je steekproef moet zijn bij 95% statistische significantie. Daarmee kun je bepalen hoe lang je de test moet laten lopen. Dat is belangrijk want als je een test te vroeg beëindigd kan jouw uitslag niet valide zijn.
Om te weten hoeveel bezoekers je nodig hebt moet je weten wat je huidige conversie rate (variant A, baseline ofwel de oorspronkelijke versie) is. Conversie rate kan bijvoorbeeld zijn het aantal kliks gedeeld door het aantal bezoekers op een pagina. Je kunt die informatie vinden in Google Analytics. Vervolgens moet je aangeven wat het gewenste effect (minimum detectable effect) moet zijn van de wijziging in variant B.
Hoe meer conversies hoe beter.
In Google Optimize kun je ook een grafiek zien van de test. Vaak loopt het begin vrij grillig; lijnen kunnen elkaar kruisen. Na meer conversies is het verschil stuk duidelijker en is er meer zekerheid.
Het bepalen van je gewenste effect heeft invloed op de grootte van de steekproef. Hoe groter het verschil, hoe minder bezoekers je nodig hebt en vice versa. Denk je met de kleur van een knop veel effect te hebben of is dat maar klein? Als de verbetering erg klein is dan kan het zijn dat je meer conversies nodig hebt.
Dan is er ook nog tijdsduur. Hoe lang laat je de test lopen en hoe vermijd je dat externe factoren (bijv. verschillen in werkdagen) invloed hebben op de test? Aan de grafiek hierboven zie je dat de lijnen nog grillig lopen in de eerste twee weken. Vaak is het verstanding om minimaal twee of drie weken aan te houden. Anderzijds is ook de vraag hoeveel traffic krijg je op de testpagina? Let op dat je test niet te lang laat lopen. Er is dan kans dat je data vervuild word door externe factoren zoals vakantie en periodieke feestdagen. Let ook op dat cookies verwijderd kunnen worden van de bezoekers van je website.
Website met weinig verkeer
Het kan zijn dat je niet zo’n grote webwinkel draait zoals Bol.com of Coolblue. Je kunt daardoor niet genoeg verkeer hebben om het minimaal aantal bezoekers te halen. In dat geval kun je een aantal dingen doen.
- Zoals de Sample Size Calculator aangeeft. Hoe groter je gewenste effect, hoe minder bezoekers je nodig hebt. Kies dan vooral een wijziging waarvan je denkt dat is een relatief groot verschil ten opzichte van de oorspronkelijke versie.
- Begin testen op je best bezochte pagina’s. Je kunt ook meerdere testen draaien op verschillende pagina’s waar je hetzelfde onderdeel aanpast. Al is dit natuurlijk veel meer werk.
- Een mooie gelegenheid om een A/B test te doen als je van plan bent om een marketing campagne op te zetten. Grote kans dat je een landingspagina hebt bedacht waar je extra veel verkeer verwacht.
- Kijk naar conversies die vaak voorkomen op je website, zoals kliks op bepaalde web elementen. Deze worden ook wel micro-conversies genoemd. Over het algemeen leiden micro-conversies vaak tot macro-conversies (bijvoorbeeld een bestelling). Mensen klikken vaak meer op de elementen in je productpagina dan op de betaalknop bij je afrekenpagina.