Marlies Wilms Floet 24 juni 2025 12 minuten leestijd

Echte versus synthetische respondenten: lessen uit onderzoek op 5-seconds tests

We krijgen regelmatig de vraag of we een 5-seconds test kunnen uitvoeren op basis van een door AI-gegenereerde steekproef. Dit is namelijk sneller en goedkoper dan te werken met echte respondenten. De vraag is echter of de resultaten vanuit zo’n steekproef wel vergelijkbaar zijn met die vanuit een onderzoek met echte respondenten.

We hebben daarom een onderzoek opgezet waarin we zes 5-seconds tests met echte respondenten hebben gereproduceerd met een vergelijkbare steekproef in ChatGPT-4o. Deze zogenaamde ‘synthetische respondenten’ zijn hier opgesteld op basis van de data van de echte respondenten van het originele onderzoek. Conclusie: in vijf van de zes studies werden zeer grote verschillen gevonden in de resultaten. Een waarschuwing om dus niet ‘zomaar’ een test in AI te gooien en erop te vertrouwen dat het klopt. 

Het is belangrijk dat we gaan begrijpen wat de verschillen verklaren, dat we inzicht krijgen wanneer het wel en niet gebruikt kan worden, wat we het model moeten leren voor betere en meer betrouwbare resultaten, maar ook waar uiteindelijk de grens ligt tussen mens en AI. 

We nemen je mee in de achtergrond, opzet, de prompts, de resultaten en de conclusies van dit vergelijkingsonderzoek naar het gebruik van kunstmatige intelligentie in gebruikersonderzoek. 

De context van synthetische respondenten.

Er zijn al studies gedaan die echte respondenten hebben vergeleken met zogenaamde ‘synthetic users’ (zie bijvoorbeeld dit artikel). Samenvattend komt uit deze studies dat AI-respondenten waarde kunnen toevoegen als aanvulling op traditioneel onderzoek, vooral voor snelheid, schaal en het vullen van steekproefgaten.

Echter, ze missen tot nu toe de diepgang, nuance en betrouwbaarheid van echte menselijke respondenten, vooral bij kwalitatief onderzoek of als het gaat om het begrijpen van complexe, emotionele of innovatieve consumentengedragingen. Voor wetenschappelijk valide en betrouwbare inzichten blijft menselijk onderzoek voorlopig onmisbaar aldus deze onderzoeken. Zie een overzicht van een aantal studies in het tabel hieronder:

Studie / Bron

Opzet & Methode

Belangrijkste bevindingen

NIM (2024)

500 echte vs. 500 AI-respondenten (GPT-4)

AI mist nuance, vertoont mainstream bias, bruikbaar als aanvulling

Emporia Research (B2B)

Echte, synthetische, en profiel-gebaseerde AI

AI heeft positieve bias, weinig variatie, geen volwaardig alternatief

Versta Research / Academisch

ChatGPT-persona’s vs. ANES-surveydata

AI-data niet valide/reproduceerbaar, grote gevoeligheid voor vraagstelling

FieldworkHub

Overzicht en praktijkervaringen

AI voegt waarde toe als aanvulling, niet als vervanging

Dig Insights

Discussie en praktijkvoorbeelden

AI biedt snelheid en kostenvoordeel, maar beperkt in accuraatheid

Voor zover bekend, zijn er voor specifiek 5-seconds test zijn nog geen vergelijkende studies gedaan. Daarom hebben we zes reeds uitgevoerde 5-seconds tests met echte respondenten herhaald via generatieve AI, specifiek ChatGPT, met zogenaamde ‘synthetische’  respondenten.

In dit onderzoek is een vergelijking gemaakt voor 5-seconds-tests op basis van één variabele, namelijk de steekproef. Zo kunnen we leren of dit wel of niet tot verschillen in resultaten leidt. In vervolgonderzoeken kunnen (stapsgewijs) andere variabelen worden meegenomen om ook hiervan de werking te kunnen onderzoeken.

Wat is een 5-seconds test?

Een 5-seconds test is een gebruikerstest waarbij je één of meer versies van een ontwerp (bv. een advertentie, video, payoff, logo, naam) gedurende 5 seconden aan deelnemers toont en vervolgens een reeks vragen stelt. Deze test wordt vaak uitgevoerd om een uiting vooraf te valideren om er zeker van te zijn dat het doel ervan wordt behaald en dus het campagne- of mediabudget goed wordt besteed. In usability testing en ux research biedt een 5-seconds test een zeer waardevolle inzichten en is geschikt voor kwantitatief onderzoek.

Opzet van het onderzoek

De steekproef in ChatGPT (versie o4)  is samengesteld op basis van de profielen van de uitgevoerde tests van het panel van de originele tests. We hebben de CSV-data uit de originele tests steeds geupload in Chat GPT en op basis hiervan profielen laten maken. En dat werkt fijn, omdat ChatGPT goed om kan gaan met enorme hoeveelheden data.

Dezelfde varianten zijn vervolgens geupload in ChatGPT en exact dezelfde vragen zijn gesteld als in de originele studies. Hierna is aan ChatGPT gevraagd conclusies te trekken en advies te geven met betrekking tot de onderzoeksvraag (ook ingevoerd in ChatGPT). Per studie is een vergelijking gemaakt tussen de antwoorden op de specifieke vragen en tussen de conclusies/advies mbt de onderzoeksvraag.

Een vergelijking is gedaan op zes studies.

Branche/case

Uiting/varianten

Onderzoeksvraag (kort)

Non-profit

Video: 2 varianten

Wordt boodschap begrepen?

Retail

Advertentie: 4 varianten

Welke boodschap scoort best op merkherkenning en communicatiedoelstelling?

B2B

Advertentie: 3 varianten

Welke boodschap scoort best op merkherkenning en communicatiedoelstelling?

B2B

Logo: 4 varianten

Associaties per variant en treden er negatieve associaties op?

B2B

Adwords-advertentie: 2 varianten

Recall en begrip van inhoud van de advertentie.

Retail

Advertentie: 3 varianten

Recall merk en begrip boodschap.

Prompts voor gebruikerstests met generatieve AI.

Voor het repliceren van de onderzoeken via AI zijn de volgende prompts gebruikt:

  1. Ik upload hierbij  een csv document van een 5-seconds test met daarin de data van de respondenten die hieraan hebben deelgenomen .Maak op basis van deze data een precies vergelijkbare steekproef  die ik wil gebruiken om dezelfde test te simuleren met AI.
  2. Gebruik bovenstaande beschrijving van de steekproef om de volgende 5-seconds-test uit te voeren op de varianten die ik hierbij upload. De respondenten zien de varianten [x]-seconden en krijgen hierna deze vragen [vul hier exact dezelfde vragen in van de originele test].  Doel van de test is [vul doel van de test in zoals exact omschreven in de originele studie]. Geef de resultaten per vraag (inclusief quotes van de respondenten), trek vervolgens conclusies en geef advies op basis van het gegeven doel van deze 5-seconds test. 

Resultaten vanuit de synthetische respondenten.

Case

Verschil in uitkomsten?

Opvallend verschil AI vs. echt panel

Belangrijkste observatie

Non-profit

Ja

AI vond lange video beter; echt panel korte video effectiever en werd de informatie beter onthouden

AI miste geheugen/gedragsaspecten zoals  mogelijkheid op informatie-overload.

Retail

Ja

AI adviseert andere variant dan echt panel

Groot verschil in conclusies & advies

B2B

Ja

AI ziet geen verkeerde associaties in C, echt panel wel

Verschillende interpretatie

B2B

Beperkt

Grotendeels vergelijkbare conclusies

AI geeft meerdere associaties en herkent hierin een negatieve associatie, op basis waarvan eenzelfde conclusie wordt getrokken.

B2B

Ja

AI concludeert tegenovergestelde variant als beste

Echte respondenten interpreteren context specifieker

Retail

Ja

AI vindt A visueel sterkst, echt panel B meest effectief

Verschil in wat men herinnert en hoe merk blijft hangen

Conclusie en vervolg

  1. Er zijn in dit onderzoek grote verschillen gevonden in de resultaten en conclusies/aanbevelingen tussen de studies met echte respondenten en door AI-gegenereerde respondenten die zijn opgesteld op basis van dezelfde criteria uit een eerder panel. Een waarschuwing dus om dus niet ‘zomaar’ een test in AI te gooien en erop te vertrouwen dat het klopt.
  2. Alleen in een studie waarin werd gevraagd om pure associaties, kwamen de resultaten van de echte respondenten en AI enigszins overeen.
  3. Waar AI in dit onderzoek tekort schiet:
    1. Emotieherkenning en nuance: AI overschat soms impact of herkent geen subtiele negatieve reacties in natuurlijke taal
    2. Informatie vs. interpretatie: AI waardeert ‘meer informatie’ als beter, terwijl echte respondenten juist overprikkeld raken
    3. Contextgevoeligheid: AI mist de culturele/real-life context om merkboodschappen in de juiste doelgroepbeleving te interpreteren
    4. AI geeft altijd antwoord, waarbij de echte respondenten soms aangeven het niet te weten.

    Waarin AI in dit onderzoek vergelijkbare resultaten gaf:

  4. Generatie van open associaties bij een duidelijk logo
  5. Waar in de onderzoeksvraag een duidelijke richting gegeven werd (bestaat er een kans op een negatieve associatie?)

Advies en vervolg van het gebruik van synthetische respondenten.


  1. Zet AI of machine learning niet ‘zomaar’ in om synthetische respondenten te maken en een 5-seconds test uit te voeren
  2. Verder onderzoek is nodig om inzicht te krijgen welke factoren bepalend zijn om tot meer vergelijkbare en dus betrouwbare resultaten te komen voor 5-seconds tests en te leren of en zo ja waar de grens ligt tussen AI-respondenten en echte mensen. Mogelijke variabelen hierin zijn:
    1. gebruik van alternatieve LLM’s en/of modellen
    2. gebruik van andere prompts
    3. training met data en onderzoek/theorieën, psychologische principes
    4. verschillen in onderzoeksvragen

Kortom, AI in gebruikersonderzoek is iets waar onderzoekers de komende jaren veel mee te maken gaan hebben. Van analyseren tot automatisering of het herkennen van patronen, denk altijd aan het volgende: Wil je AI gebruiken om sneller inzichten te verkrijgen uit gebruikerstests of conceptvalidaties?

AI helpt bij het verwerken van grote hoeveelheden data, het genereren van eerste indrukken en het simuleren van denkpatronen — maar het vervangt menselijke nuance niet. Door zorgvuldig ontworpen interview vragen te combineren met slimme AI-toepassingen kun je werken aan maximale impact, zonder concessies te doen aan betrouwbaarheid.

Experimenteer, leer, doe nieuwe kennis op en ontdek waar de kracht van mens en machine samenkomt voor beter onderbouwde beslissingen in je eigen case. Uit dit onderzoek blijkt dat AI-respondenten momenteel grote verschillen laten zien ten opzichte van echte respondenten, vooral bij emotie, nuance en context – een krachtige reminder dat AI niet zomaar één-op-één inzetbaar is voor betrouwbaar gebruikersonderzoek. Wanneer dat wel het geval is? We blijven het onderzoeken.

Vervolg op dit onderzoek is gepland om te zien of we met een ander model en/of beter trainen van de LLM’s (Large Language Models) meer vergelijkbare resultaten krijgen en/of welke prompt’s en/of variabelen hierin een rol spelen. We nodigen je van harte uit om hierin mee te denken en suggesties te geven. 

Meer weten over gebruikersonderzoek of de inzet van AI hierin? Neem contact met ons op, we helpen je graag verder!

Neem contact op

avatar

Marlies Wilms Floet

Marlies is Digitaal Strateeg en teamlead CRO. Digitale groeistrategie, User Experience Research en experimenteren: daar maak je haar blij mee!

Hulp nodig met jouw volgende stap?

Even verder praten kan geen kwaad.
Contact opnemen