Interview with Vincent Ginis in DeMorgen.
Van consultancybureau Deloitte tot rector Petra De Sutter en nu ook voormalig hoofdredacteur Peter Vandermeersch: allemaal werden ze betrapt op door AI verzonnen citaten. Waarom laten we ons zo makkelijk vangen door AI-hallucinaties? ‘Bouw zelf een controle in’, zegt AI-professor Vincent Ginis (VUB).
Peter Vandermeersch is de zoveelste die betrapt wordt op verzonnen citaten door AI. Waarom gaan zoveel mensen daarbij de mist in?
Vincent Ginis: “Ik merk bij heel wat mensen, ook bij collega’s en studenten, veel enthousiasme om met AI aan de slag te gaan. Er gaat een nieuwe wereld voor hen open. Daardoor beginnen mensen heviger met die tools te experimenteren, en voor je het weet gebeurt dat op een minder kritische manier.
“Sommige studies tonen aan dat tot 40 procent van de mensen AI gebruikt in hun werk zonder daar transparant over te zijn. Maar een tweede probleem is dat mensen passages letterlijk kopiëren en plakken van een chatbot in een eindproduct. Dat is niet alleen ontransparant, volgens mij is het ook een verkeerd gebruik van deze technologie.”
Waarom verzint AI zo overtuigend citaten die er plausibel uitzien?
“Taalmodellen als ChatGPT, Claude en Gemini zijn generatief: in hun eenvoudigste gedaante genereren ze nieuwe tekst door te voorspellen welk woord het best zou volgen op de vorige woorden. Als je bij een chatbot aandringt en vraagt welke uitspraak een bepaalde persoon over een onderwerp heeft gedaan, ook als dat niet zo was, duw je zo’n systeem al snel richting hallucinaties.
“Zo’n chatbot zet tekst bovendien om in zogeheten tokens en daarna weer in tekst. Ook als je citaten uit een rapport vraagt, bestaat de kans dat zo’n systeem bepaalde citaten parafraseert of samenvoegt.
“Tegelijkertijd is het aantal hallucinaties bij die chatbots al sterk verminderd. Dat is net het probleem. Mochten die chatbots de helft van de tijd hallucineren, zouden we er veel attenter voor zijn. Bij tests die chatbots documenten laten samenvatten, hallucineren ze in 5 procent van de gevallen. We worden dus te weinig uitgedaagd om alles voortdurend te checken, maar het komt genoeg voor om ermee geconfronteerd te worden.”
Veel mensen gebruiken AI om rapporten te analyseren of samen te vatten, zoals Vandermeersch deed. Is het daarvoor dan niet onbetrouwbaar?
“Het hangt ervan af hoe je dat doet. Zo zou ik mensen aanraden om een rapport niet door één AI-chatbot te laten analyseren of samenvatten, maar verschillende chatbots met een andere opdracht of een ander perspectief door zo’n tekst te laten gaan. Of je kunt dat rapport met hulp van AI vergelijken met andere rapporten en zo tot nieuwe inzichten komen.
“Maar dan spreek ik uiteraard over de onderzoekfase. Als je die informatie gebruikt om een tekst te schrijven, is het nog steeds jouw taak om te controleren of alles klopt. Je moet er nog altijd mee omgaan alsof je een briljante maar onbetrouwbare stagiair tot je beschikking hebt.
“Tegelijkertijd zien we deze flagrante voorbeelden van hallucinaties vaker dan zou mogen, want op technisch vlak zijn er al heel wat oplossingen.”
Zoals?
“Mijn hypothese is dat deze flagrante missers vooral voorkomen als mensen gratis chatbots gebruiken in hun standaardinstelling. Die hallucineren er soms nog lustig op los. Maar er bestaan ook redenerende AI-modellen die langer nadenken, een plan maken en hun eigen antwoord controleren. In tests scoren die modellen tot 40 IQ-punten hoger en hallucineren ze minder.
“Je kunt zo’n controle ook zelf inbouwen. Ik heb bijvoorbeeld een tool gemaakt met Claude Code (een codeerprogramma van Anthropic, JL) die controleert of feiten of ideeën in een redenering daadwerkelijk kloppen. Ook gewone chatbots kun je de instructie geven om voor elk citaat een link te geven waar dat citaat te vinden is. Als we dat vaker doen, zouden we al veel van deze uitschuivers vermijden.”