Door: Gerson Veenstra (met hulp van ChatGPT)
Zelfs als je al jaren naar SXSW gaat, kun je af en toe toch nog bij een sessie terechtkomen die je vooraf anders had ingeschat. Bij de titel 'Impact of Simulated Data on AI and the Future', schoot ik meteen in de negatieve stand: want het grote gevaar is natuurlijk dat AI-modellen in elkaar storten (model collapse) als ze getraind worden op data die ze zelf hebben gesimuleerd. Maar de panelleden zien het vooral als een kans, al werd het woord vertrouwen wel vaak genoemd.
Wat is gesimuleerde data en waarom is het belangrijk?
Gesimuleerde data, of synthetische data, is kunstmatig gegenereerde informatie die echte wereldscenario's nabootst. Dat is vooral waardevol in situaties waarin echte data moeilijk te verkrijgen is, bijvoorbeeld omdat het te duur, te gevaarlijk of te zeldzaam is.
Neem zelfrijdende auto's: je kunt niet wachten tot er een echt ongeluk gebeurt om een AI-model te trainen. In plaats daarvan simuleer je scenario’s, zoals een hert dat ’s nachts plotseling de weg oprent of een zwerm vleermuizen die onverwachts opduikt. Dit stelt ontwikkelaars in staat om hun modellen veiliger en robuuster te maken voordat ze de weg op gaan. In fraudeopsporing is dit niet anders. Fraudeurs passen continu hun werkwijze aan, waardoor gesimuleerde data nodig is om AI-systemen te trainen op patronen die nog niet eerder zijn waargenomen.
Een onzichtbare kracht in productontwikkeling en wetenschap
Synthetische data is niet alleen nuttig voor veiligheid en detectie, maar ook voor innovatie. Kleine bedrijven die geen budget hebben voor grootschalige consumententesten kunnen met gesimuleerde data honderden varianten van een productidee testen voordat het op de markt komt. Dit verlaagt de kosten en maakt innovatie toegankelijker.
Een van de meest baanbrekende toepassingen is te vinden in de wetenschap, met name in de zoektocht naar fusie-energie. Wetenschappers proberen al decennialang energie op te wekken zoals de zon dat doet. Maar het proces is complex en nog steeds niet volledig verklaard. Dankzij AI en gesimuleerde data kunnen nu miljoenen experimenten worden gesimuleerd om te voorspellen welke configuraties het meeste kans van slagen hebben. Dat heeft ertoe geleid dat er vorig jaar een fusieproces werd ontdekt dat in de praktijk werkt, hoewel wetenschappers nog niet exact begrijpen waarom.
Ook in de maakindustrie is synthetische data revolutionair. Bedrijven gebruiken digitale simulaties om hun productieprocessen te testen en te optimaliseren voordat er ook maar één machine gebouwd is. "Een digitaal model van een fabriek laat je fouten vinden voordat er één schroef is aangedraaid", merkte een van de panelleden op.
Vertrouwen en transparantie
Met al deze toepassingen rijst een belangrijke vraag: hoe weet je of je een AI-model kunt vertrouwen? Een van de panelleden stelde het scherp: "80 procent van AI is het model, slechts 20 procent is de code." Dat betekent dat de betrouwbaarheid grotendeels afhangt van de data waarmee het model is getraind.
Om dat vertrouwen te vergroten, werd er een interessante vergelijking gemaakt met de voedingsindustrie. "Vroeger bestonden er geen etiketten op eten en drinken, maar nu helpen ze consumenten om betere keuzes te maken." Waarom zou AI geen vergelijkbaar label kunnen krijgen? Een transparante beschrijving van waarop een model is getraind, welke datasets zijn gebruikt en wat de foutmarge is, kan gebruikers helpen om beter geïnformeerde beslissingen te nemen.
Risico’s: model collapse en ethische dilemma’s
Hoewel gesimuleerde data enorme voordelen biedt, zijn er ook risico's. Een groot gevaar is model collapse: als AI steeds wordt getraind op door AI gegenereerde data, kan het steeds verder afdrijven van de werkelijkheid. Dit werd vergeleken met een kopie van een kopie maken: na verloop van tijd vervagen de details en wordt de output minder betrouwbaar.
Een ander risico is misbruik. Hoe voorkomen we dat gesimuleerde data wordt ingezet om mensen te manipuleren of verkeerde conclusies te trekken? Dit vraagt om duidelijke ethische richtlijnen en controlemechanismen. Transparantie is daarbij cruciaal.
Dus: is gesimuleerde data een zegen of vloek?
De sessie maakte duidelijk dat gesimuleerde data een essentieel hulpmiddel is voor de ontwikkeling van AI, met toepassingen die variëren van zelfrijdende auto's tot grensverleggende wetenschap. Maar met grote kracht komt grote verantwoordelijkheid: zonder transparantie en foutcorrectie kan AI de connectie met de echte wereld verliezen.
De technologie ontwikkelt zich razendsnel, maar het is aan ons om ervoor te zorgen dat ze op de juiste manier wordt ingezet. Zoals een van de sprekers het verwoordde: "AI heeft de potentie om de wereld te veranderen, maar alleen als we het goed doen." Zelf heb ik niet het vertrouwen van de panelleden. Zeker met het voorbeeld in mijn achterhoofd van socialmediabedrijven en hoe het tot nu toe met OpenAI gaat. Maar het begint met bewustwording. En daar helpen sessies zoals deze aan mee.
Verantwoording: dit verslag heb ik gemaakt met ChatGPT die ik als input het transcript en mijn aantekeningen heb gegeven.