Een nieuwe studie van wetenschappers Markus Mueller, Kathrin Gruber en Dennis Fok van Erasmus School of Economics onderzoekt hoe AI realistische synthetische data kan genereren. Met dezelfde technologie waarmee afbeeldingen worden gegenereerd, creëert hun model gestructureerde data die echte datasets nabootst—een oplossing voor onderzoekers die te maken hebben met beperkingen op het delen van data.
De onderzoekers van de capaciteitsgroep Econometrie richten zich op het gebruik van AI voor het genereren van tabelvormige data, zoals spreadsheets of databases. Hun onderzoek richt zich specifiek op diffusie-probabilistische modellen—dezelfde technologie die wordt gebruikt door populaire AI-beeldgenereerprogramma’s zoals Stable Diffusion en DALL-E. In plaats van afbeeldingen te maken, genereren deze modellen echter volledig nieuwe datapunten die de patronen van bestaande datasets weerspiegelen. De bevindingen worden gepresenteerd op de prestigieuze International Conference on Learning Representations (ICLR) in april 2025, en gepubliceerd in de conferentieproceedings.
Werken met gevoelige of beperkte datasets
Veel onderzoekers werken met vertrouwelijke of eigendomsgebonden data die niet gedeeld kan worden vanwege privacyafspraken, bedrijfsbeperkingen of ethische overwegingen. Anderen hebben te maken met kleine steekproeven of ontbrekende data. Dit onderzoek laat zien dat AI deze obstakels kan helpen overwinnen door hoogwaardige synthetische data te genereren.
Door te trainen op een bestaande dataset leert het model de statistische structuur van de data en kan het vervolgens nieuwe, realistische gegevens genereren. Het voordeel? Onderzoekers kunnen AI-gegeneerde versies van hun datasets delen zonder gevoelige informatie bloot te geven.
Het model kan volledig nieuwe datapunten genereren door een aangeleerde verdeling toe te wijzen met willekeurige complexiteit. Dit maakt het een geavanceerd en effectief hulpmiddel voor het creëren van tabelvormige data. Omdat het model lokaal draait, hoeven onderzoekers geen data te uploaden naar externe clouddiensten, waardoor volledige naleving van privacyregels gewaarborgd blijft. Dit stelt onderzoekers in staat om (een kopie van) hun data publiekelijk te delen, wat de toegang tot zeldzame datasets democratiseert en samenwerking en innovatie bevordert.
Met AI-gegeneerde data kunnen onderzoekers ontbrekende gegevens aanvullen, nieuwe hypotheses testen en met rijkere datasets werken—terwijl privacy beschermd blijft. De studie benadrukt het potentieel van generatieve AI voor de meest gangbare datatypes in de sociale en economische wetenschappen.
- Promovendus
- Universitair Docent
- Professor
- Meer informatie
De open-access paper "Continuous Diffusion for Mixed-Type Tabular Data" is hier beschikbaar.
De open-source code van het model is hier beschikbaar.
Voor meer informatie kunt u contact opnemen met Ronald de Groot, Media & Public Relations Officer bij Erasmus School of Economics, rdegroot@ese.eur.nl, mobiel: 06 53 641 846.