Een dataset gebaseerd op originele data van een universiteit, waardoor het niet meer te herleiden is naar echte studenten. Dominique van Deursen, data scientist bij het Business Intelligence Competence Center (BICC) van onze universiteit, lanceerde onlangs in samenwerking met de Vrije Universiteit in Amsterdam zo’n simulatiedataset met synthetische studentendata. Zij en haar team zijn met de Simulatiedataset Studiedata ook genomineerd voor een Computable Award.
Zo’n twee jaar werkt Dominique van Deursen inmiddels bij de Algemene Bestuursdienst BICC. Als data scientist houdt zij zich bezig met allerlei vormen van informatievoorziening in en rondom de universiteit. Onlangs kwam het project omtrent de synthetische studentendata op haar pad, dat in het kader van de zone Studiedata, een samenwerkingsverband tussen Erasmus Universiteit Rotterdam en Vrije Universiteit Amsterdam, werd gerealiseerd. Zone Studiedata is een landelijk initiatief dat zich inzet voor onderwijsverbetering met behulp van IT. Versnellingsplan Onderwijsinnovatie met ICT is initiatiefnemer en opdrachtgever van de simulatiedataset.
Om te beginnen, wat zijn synthetische data?
“Veel mensen denken dat synthetische data op een bepaalde manier is afgeleid van originele data, maar dat is niet zo. Synthetische data zijn volledig door een computersimulatie gegenereerd en niet te vergelijken met geanonimiseerde originele data. De personen in de simulatiedataset zijn niet-bestaande personen die kunstmatig zijn gegenereerd door een computeralgoritme."
Waarvoor kun je een simulatiedataset op basis van studiedata gebruiken?
“De simulatiedataset die wij hebben gemaakt bestaat uit studie-inschrijfdata en studievoortgangdata en dat is maar een klein deel van alle soorten studiedata die er zijn. Het gebruik van studiedata loopt daarnaast ook heel breed uiteen. Denk bijvoorbeeld aan een studieadviseur die geïnteresseerd is in een bepaald type data om studenten beter te kunnen begeleiden, docenten die het gebruiken om bepaalde inzichten te doen om hiermee hun vakken beter in te richten, of een opleidingsdirecteur die geïnteresseerd is in de kwaliteit van een opleiding ten opzichte van een andere opleiding. Het gezamenlijk doel hangt vaak samen met het verbeteren van de kwaliteit van onderwijs.”
Studiedata, met name inschrijfdata en studievoortsgangdata bevat vaak privacygevoelige informatie. Met welke reden is deze simulatiedataset gecreëerd?
“Ja, dat klopt. Studie inschrijfdata en studievoortgangdata bevatten persoonlijke gegevens. Met de benodigde achtergrondkennis kun je zonder te weten wie de persoon is, toch herleiden wie de betreffende persoon achter de gegevens is. Dat is een risico en daar mag je als gebruiker van data niet zomaar een beroep op doen. Bij het gebruik van studiedata krijg je daarom onvermijdelijk te maken met wetgeving omtrent privacygevoelige data: de Algemene Verordening Gegevensbescherming (AVG).”
“Vanwege deze wetgeving is samenwerking tussen studenten en docenten van verschillende instellingen lastig. Logisch, want het gaat in veel gevallen om bijzonder privacygevoelige informatie. Als persoon wil je natuurlijk niet dat zomaar iemand als derde partij met jouw persoonlijke gegevens iets kan doen, ook al is het met goede bedoelingen. Om samenwerking tussen verschillende instellingen mogelijk te maken is een dataset nodig waarbij men wel gebruik kan maken van de gegevens die erin staan, maar die tegelijkertijd ook de privacy van de mensen uit de dataset waarborgt. Zo ontstond het uiteindelijke idee om een simulatiedataset bestaande uit synthetische data te ontwikkelen.”
Zijn er al mensen die de dataset hebben gebruikt in hun onderzoek?
“Jazeker, onlangs is er een EUR-studente afgestudeerd die gebruik heeft gemaakt van onze synthetische dataset. Zij gebruikte de dataset om te onderzoeken of er meer ethische modellen mogelijk zijn in analyses hoe universiteiten studenten beter kunnen begeleiden tijdens hun opleiding. Er wordt vaak gedacht aan instroomeisen. Je moet bepaalde cijfers hebben gehaald in je vooropleiding. Hoe ga je daarmee om in het geval van internationale studenten? Zij hebben vaak geen Nederlandse vooropleiding gehad waardoor je ze niet langs dezelfde meetlat kun leggen en je andere indicatoren moet gebruiken. Door het gebruik van de synthetische dataset laat de studente zien welke indicatoren zinvol en ethisch verantwoord zijn om te gebruiken.”
Met de simulatiedataset zijn jullie genomineerd voor een Computable Award. Wat doet de nominatie met je?
“Ik vind het super dat het project genomineerd is en dat er op deze manier meer zichtbaarheid komt voor synthetische data. Ik hoop dat er hierdoor ook andere projecten uit kunnen voortvloeien. Zo hoorde ik onlangs dat gemeentes ook interesse hebben in het gebruik ervan. Hiermee zou je bijvoorbeeld privacygevoelige informatie van een bepaalde gemeente kunnen gebruiken op een manier die verantwoord is en tegelijkertijd de privacy waarborgt. Ook voor dat soort kwesties is synthetische data een heel goed alternatief.”
Synthetische dataset werkt voor diverse onderwijsdoeleinden heel goed
Marlon Domingus is Functionaris Gegevensbescherming bij onze universiteit en adviseert en informeert het CVB en EUR-medewerkers over de verplichting van de AVG. In die rol was hij ook betrokken bij het project van Dominique van Deursen.
“Als je in samenwerkingsverband met grote datasets wilt werken, liggen er verschillende uitdagingen. Je moet veel organisatorische en technische maatregelen nemen om ervoor zorgen dat je de privacy van de persoonsgegevens kunt waarborgen. Zo’n synthetische dataset werkt voor diverse onderwijsdoeleinden heel goed. Met een hele rijke dataset kun je er allerlei zaken rondom analyse leren zonder dat dit persoonsgegevens zijn die wettelijke bescherming hebben van de AVG. Ik heb Dominique met veel plezier betrokken bij een traject met de stad Den Haag en het CBS om te komen tot een synthetische dataset. Men was daar ook onder de indruk van de ervaring van Dominique in het Studiedata simulatiedataset project. Er wordt nog gewerkt aan financiering voor zo'n traject.”
- Meer informatie
Onze universiteit is tweemaal genomineerd voor een Computable Award! In de categorie Onderwijsproject zijn Dominique van Deursen en haar team met de Simulatiedataset Studiedata genomineerd. In de categorie Digitale Innovatie is de EUR / Erasmus MC genomineerd met de Grow it!-app. De Grow It!-app steunt jongeren bij het omgaan met stress, verveling en eenzaamheid en kwam tot stand dankzij een ZonMw-subsidie. Wil jij ervoor zorgen dat onze universiteit kans maakt op een Computable Award? Breng dan snel je stem uit via deze link. Stemmen kan nog tot en met zondag 10 oktober.