Methoden voor het anonimiseren van kwalitatieve data

Neem voor vragen contact op met je Privacy Officer (PO). Op de My.EUR-pagina van Privacy Office (PO) vind je de contactgegevens van je facultaire PO.

Dingen om over na te denken voordat je data verzamelt

Een van de beste manieren om de privacy van onderzoeksdeelnemers te beschermen, is bepaalde identificeerbare informatie helemaal niet te verzamelen. Houd bij het plannen van je onderzoek rekening met dataminimalisatie. Beperk het verzamelen van persoonlijke informatie tot gegevens die direct relevant en noodzakelijk zijn voor het doel van je onderzoek. Als het mogelijk is in je onderzoek, kun je deelnemers bijvoorbeeld vragen om, voordat de gegevens worden verzameld, hun ervaringen te anonimiseren door het gebruik van hun volledige persoonsnamen, exacte data, werklocaties of gedetailleerde informatie met betrekking tot derden te vermijden.

Als onderdeel van onderzoeksinformatie mogen persoonsgegevens nooit openbaar gemaakt worden, tenzij een deelnemer daarvoor toestemming heeft gegeven, bij voorkeur schriftelijk. Zie voor meer informatie over het verkrijgen van toestemming deze link.

Het plannen van anonimisering in een vroeg stadium van het onderzoek (bijvoorbeeld in het gegevensbeheerplan) zal je helpen bij het bepalen van de middelen die nodig zijn in de verschillende fasen van de levenscyclus van het onderzoek.

Bij gebrek aan toestemming moeten de data die je verstrekt anoniem zijn. Anonimisering kan het beste vroeg in het onderzoeksproces worden gepland om de anonimiseringskosten te helpen verminderen. Opgemerkt moet worden dat anonimisering bij kwalitatieve gegevens gaat om het 'balanceren' tussen twee verschillende prioriteiten: het beschermen van de identiteit van deelnemers en het behouden van de waarde en integriteit van de gegevens. Overmatige verwijdering van informatie in kwalitatieve data zoals tekst of audio-/video-opnames kan leiden tot vervorming van data, waardoor ze onbruikbaar, onbetrouwbaar of misleidend worden. Om een evenwicht te vinden tussen privacybescherming en het nuttig houden van data, moet anonimisering worden overwogen naast geïnformeerde toestemming en toegangscontroles.

Het vooraf plannen en overeenkomen met deelnemers tijdens het toestemmingsproces, over wat wel en niet mag worden opgenomen of getranscribeerd, kan een veel effectievere manier zijn om data te creëren die het onderzoeksproces en de bijdrage van deelnemers nauwkeurig weergeven. Als bijvoorbeeld de naam van een werkgever niet bekend mag worden gemaakt, dient vooraf te worden afgesproken dat deze niet wordt genoemd tijdens een interview. Dit is gemakkelijker dan tijd besteden aan het later verwijderen van een naam uit de opname of transcriptie.

Persoonsgegevens bevatten informatie die direct of indirect een natuurlijke persoon identificeert (voor definities en voorbeelden zie deze link). Over het algemeen moeten directe identifiers en sterke indirecte identifiers worden verwijderd of vervangen door pseudoniemen. Indirecte identifiers kunnen worden verwijderd of gecategoriseerd. In het geval van kwalitatieve gegevens betekent categoriseren het verruwen van identificerende informatie, wat een betere keuze is als de indirecte identifier essentieel is voor het begrijpen van de gegevens. Gebruik bijvoorbeeld categorieën zoals [20-25 jaar] in plaats van de leeftijd van een deelnemer te vermelden. Dit betreft indirecte identifiers als: Postcode, Wijk/Stadsdeel, Woongemeente, Regio, Gemeentetype, Geboortejaar, Leeftijd, Huishoudensamenstelling, Beroep, Opleiding, Moedertaal, Nationaliteit, Werkplek/Werkgever, Misdaad of straf , Vertrouwenspositie of lidmaatschap + alle bijzondere persoonsgegevens.

Best practices voor pseudonimisering/anonimisering van kwalitatieve data

Anonimisering van audiovisuele data, zoals het bewerken van digitale afbeeldingen of audio-opnamen, moet zorgvuldig gebeuren. Het weglaten van echte namen of plaatsnamen is acceptabel, maar het verbergen van stemmen door de toonhoogte in een opname te wijzigen, of het verbergen van gezichten door delen van een videobeeld aanzienlijk te pixeliseren, vermindert de bruikbaarheid van data. Deze processen zijn ook zeer arbeidsintensief en duur.

Als de vertrouwelijkheid van audiovisuele data een probleem is, is het beter om de toestemming van de deelnemer te verkrijgen om de data ongewijzigd te gebruiken en te delen. Waar anonimisering zou leiden tot te veel verlies van data-inhoud, kan het reguleren van de toegang tot data een betere strategie zijn.

  • Plan anonimisering en experimenteer met een paar bestanden op het moment van transcriptie of eerste artikel. Longitudinale studies kunnen een uitzondering zijn als relaties tussen interviewgolven speciale aandacht nodig hebben voor geharmoniseerde bewerking.
  • Gebruik pseudoniemen of generieke omschrijvingen om identificerende informatie te bewerken, in plaats van die informatie onleesbaar te maken.
  • Gebruik pseudoniemen of vervangingen die consistent zijn in het hele onderzoeksteam en het project. Bijvoorbeeld dezelfde pseudoniemen gebruiken in publicaties en vervolgonderzoek.
  • Identificeer vervangingen in tekst duidelijk, bijvoorbeeld met [haakjes] of gebruik XML-tags zoals <seg>te anonimiseren woord</seg>.
  • Gebruik 'zoek-en-vervang'-technieken zorgvuldig, zodat er geen onbedoelde wijzigingen worden aangebracht en verkeerd gespelde woorden niet worden gemist.
  • Maak een kopie van de bestanden die geanonimiseerd moeten worden en anonimiseer de gekopieerde bestanden. Op deze manier kunnen eventuele fouten in het anonimiseren nog hersteld worden.
  • Maak een back-up van de originele, onbewerkte versie van de bestanden (maar sla deze apart op) voor gebruik binnen het onderzoeksteam en voor bewaring. Voor personen die zowel de onbewerkte versie als de geanonimiseerde versie hebben, worden de gegevens gepseudonimiseerd.
  • Maak een pseudonimiseringssleutel (ook wel anonimiseringslogboek genoemd) van alle uitgevoerde vervangingen, aggregaties of verwijderingen en bewaar een dergelijk logbestand veilig en gescheiden van de geanonimiseerde databestanden.

  1. Zoek en markeer directe identifiers door het transcript te lezen.
  2. Beoordeel indirecte identifiers:
    • Kan de identiteit van een deelnemer achterhaald worden uit informatie in het databestand?
    • Kan een derde partij worden onthuld of schade worden berokkend door informatie in het databestand?
  3. Beoordeel het bredere plaatje:
    • Welke identificerende informatie over een individuele deelnemer kan worden genoteerd uit alle data en documentatie die beschikbaar is voor een gebruiker? Verwijder (of pseudonimiseer) directe identifiers.
    • Welke indirecte identifiers zijn essentieel voor het begrijpen van de data? Redigeer of categoriseer de indirecte identifiers.
  4. Beoordeel het resterende openbaarmakingsrisico opnieuw.

Lees verder

De UK Data Service heeft een hulpprogramma voor tekstanonimisering ontwikkeld met installatie-instructies. Het gebruikt MS Word-macro's voor het helpen anonimiseren van kwalitatieve data. De tool anonimiseert of wijzigt data niet, maar vindt en markeert cijfers en woorden die beginnen met hoofdletters in de tekst. Cijfers en woorden met hoofdletters zijn vaak onthullend, het kunnen namen, bedrijven, geboortedata, adressen, onderwijsinstellingen en landen zijn.

CESSDA heeft een gedetailleerd voorbeeld/oefening van het anonimiseren van een transcript onderaan deze pagina.

Op de pagina van het Finse Social Science Data Archive vind je praktische tips en een gedetailleerde gids met technieken voor het anonimiseren van kwalitatieve data (die ook kan worden gebruikt als anonimisering slechts tot op zekere hoogte mogelijk is).

UK Data Service heeft een hele pagina met best practices voor het transcriberen van audiovisuele data. Als je besluit (of overweegt) om externe transcribenten of software voor automatische spraakherkenning (ASR) te gebruiken om een eerste transcriptie uit te voeren, neem dan contact op met je Privacy Officer om te bespreken of en welke overeenkomsten moeten worden ondertekend (vóór het gebruik van de software).

Met de open-source tekstanonimiseringssoftware Textwash kunnen onderzoekers die de basis van Python kennen, automatisch potentiële identifiers in Engelstalige tekst detecteren en vervangen. Meer informatie is te vinden in dit artikel van Kleinberg en collega's (2022) en op de GitHub-pagina van het project. Voortbouwend op Textwash, zal de tool FAMTAFOS een gebruiksvriendelijke desktop-app bevatten waarmee gebruikers Engelse en Nederlandse teksten op schaal kunnen anonimiseren.

Het advies op deze pagina is samengesteld op basis van de informatie van de UK Data Service, CESSDA,het Finse Social Science Data Archive en FORS.

Deze pagina is voor het laatst bijgewerkt in juni 2024. Heb je niet-werkende links of (schijnbaar) onjuiste informatie gevonden? Stuur dan een e-mail met als titel 'Website content' naar datasteward@eur.nl.

Vergelijk @count opleiding

  • @title

    • Tijdsduur: @duration
Vergelijk opleidingen