Kwetsbaarheid van anonieme genendatabases voor datalekken
Uit een nieuw onderzoek blijkt dat anonieme genetische databases kwetsbaar zijn voor identiteitsdiefstal en datalekken. Onderzoekers waarschuwen voor de gevolgen.

Kwetsbaarheid van anonieme genendatabases voor datalekken
Uit een onderzoek is gebleken dat een soort genetische database die steeds populairder wordt onder onderzoekers, zou kunnen worden misbruikt om de identiteit van deelnemers te onthullen of om privégezondheidsinformatie te koppelen aan hun openbare genetische profielen.
Gegevenssets met één cel kan informatie bevatten over genexpressie in miljoenen cellen verzameld van duizenden mensen. Deze gegevens zijn vaak vrij beschikbaar en vormen een waardevolle bron voor onderzoekers die de effecten van ziekten op cellulair niveau bestuderen. Er wordt gezegd dat de gegevens geanonimiseerd zijn, maar een studie gepubliceerd op 2 oktober in het tijdschrift Cell 1 laat zien hoe genetische gegevens uit het ene onderzoek “kunnen worden misbruikt om privé-informatie over individuen in een ander onderzoek bloot te leggen”, schrijven de auteurs.
De resultaten benadrukken de moeilijkheid om de belangen van onderzoekers in evenwicht te brengen met de privacy van donoren. "Onze genomen zijn zeer identificerend. Ze kunnen veel zeggen over ons, onze kenmerken en onze vatbaarheid voor ziekten", zegt co-auteur Gamze Gürsoy, een bio-informatica-onderzoeker aan de Columbia University in New York City. “Je kunt je creditcardnummer wijzigen als het openbaar wordt, maar je kunt je genoom niet veranderen.”
Gevoelige gegevens
Privacyproblemen in genetische datasets zijn al eerder aan de orde gesteld, maar hebben zich vooral gericht op ‘bulkdata’ van genetische profielen. Deze bevatten informatie over genactiviteit gemiddeld over een grote celpopulatie in plaats van individuele cellen.
Eerder werd gedacht dat eencellige datasets niet zo kwetsbaar zouden zijn voor datalekken vanwege het niveau van ‘ruis’, of variatie in genexpressie, tussen verschillende cellen. Maar Gürsoy en haar team konden bewijzen dat dit niet het geval is.
Het team onderzocht drie openbaar beschikbare eencellige datasets met bloedcellen van mensen met lupus, een chronische auto-immuunziekte. De onderzoekers ontdekten dat ze genexpressiegegevens konden gebruiken om de structuur van het genoom van een persoon te voorspellen door deze waarden te combineren met informatie over expressie kwantitatieve trait loci (eQTLs). De details van eQTL’s – variaties in het chromosoom die correleren met genexpressie – zijn ook openbaar beschikbaar in datasets van één cel.
Om de betrouwbaarheid van hun werk te testen, vergeleken de onderzoekers hun genoomvoorspellingen met een genoomdatabase die overeenkwam met de gebruikte cellen. Ze konden de meeste datasets koppelen aan het overeenkomstige genoom, met een nauwkeurigheid van meer dan 80%.
In tegenstelling tot genexpressiegegevens en eQTL's kunnen volledige genoomdatabases doorgaans alleen door wetenschappers worden bekeken om de identificerende informatie van donoren te beschermen. De onderzoekers merken echter op dat de genomische gegevens van een deelnemer elders openbaar beschikbaar kunnen zijn. Ze hebben ze bijvoorbeeld misschien geüpload naar een genealogische website waar gebruikers DNA-monsters indienen om meer over hun afkomst te weten te komen. In dit geval kan een aanvaller een persoon identificeren wiens cellen zich in een eencellige dataset bevinden door zijn genoom te analyseren. Hierdoor kunnen persoonlijke gegevens aan het licht komen die verband houden met een gevoelig kenmerk, zoals een psychiatrische stoornis, omdat onderzoeksdeelnemers vaak worden geselecteerd om de biologie van deze complexe aandoeningen te bestuderen.
Dergelijke datalekken kunnen reële gevolgen hebben, zoals discriminatie op de werkvloer, zegt Gürsoy. Ze voegt eraan toe dat lekken zelfs toekomstige generaties kunnen beïnvloeden, omdat genetische eigenschappen kunnen worden doorgegeven aan nakomelingen. “Alles wat over ons bekend is, wordt van generatie op generatie doorgegeven”, zegt ze.
Bradley Malin, die onderzoek doet naar het op grote schaal delen van genomische gegevens aan de Vanderbilt Universiteit in Nashville, Tennessee, beschrijft de studie als een “nieuwe toevoeging en bijdrage aan de literatuur.” Hij voegt eraan toe dat toekomstig onderzoek zou kunnen onderzoeken of genomische gegevens ook kunnen worden gekoppeld in grotere datasets met monsters van duizenden of miljoenen mensen.
concurrentiebelangen
Wetenschappers weten niet zeker hoe ze privacyproblemen het beste kunnen aanpakken. “Er is een verlangen om de individuele privacy te beschermen, maar ook een verlangen om medisch onderzoek collectief vooruit te helpen, en helaas staan deze op gespannen voet met elkaar”, zegt Mark Gerstein, die onderzoek doet naar medische datawetenschap aan de Yale University in New Haven, Connecticut. De eenvoudigste oplossing zou zijn om genetische gegevens moeilijker toegankelijk te maken, maar dat zou een negatieve impact hebben op het onderzoek, zegt hij. “We moeten grote hoeveelheden informatie delen en samenvoegen”, legt hij uit. “Als we alles blokkeren en meer privé maken, belemmert dat echt het hele proces.”
In hun onderzoek roepen Gürsoy en haar collega's op tot meer transparantie over de risico's voor deelnemers die hun genomische gegevens delen en suggereren dat onderzoekers ervoor moeten zorgen dat donoren instemmen met het delen van hun gegevens. Een andere mogelijke route zou kunnen zijn om persoonlijke gegevens te versleutelen als deze deel uitmaken van een openbare database. De auteurs erkennen dat dit het proces van het aanmaken en bijhouden van gegevens zou bemoeilijken, maar geloven dat dit de privacy van de deelnemers zou kunnen helpen beschermen.
-
Walker, CR et al. Cel https://doi.org/10.1016/j.cell.2024.09.012 (2024).