Anonyme gendatabasers sårbarhed over for databrud

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

En ny undersøgelse viser, at anonyme genetiske databaser er sårbare over for identitetstyveri og databrud. Forskere advarer om konsekvenserne.

Eine neue Studie zeigt, dass anonyme genetische Datenbanken anfällig sind für Identitätsdiebstahl und Datenschutzverletzungen. Forschende warnen vor den Folgen.
En ny undersøgelse viser, at anonyme genetiske databaser er sårbare over for identitetstyveri og databrud. Forskere advarer om konsekvenserne.

Anonyme gendatabasers sårbarhed over for databrud

En undersøgelse har rejst bekymring for, at en type genetisk database, der bliver mere og mere populær blandt forskere, kunne udnyttes til at afsløre deltagernes identitet eller knytte private sundhedsoplysninger til deres offentlige genetiske profiler.

Enkeltcelledatasæt kan indeholde information om genekspression i millioner af celler indsamlet fra tusindvis af mennesker. Disse data er ofte frit tilgængelige og udgør en værdifuld ressource for forskere, der studerer virkningerne af sygdom på celleniveau. Dataene siges at være anonymiserede, men en undersøgelse offentliggjort den 2. oktober i tidsskriftet Cell 1 viser, hvordan genetiske data fra et studie "kan udnyttes til at afdække private oplysninger om individer i et andet studie," skriver forfatterne.

Resultaterne fremhæver vanskeligheden ved at balancere forskernes interesser med donorernes privatliv. "Vores genomer er meget identificerende. De kan sige meget om os, vores egenskaber og vores modtagelighed for sygdom," siger studiets medforfatter Gamze Gürsoy, en bioinformatikforsker ved Columbia University i New York City. "Du kan ændre dit kreditkortnummer, hvis det bliver offentligt, men du kan ikke ændre dit genom."

Følsomme data

Bekymringer om beskyttelse af personlige oplysninger i genetiske datasæt er blevet rejst før, men har primært fokuseret på "bulkdata" af genetiske profiler. Disse indeholder information om genaktivitet i gennemsnit over en stor cellepopulation snarere end individuelle celler.

Det var tidligere antaget, at enkeltcelledatasæt ikke ville være så sårbare over for databrud på grund af niveauet af "støj" eller variation i genekspression mellem forskellige celler. Men Gürsoy og hendes team var i stand til at bevise, at det ikke er tilfældet.

Holdet undersøgte tre offentligt tilgængelige enkeltcelledatasæt, der inkluderede blodceller fra mennesker med lupus, en kronisk autoimmun sygdom. Forskerne fandt ud af, at de kunne bruge genekspressionsdata til at forudsige strukturen af ​​en persons genom ved at kombinere disse værdier med information om ekspressionskvantitative trait loci (eQTL'er). Detaljerne i eQTL'er - variationer i kromosomet, der korrelerer med genekspression - er også offentligt tilgængelige i enkeltcelledatasæt.

For at teste pålideligheden af ​​deres arbejde tjekkede forskerne deres genomforudsigelser mod en genomdatabase, der svarede til de anvendte celler. De var i stand til at linke de fleste datasæt til det tilsvarende genom med en nøjagtighed på over 80 %.

I modsætning til genekspressionsdata og eQTL'er kan fulde genomdatabaser typisk kun ses af videnskabsmænd for at beskytte donorers identificerende information. Forskerne bemærker dog, at en deltagers genomiske data kan være offentligt tilgængelige andre steder. For eksempel kan de have uploadet dem til et slægtsforskningswebsted, hvor brugere indsender DNA-prøver for at lære mere om deres herkomst. I dette tilfælde kunne en angriber identificere en person, hvis celler er i et enkeltcelledatasæt ved at analysere deres genom. Dette kunne afsløre personlige data forbundet med en følsom karakteristik såsom en psykiatrisk lidelse, da forskningsdeltagere ofte er udvalgt til at studere biologien af ​​disse komplekse tilstande.

Databrud som dette kan have reelle konsekvenser, såsom diskrimination på arbejdspladsen, siger Gürsoy. Hun tilføjer, at lækager endda kan påvirke fremtidige generationer, fordi genetiske egenskaber kan overføres til afkom. "Alt, hvad man ved om os, går i arv gennem generationer," siger hun.

Bradley Malin, der forsker i storstilet genomisk datadeling ved Vanderbilt University i Nashville, Tennessee, beskriver undersøgelsen som en "ny tilføjelse og bidrag til litteraturen." Han tilføjer, at fremtidig forskning kunne udforske, om genomiske data også kunne kædes sammen i større datasæt, der indeholder prøver fra tusinder eller millioner af mennesker.

konkurrence interesser

Forskere er usikre på, hvordan man bedst kan løse privatlivsproblemer. "Der er et ønske om at beskytte den enkeltes privatliv, men også et ønske om at fremme medicinsk forskning kollektivt, og desværre er disse i modstrid med hinanden," siger Mark Gerstein, der forsker i medicinsk datavidenskab ved Yale University i New Haven, Connecticut. Den enkleste løsning ville være at gøre genetiske data sværere at få adgang til, men det ville påvirke forskningen negativt, siger han. "Vi skal dele og samle store mængder information," forklarer han. "Hvis vi blokerer alt og gør det mere privat, hæmmer det virkelig hele processen."

I deres undersøgelse opfordrer Gürsoy og hendes kolleger til større gennemsigtighed om risici for deltagere, der deler deres genomiske data, og foreslår, at forskere bør sikre, at donorer giver samtykke til at dele deres data. En anden mulig vej kunne være at kryptere persondata, hvis det er en del af en offentlig database. Forfatterne anerkender, at dette ville komplicere processen med at oprette og vedligeholde registreringer, men mener, at det kan hjælpe med at beskytte deltagernes privatliv.

  1. Walker, C.R. et al. Celle https://doi.org/10.1016/j.cell.2024.09.012 (2024).

    Artikel
    Google Scholar

Download referencer