Sårbarhet av anonyme gendatabaser for datainnbrudd

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

En ny studie viser at anonyme genetiske databaser er sårbare for identitetstyveri og datainnbrudd. Forskere advarer om konsekvensene.

Eine neue Studie zeigt, dass anonyme genetische Datenbanken anfällig sind für Identitätsdiebstahl und Datenschutzverletzungen. Forschende warnen vor den Folgen.
En ny studie viser at anonyme genetiske databaser er sårbare for identitetstyveri og datainnbrudd. Forskere advarer om konsekvensene.

Sårbarhet av anonyme gendatabaser for datainnbrudd

En studie har reist bekymring for at en type genetisk database som blir stadig mer populær blant forskere, kan utnyttes til å avsløre deltakernes identiteter eller koble privat helseinformasjon til deres offentlige genetiske profiler.

Enkeltcelledatasett kan inneholde informasjon om genuttrykk i millioner av celler samlet inn fra tusenvis av mennesker. Disse dataene er ofte fritt tilgjengelige og gir en verdifull ressurs for forskere som studerer effekten av sykdom på cellenivå. Dataene sies å være anonymiserte, men en studie publisert 2. oktober i tidsskriftet Cell 1 viser hvordan genetiske data fra en studie «kan utnyttes til å avdekke privat informasjon om individer i en annen studie», skriver forfatterne.

Resultatene fremhever vanskeligheten med å balansere forskernes interesser med givernes personvern. "Våre genomer er veldig identifiserende. De kan si mye om oss, våre egenskaper og vår mottakelighet for sykdom," sier studiemedforfatter Gamze Gürsoy, en bioinformatikkforsker ved Columbia University i New York City. "Du kan endre kredittkortnummeret ditt hvis det blir offentlig, men du kan ikke endre genomet ditt."

Sensitive data

Personvernhensyn i genetiske datasett har blitt tatt opp før, men har først og fremst fokusert på "bulkdata" av genetiske profiler. Disse inneholder informasjon om genaktivitet i gjennomsnitt over en stor cellepopulasjon i stedet for individuelle celler.

Det ble tidligere antatt at enkeltcelledatasett ikke ville være like sårbare for datainnbrudd på grunn av nivået av "støy", eller variasjon i genuttrykk, mellom ulike celler. Men Gürsoy og teamet hennes klarte å bevise at dette ikke er tilfelle.

Teamet undersøkte tre offentlig tilgjengelige enkeltcelledatasett som inkluderte blodceller fra personer med lupus, en kronisk autoimmun sykdom. Forskerne fant at de kunne bruke genuttrykksdata til å forutsi strukturen til en persons genom ved å kombinere disse verdiene med informasjon om ekspresjonskvantitative egenskaper (eQTLs). Detaljene til eQTLs - variasjoner i kromosomet som korrelerer med genuttrykk - er også offentlig tilgjengelig i enkeltcelledatasett.

For å teste påliteligheten til arbeidet deres, sjekket forskerne deres genomspådommer mot en genomdatabase som tilsvarte cellene som ble brukt. De var i stand til å koble de fleste datasett til det tilsvarende genomet, med en nøyaktighetsgrad på over 80 %.

I motsetning til genuttrykksdata og eQTL-er, kan fullstendige genomdatabaser vanligvis bare sees av forskere for å beskytte donors identifiserende informasjon. Imidlertid bemerker forskerne at en deltakers genomiske data kan være offentlig tilgjengelig andre steder. For eksempel kan de ha lastet dem opp til et slektsforskningsnettsted der brukere sender inn DNA-prøver for å lære mer om deres aner. I dette tilfellet kan en angriper identifisere en person hvis celler er i et enkeltcelledatasett ved å analysere genomet deres. Dette kan avsløre personopplysninger knyttet til en sensitiv egenskap som en psykiatrisk lidelse, ettersom forskningsdeltakere ofte blir valgt ut til å studere biologien til disse komplekse tilstandene.

Datainnbrudd som dette kan få reelle konsekvenser, som for eksempel diskriminering på arbeidsplassen, sier Gürsoy. Hun legger til at lekkasjer til og med kan påvirke fremtidige generasjoner fordi genetiske egenskaper kan overføres til avkom. "Alt som er kjent om oss går i arv gjennom generasjoner," sier hun.

Bradley Malin, som forsker på deling av genomisk data i stor skala ved Vanderbilt University i Nashville, Tennessee, beskriver studien som et "nyt tillegg og bidrag til litteraturen." Han legger til at fremtidig forskning kan utforske om genomiske data også kan kobles sammen i større datasett som inneholder prøver fra tusenvis eller millioner av mennesker.

konkurranseinteresser

Forskere er usikre på hvordan de best kan håndtere personvernhensyn. "Det er et ønske om å beskytte individets personvern, men også et ønske om å fremme medisinsk forskning kollektivt, og dessverre er disse i strid med hverandre," sier Mark Gerstein, som forsker på medisinsk datavitenskap ved Yale University i New Haven, Connecticut. Den enkleste løsningen ville være å gjøre genetiske data vanskeligere tilgjengelig, men det vil påvirke forskningen negativt, sier han. "Vi må dele og samle store mengder informasjon," forklarer han. "Hvis vi blokkerer alt og gjør det mer privat, hindrer det virkelig hele prosessen."

I sin studie ber Gürsoy og hennes kolleger om større åpenhet om risikoen for deltakere som deler sine genomiske data og foreslår at forskere bør sørge for at givere samtykker til å dele dataene deres. En annen mulig vei kan være å kryptere personopplysninger hvis de er en del av en offentlig database. Forfatterne erkjenner at dette ville komplisere prosessen med å opprette og vedlikeholde poster, men tror det kan bidra til å beskytte deltakernes personvern.

  1. Walker, C.R. et al. Celle https://doi.org/10.1016/j.cell.2024.09.012 (2024).

    Artikkel
    Google Scholar

Last ned referanser