Sårbarhet hos anonyma gendatabaser för dataintrång

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

En ny studie visar att anonyma genetiska databaser är sårbara för identitetsstöld och dataintrång. Forskare varnar för konsekvenserna.

Eine neue Studie zeigt, dass anonyme genetische Datenbanken anfällig sind für Identitätsdiebstahl und Datenschutzverletzungen. Forschende warnen vor den Folgen.
En ny studie visar att anonyma genetiska databaser är sårbara för identitetsstöld och dataintrång. Forskare varnar för konsekvenserna.

Sårbarhet hos anonyma gendatabaser för dataintrång

En studie har väckt oro för att en typ av genetisk databas som blir allt mer populär bland forskare skulle kunna utnyttjas för att avslöja deltagarnas identiteter eller koppla privat hälsoinformation till deras offentliga genetiska profiler.

Encellsdatauppsättningar kan innehålla information om genuttryck i miljontals celler som samlats in från tusentals människor. Dessa data är ofta fritt tillgängliga och utgör en värdefull resurs för forskare som studerar effekterna av sjukdomar på cellnivå. Uppgifterna sägs vara anonymiserade, men en studie publicerades den 2 oktober i tidskriften Cell 1 visar hur genetisk data från en studie "kan utnyttjas för att avslöja privat information om individer i en annan studie", skriver författarna.

Resultaten belyser svårigheten att balansera forskarnas intressen med givarnas integritet. "Våra genom är mycket identifierande. De kan säga mycket om oss, våra egenskaper och vår mottaglighet för sjukdomar", säger studiens medförfattare Gamze Gürsoy, en bioinformatikforskare vid Columbia University i New York City. "Du kan ändra ditt kreditkortsnummer om det blir offentligt, men du kan inte ändra ditt genom."

Känsliga data

Integritetsproblem i genetiska datamängder har tagits upp tidigare, men har främst fokuserat på "bulkdata" av genetiska profiler. Dessa innehåller information om genaktivitet i genomsnitt över en stor cellpopulation snarare än enskilda celler.

Man trodde tidigare att encellsdatauppsättningar inte skulle vara lika sårbara för dataintrång på grund av nivån av "brus" eller variation i genuttryck, mellan olika celler. Men Gürsoy och hennes team kunde bevisa att så inte är fallet.

Teamet undersökte tre offentligt tillgängliga encellsdatauppsättningar som inkluderade blodkroppar från personer med lupus, en kronisk autoimmun sjukdom. Forskarna fann att de kunde använda genuttrycksdata för att förutsäga strukturen av en persons genom genom att kombinera dessa värden med information om uttryckskvantitativa egenskaper loki (eQTLs). Detaljerna för eQTLs - variationer i kromosomen som korrelerar med genuttryck - är också offentligt tillgängliga i encellsdatauppsättningar.

För att testa tillförlitligheten i deras arbete kontrollerade forskarna sina genomförutsägelser mot en genomdatabas som motsvarade de använda cellerna. De kunde länka de flesta datamängder till motsvarande genom, med en noggrannhetsgrad på över 80 %.

Till skillnad från genuttrycksdata och eQTL:er kan fullständiga genomdatabaser vanligtvis endast ses av forskare för att skydda donatorernas identifierande information. Forskarna noterar dock att en deltagares genomiska data kan vara allmänt tillgängliga någon annanstans. Till exempel kan de ha laddat upp dem till en släktforskningswebbplats där användare skickar in DNA-prover för att lära sig mer om deras härkomst. I det här fallet kan en angripare identifiera en person vars celler finns i en encellsdatauppsättning genom att analysera deras genom. Detta kan avslöja personuppgifter som är förknippade med en känslig egenskap som en psykiatrisk störning, eftersom forskningsdeltagare ofta väljs ut för att studera biologin hos dessa komplexa tillstånd.

Sådana dataintrång kan få verkliga konsekvenser, som diskriminering på arbetsplatsen, säger Gürsoy. Hon tillägger att läckor till och med kan påverka framtida generationer eftersom genetiska egenskaper kan överföras till avkommor. "Allt som är känt om oss går i arv genom generationer", säger hon.

Bradley Malin, som forskar om storskalig genomisk datadelning vid Vanderbilt University i Nashville, Tennessee, beskriver studien som ett "nytt tillägg och bidrag till litteraturen." Han tillägger att framtida forskning kan undersöka om genomisk data också kan länkas i större datamängder som innehåller prover från tusentals eller miljoner människor.

konkurrensintressen

Forskare är osäkra på hur man bäst kan hantera integritetsproblem. "Det finns en önskan att skydda individens integritet men också en önskan att främja medicinsk forskning kollektivt, och tyvärr står dessa i strid med varandra", säger Mark Gerstein, som forskar om medicinsk datavetenskap vid Yale University i New Haven, Connecticut. Den enklaste lösningen vore att göra genetisk data svårare att komma åt, men det skulle påverka forskningen negativt, säger han. "Vi måste dela och samla stora mängder information", förklarar han. "Om vi ​​blockerar allt och gör det mer privat, hindrar det verkligen hela processen."

I sin studie efterlyser Gürsoy och hennes kollegor större öppenhet om riskerna för deltagare som delar sina genomiska data och föreslår att forskare bör se till att givare samtycker till att dela deras data. En annan möjlig väg kan vara att kryptera personuppgifter om de ingår i en offentlig databas. Författarna erkänner att detta skulle komplicera processen att skapa och underhålla register, men tror att det kan hjälpa till att skydda deltagarnas integritet.

  1. Walker, C.R. et al. Cell https://doi.org/10.1016/j.cell.2024.09.012 (2024).

    Artikel
    Google Scholar

Ladda ner referenser