Zraniteľnosť anonymných génových databáz voči narušeniu údajov
Nová štúdia ukazuje, že anonymné genetické databázy sú zraniteľné voči krádeži identity a narušeniu údajov. Vedci varujú pred následkami.

Zraniteľnosť anonymných génových databáz voči narušeniu údajov
Štúdia vyvolala obavy, že typ genetickej databázy, ktorá je medzi výskumníkmi čoraz obľúbenejšia, by sa mohol využiť na odhalenie identity účastníkov alebo prepojenie súkromných zdravotných informácií s ich verejnými genetickými profilmi.
Množiny údajov s jednou bunkou môže obsahovať informácie o génovej expresii v miliónoch buniek zozbieraných od tisícok ľudí. Tieto údaje sú často voľne dostupné a poskytujú cenný zdroj pre výskumníkov, ktorí študujú účinky chorôb na bunkovej úrovni. Údaje sú vraj anonymizované, no štúdia bola zverejnená 2. októbra v časopise Cell 1 ukazuje, ako možno genetické údaje z jednej štúdie „využiť na odhalenie súkromných informácií o jednotlivcoch v inej štúdii,“ píšu autori.
Výsledky poukazujú na ťažkosti pri vyvažovaní záujmov výskumníkov so súkromím darcov. "Naše genómy sú veľmi identifikačné. Dokážu povedať veľa o nás, našich vlastnostiach a náchylnosti k chorobám," hovorí spoluautorka štúdie Gamze Gürsoyová, výskumníčka v oblasti bioinformatiky na Kolumbijskej univerzite v New Yorku. "Číslo svojej kreditnej karty môžete zmeniť, ak bude verejné, ale nemôžete zmeniť svoj genóm."
Citlivé údaje
Obavy o súkromie v genetických súboroch údajov boli vznesené už skôr, ale zamerali sa predovšetkým na „hromadné údaje“ genetických profilov. Tieto obsahujú informácie o génovej aktivite spriemerovanej naprieč veľkou populáciou buniek a nie jednotlivými bunkami.
Predtým sa predpokladalo, že súbory údajov s jednou bunkou nebudú také citlivé na porušenie údajov z dôvodu úrovne „šumu“ alebo variácií v génovej expresii medzi rôznymi bunkami. Gürsoy a jej tím však dokázali, že to tak nie je.
Tím skúmal tri verejne dostupné jednobunkové súbory údajov, ktoré zahŕňali krvné bunky od ľudí s lupusom, chronickým autoimunitným ochorením. Výskumníci zistili, že môžu použiť údaje o génovej expresii na predpovedanie štruktúry genómu človeka kombináciou týchto hodnôt s informáciami o lokusoch kvantitatívnych znakov expresie (eQTL). Podrobnosti o eQTL – variáciách v chromozóme, ktoré korelujú s génovou expresiou – sú tiež verejne dostupné v súboroch údajov s jednou bunkou.
Aby otestovali spoľahlivosť svojej práce, výskumníci porovnali svoje predpovede genómu s databázou genómu, ktorá zodpovedala použitým bunkám. Dokázali prepojiť väčšinu súborov údajov s príslušným genómom s presnosťou nad 80 %.
Na rozdiel od údajov o génovej expresii a eQTL môžu úplné databázy genómu zvyčajne prezerať iba vedci, aby chránili identifikačné informácie darcov. Vedci však poznamenávajú, že genomické údaje účastníka by mohli byť verejne dostupné inde. Mohli ich napríklad nahrať na genealogickú webovú stránku, kde používatelia odosielajú vzorky DNA, aby sa dozvedeli viac o svojom pôvode. V tomto prípade by útočník mohol identifikovať osobu, ktorej bunky sú v súbore údajov s jednou bunkou, analýzou ich genómu. To by mohlo odhaliť osobné údaje spojené s citlivou charakteristikou, ako je psychiatrická porucha, keďže účastníci výskumu sú často vyberaní na štúdium biológie týchto zložitých stavov.
Porušenie údajov, ako je toto, môže mať skutočné následky, ako je diskriminácia na pracovisku, hovorí Gürsoy. Dodáva, že úniky môžu dokonca ovplyvniť budúce generácie, pretože genetické vlastnosti môžu byť prenášané na potomstvo. „Všetko, čo je o nás známe, sa dedí z generácie na generáciu,“ hovorí.
Bradley Malin, ktorý skúma rozsiahle zdieľanie genómových údajov na Vanderbilt University v Nashville, Tennessee, opisuje štúdiu ako „nový doplnok a príspevok do literatúry“. Dodáva, že budúci výskum by mohol preskúmať, či by mohli byť genomické údaje prepojené aj vo väčších súboroch údajov obsahujúcich vzorky od tisícok alebo miliónov ľudí.
súťažné záujmy
Vedci si nie sú istí, ako najlepšie riešiť obavy o súkromie. „Existuje túžba chrániť súkromie jednotlivca, ale aj túžba posunúť medicínsky výskum kolektívne, a tieto sú, žiaľ, vo vzájomnom rozpore,“ hovorí Mark Gerstein, ktorý sa zaoberá výskumom medicínskych údajov na Yale University v New Haven, Connecticut. Najjednoduchším riešením by bolo sťažiť prístup ku genetickým údajom, čo by však negatívne ovplyvnilo výskum, hovorí. „Potrebujeme zdieľať a zhromažďovať veľké množstvo informácií,“ vysvetľuje. "Ak všetko zablokujeme a urobíme to viac súkromné, skutočne to bráni celému procesu."
Gürsoy a jej kolegovia vo svojej štúdii vyzývajú na väčšiu transparentnosť o rizikách pre účastníkov, ktorí zdieľajú svoje genomické údaje, a navrhujú, aby výskumníci zabezpečili, že darcovia budú súhlasiť so zdieľaním ich údajov. Ďalšou možnou cestou by mohlo byť zašifrovanie osobných údajov, ak sú súčasťou verejnej databázy. Autori uznávajú, že by to skomplikovalo proces vytvárania a udržiavania záznamov, no veria, že by to mohlo pomôcť chrániť súkromie účastníkov.
-
Walker, C. R. a kol. Bunka https://doi.org/10.1016/j.cell.2024.09.012 (2024).