Anonīmu gēnu datu bāzu neaizsargātība pret datu pārkāpumiem
Jauns pētījums liecina, ka anonīmas ģenētiskās datu bāzes ir neaizsargātas pret identitātes zādzībām un datu pārkāpumiem. Pētnieki brīdina par sekām.

Anonīmu gēnu datu bāzu neaizsargātība pret datu pārkāpumiem
Pētījums ir radījis bažas, ka pētnieku vidū arvien populārāku ģenētisko datubāzu veidu varētu izmantot, lai atklātu dalībnieku identitāti vai saistītu privāto veselības informāciju ar viņu publiskajiem ģenētiskajiem profiliem.
Vienas šūnas datu kopas var saturēt informāciju par gēnu ekspresiju miljoniem šūnu, kas savāktas no tūkstošiem cilvēku. Šie dati bieži ir brīvi pieejami un ir vērtīgs resurss pētniekiem, kas pēta slimību ietekmi šūnu līmenī. Tiek apgalvots, ka dati ir anonimizēti, taču pētījums publicēts 2. oktobrī žurnālā Cell 1 parāda, kā viena pētījuma ģenētiskos datus "var izmantot, lai atklātu privātu informāciju par personām citā pētījumā", raksta autori.
Rezultāti norāda uz grūtībām līdzsvarot pētnieku intereses ar donoru privātumu. "Mūsu genomi ir ļoti identificējoši. Tie var daudz pateikt par mums, mūsu īpašībām un mūsu uzņēmību pret slimībām," saka pētījuma līdzautore Gamze Gürsoy, bioinformātikas pētniece Kolumbijas Universitātē Ņujorkā. "Jūs varat mainīt savu kredītkartes numuru, ja tas kļūst publisks, bet jūs nevarat mainīt savu genomu."
Sensitīvi dati
Privātuma problēmas ģenētisko datu kopās ir izvirzīti iepriekš, bet galvenokārt ir vērsti uz ģenētisko profilu “masveida datiem”. Tie satur informāciju par gēnu aktivitāti, kas aprēķināta vidēji lielai šūnu populācijai, nevis atsevišķām šūnām.
Iepriekš tika uzskatīts, ka vienas šūnas datu kopas nebūs tik neaizsargātas pret datu pārkāpumiem "trokšņa" līmeņa vai gēnu ekspresijas atšķirību dēļ starp dažādām šūnām. Bet Gürsoy un viņas komanda spēja pierādīt, ka tas tā nav.
Komanda pārbaudīja trīs publiski pieejamas vienšūnu datu kopas, kas ietvēra asins šūnas no cilvēkiem ar vilkēdi, hronisku autoimūnu slimību. Pētnieki atklāja, ka viņi var izmantot gēnu ekspresijas datus, lai prognozētu cilvēka genoma struktūru, apvienojot šīs vērtības ar informāciju par ekspresijas kvantitatīvo iezīmju lokusiem (eQTL). Sīkāka informācija par eQTL - hromosomu variācijām, kas korelē ar gēnu ekspresiju - ir arī publiski pieejama vienas šūnas datu kopās.
Lai pārbaudītu sava darba uzticamību, pētnieki pārbaudīja genoma prognozes, salīdzinot ar genoma datu bāzi, kas atbilst izmantotajām šūnām. Viņi varēja saistīt lielāko daļu datu kopu ar atbilstošo genomu ar precizitāti, kas pārsniedz 80%.
Atšķirībā no gēnu ekspresijas datiem un eQTL, pilnas genoma datu bāzes parasti var apskatīt tikai zinātnieki, lai aizsargātu donoru identifikācijas informāciju. Tomēr pētnieki atzīmē, ka dalībnieka genoma dati varētu būt publiski pieejami citur. Piemēram, viņi varētu būt augšupielādējuši tos ģenealoģijas vietnē, kur lietotāji iesniedz DNS paraugus, lai uzzinātu vairāk par saviem senčiem. Šajā gadījumā uzbrucējs varētu identificēt personu, kuras šūnas atrodas vienas šūnas datu kopā, analizējot viņu genomu. Tas varētu atklāt personas datus, kas saistīti ar sensitīvu pazīmi, piemēram, psihiskiem traucējumiem, jo pētījuma dalībnieki bieži tiek atlasīti, lai pētītu šo sarežģīto stāvokļu bioloģiju.
Šādiem datu pārkāpumiem var būt reālas sekas, piemēram, diskriminācija darba vietā, saka Gürsoy. Viņa piebilst, ka noplūdes var pat ietekmēt nākamās paaudzes, jo ģenētiskās iezīmes var tikt nodotas pēcnācējiem. "Viss, kas par mums zināms, tiek nodots paaudzēs," viņa saka.
Bredlijs Malins, kurš pēta liela mēroga genoma datu apmaiņu Vanderbiltas universitātē Nešvilā, Tenesī, šo pētījumu raksturo kā "jaunu papildinājumu un ieguldījumu literatūrā". Viņš piebilst, ka turpmākie pētījumi varētu izpētīt, vai genoma datus varētu saistīt arī lielākās datu kopās, kurās ir paraugi no tūkstošiem vai miljoniem cilvēku.
konkurences intereses
Zinātnieki nav pārliecināti, kā vislabāk risināt privātuma problēmas. "Ir vēlme aizsargāt individuālo privātumu, kā arī vēlme kolektīvi veicināt medicīnisko izpēti, un diemžēl tie ir pretrunā viens ar otru," saka Marks Geršteins, kurš pēta medicīnas datu zinātni Jēlas universitātē Ņūheivenā, Konektikutā. Vienkāršākais risinājums būtu padarīt ģenētiskos datus grūtāk pieejamus, taču tas negatīvi ietekmētu pētniecību, viņš saka. "Mums ir jādalās un jāapkopo liels informācijas apjoms," viņš skaidro. "Ja mēs visu bloķēsim un padarīsim to privātāku, tas patiešām kavē visu procesu."
Savā pētījumā Gürsoy un viņas kolēģi aicina nodrošināt lielāku pārredzamību par riskiem dalībniekiem, kuri dalās ar saviem genoma datiem, un iesaka pētniekiem nodrošināt, ka donori piekrīt dalīties ar saviem datiem. Vēl viens iespējamais veids varētu būt personas datu šifrēšana, ja tie ir daļa no publiskas datu bāzes. Autori atzīst, ka tas sarežģītu ierakstu izveides un uzturēšanas procesu, taču uzskata, ka tas varētu palīdzēt aizsargāt dalībnieku privātumu.
-
Walker, C.R. et al. Šūna https://doi.org/10.1016/j.cell.2024.09.012 (2024).