Podatność anonimowych baz danych genów na naruszenia bezpieczeństwa danych

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Nowe badanie pokazuje, że anonimowe genetyczne bazy danych są podatne na kradzież tożsamości i naruszenia bezpieczeństwa danych. Naukowcy ostrzegają przed konsekwencjami.

Eine neue Studie zeigt, dass anonyme genetische Datenbanken anfällig sind für Identitätsdiebstahl und Datenschutzverletzungen. Forschende warnen vor den Folgen.
Nowe badanie pokazuje, że anonimowe genetyczne bazy danych są podatne na kradzież tożsamości i naruszenia bezpieczeństwa danych. Naukowcy ostrzegają przed konsekwencjami.

Podatność anonimowych baz danych genów na naruszenia bezpieczeństwa danych

Badanie wzbudziło obawy, że coraz popularniejszy wśród badaczy rodzaj genetycznej bazy danych może zostać wykorzystany do ujawnienia tożsamości uczestników lub powiązania prywatnych informacji zdrowotnych z ich publicznymi profilami genetycznymi.

Zbiory danych jednokomórkowe może zawierać informacje o ekspresji genów w milionach komórek pobranych od tysięcy ludzi. Dane te są często ogólnodostępne i stanowią cenne źródło dla badaczy badających skutki chorób na poziomie komórkowym. Mówi się, że dane są anonimowe, ale badanie opublikowano 2 października w czasopiśmie Cell 1 pokazuje, jak dane genetyczne z jednego badania „można wykorzystać do odkrycia prywatnych informacji o poszczególnych osobach w innym badaniu” – piszą autorzy.

Wyniki podkreślają trudność pogodzenia interesów badaczy z prywatnością dawcy. „Nasze genomy są bardzo identyfikowalne. Mogą wiele powiedzieć o nas, naszych cechach charakterystycznych i podatności na choroby” – mówi współautor badania Gamze Gürsoy, badacz bioinformatyki na Uniwersytecie Columbia w Nowym Jorku. „Możesz zmienić numer swojej karty kredytowej, jeśli stanie się on publiczny, ale nie możesz zmienić swojego genomu”.

Wrażliwe dane

Obawy dotyczące prywatności w genetycznych zbiorach danych były poruszane już wcześniej, ale skupiały się głównie na „danych zbiorczych” dotyczących profili genetycznych. Zawierają one informacje o aktywności genów uśrednione dla dużej populacji komórek, a nie dla pojedynczych komórek.

Wcześniej sądzono, że jednokomórkowe zbiory danych nie będą tak podatne na naruszenia danych ze względu na poziom „szumów” lub różnic w ekspresji genów między różnymi komórkami. Jednak Gürsoy i jej zespół udowodnili, że tak nie jest.

Zespół zbadał trzy publicznie dostępne zestawy danych jednokomórkowych, które obejmowały komórki krwi osób chorych na toczeń, przewlekłą chorobę autoimmunologiczną. Naukowcy odkryli, że mogliby wykorzystać dane dotyczące ekspresji genów do przewidywania struktury genomu danej osoby, łącząc te wartości z informacjami na temat loci cech ilościowych ekspresji (eQTL). Szczegóły eQTL – zmian w chromosomie korelujących z ekspresją genów – są również publicznie dostępne w zbiorach danych dotyczących pojedynczych komórek.

Aby sprawdzić wiarygodność swojej pracy, naukowcy porównali swoje przewidywania dotyczące genomu z bazą danych genomu odpowiadającą wykorzystanym komórkom. Udało im się powiązać większość zbiorów danych z odpowiednim genomem z dokładnością przekraczającą 80%.

W przeciwieństwie do danych dotyczących ekspresji genów i eQTL, pełne bazy danych genomu mogą zazwyczaj przeglądać naukowcy wyłącznie w celu ochrony informacji identyfikujących dawców. Naukowcy zauważają jednak, że dane genomiczne uczestnika mogą być publicznie dostępne gdzie indziej. Mogli na przykład przesłać je na stronę genealogiczną, gdzie użytkownicy przesyłają próbki DNA, aby dowiedzieć się więcej o swoich przodkach. W takim przypadku osoba atakująca może zidentyfikować osobę, której komórki znajdują się w zbiorze danych jednokomórkowych, poprzez analizę jej genomu. Mogłoby to ujawnić dane osobowe powiązane z wrażliwymi cechami, takimi jak zaburzenia psychiczne, ponieważ uczestnicy badań są często wybierani do badania biologii tych złożonych schorzeń.

Tego typu naruszenia danych mogą mieć realne konsekwencje, takie jak dyskryminacja w miejscu pracy, mówi Gürsoy. Dodaje, że wycieki mogą nawet mieć wpływ na przyszłe pokolenia, ponieważ cechy genetyczne mogą być przekazywane potomstwu. „Wszystko, co o nas wiadomo, jest przekazywane z pokolenia na pokolenie” – mówi.

Bradley Malin, który na Uniwersytecie Vanderbilt w Nashville w stanie Tennessee zajmuje się udostępnianiem danych genomicznych na dużą skalę, opisuje badanie jako „nowatorski dodatek i wkład do literatury”. Dodaje, że przyszłe badania mogłyby sprawdzić, czy dane genomiczne można by również połączyć w większe zbiory danych zawierające próbki od tysięcy lub milionów ludzi.

interesy konkurencji

Naukowcy nie są pewni, jak najlepiej rozwiązać problemy związane z prywatnością. „Istnieje chęć ochrony indywidualnej prywatności, ale także chęć wspólnego wspierania badań medycznych, ale niestety są one ze sobą sprzeczne” – mówi Mark Gerstein, który zajmuje się badaniem danych medycznych na Uniwersytecie Yale w New Haven w stanie Connecticut. Najprostszym rozwiązaniem byłoby utrudnienie dostępu do danych genetycznych, ale miałoby to negatywny wpływ na badania – mówi. „Musimy dzielić się i agregować duże ilości informacji” – wyjaśnia. „Jeśli wszystko zablokujemy i uczynimy bardziej prywatnym, to naprawdę utrudnia cały proces”.

W swoim badaniu Gürsoy i jej współpracownicy wzywają do większej przejrzystości w zakresie zagrożeń dla uczestników udostępniających swoje dane genomowe i sugerują, że badacze powinni upewnić się, że dawcy wyrażają zgodę na udostępnianie swoich danych. Inną możliwą drogą mogłoby być szyfrowanie danych osobowych, jeśli stanowią one część publicznej bazy danych. Autorzy przyznają, że skomplikowałoby to proces tworzenia i utrzymywania dokumentacji, ale uważają, że mogłoby to pomóc w ochronie prywatności uczestników.

  1. Walker, CR i in. Komórka https://doi.org/10.1016/j.cell.2024.09.012 (2024).

    Artykuł
    Scholar Google

Pobierz referencje