Vulnerabilità dei database genetici anonimi alle violazioni dei dati
Un nuovo studio mostra che i database genetici anonimi sono vulnerabili al furto di identità e alle violazioni dei dati. I ricercatori avvertono delle conseguenze.

Vulnerabilità dei database genetici anonimi alle violazioni dei dati
Uno studio ha sollevato preoccupazioni sul fatto che un tipo di database genetico sempre più popolare tra i ricercatori potrebbe essere sfruttato per rivelare le identità dei partecipanti o collegare informazioni sanitarie private ai loro profili genetici pubblici.
Set di dati a cella singola può contenere informazioni sull'espressione genica in milioni di cellule raccolte da migliaia di persone. Questi dati sono spesso disponibili gratuitamente e forniscono una risorsa preziosa per i ricercatori che studiano gli effetti delle malattie a livello cellulare. Si dice che i dati siano resi anonimi, ma uno studio pubblicato il 2 ottobre sulla rivista Cell 1 mostra come i dati genetici di uno studio “possano essere sfruttati per scoprire informazioni private sugli individui in un altro studio”, scrivono gli autori.
I risultati evidenziano la difficoltà di bilanciare gli interessi dei ricercatori con la privacy dei donatori. "I nostri genomi sono molto identificativi. Possono dire molto su di noi, sulle nostre caratteristiche e sulla nostra suscettibilità alle malattie", afferma il coautore dello studio Gamze Gürsoy, ricercatore di bioinformatica alla Columbia University di New York City. "Puoi cambiare il numero della tua carta di credito se diventa pubblico, ma non puoi cambiare il tuo genoma."
Dati sensibili
Problemi di privacy nei set di dati genetici sono stati sollevati in precedenza, ma si sono concentrati principalmente sui “dati di massa” dei profili genetici. Questi contengono informazioni sull'attività genetica media di una grande popolazione cellulare piuttosto che di singole cellule.
In precedenza si pensava che i set di dati di una singola cellula non sarebbero stati così vulnerabili alle violazioni dei dati a causa del livello di “rumore” o variazione nell’espressione genetica tra le diverse cellule. Ma Gürsoy e il suo team sono riusciti a dimostrare che non è così.
Il team ha esaminato tre set di dati unicellulari disponibili al pubblico che includevano cellule del sangue di persone affette da lupus, una malattia autoimmune cronica. I ricercatori hanno scoperto che potevano utilizzare i dati sull’espressione genica per prevedere la struttura del genoma di una persona combinando questi valori con le informazioni sui loci dei tratti quantitativi di espressione (eQTL). I dettagli degli eQTL – variazioni nel cromosoma correlate all’espressione genica – sono disponibili pubblicamente anche in set di dati a singola cellula.
Per testare l'affidabilità del loro lavoro, i ricercatori hanno confrontato le loro previsioni sul genoma con un database del genoma che corrispondeva alle cellule utilizzate. Sono stati in grado di collegare la maggior parte dei set di dati al genoma corrispondente, con un tasso di precisione superiore all’80%.
A differenza dei dati sull'espressione genica e degli eQTL, i database completi del genoma possono in genere essere visualizzati solo dagli scienziati per proteggere le informazioni identificative dei donatori. Tuttavia, i ricercatori notano che i dati genomici di un partecipante potrebbero essere pubblicamente disponibili altrove. Ad esempio, potrebbero averli caricati su un sito Web di genealogia in cui gli utenti inviano campioni di DNA per saperne di più sui loro antenati. In questo caso, un utente malintenzionato potrebbe identificare una persona le cui cellule si trovano in un set di dati a cellula singola analizzandone il genoma. Ciò potrebbe rivelare dati personali associati a una caratteristica sensibile come un disturbo psichiatrico, poiché i partecipanti alla ricerca vengono spesso selezionati per studiare la biologia di queste condizioni complesse.
Violazioni di dati come questa potrebbero avere conseguenze reali, come la discriminazione sul posto di lavoro, afferma Gürsoy. Aggiunge che le fughe di informazioni potrebbero avere un impatto anche sulle generazioni future perché i tratti genetici possono essere trasmessi alla prole. "Tutto ciò che si sa di noi viene tramandato di generazione in generazione", afferma.
Bradley Malin, ricercatore sulla condivisione di dati genomici su larga scala presso la Vanderbilt University di Nashville, nel Tennessee, descrive lo studio come una "nuova aggiunta e contributo alla letteratura". Aggiunge che la ricerca futura potrebbe esplorare se i dati genomici potrebbero anche essere collegati in set di dati più grandi contenenti campioni di migliaia o milioni di persone.
interessi competitivi
Gli scienziati non sono sicuri di come affrontare al meglio i problemi di privacy. "C'è il desiderio di proteggere la privacy individuale ma anche il desiderio di far avanzare la ricerca medica collettiva, e sfortunatamente questi sono in contrasto tra loro", afferma Mark Gerstein, ricercatore di scienza dei dati medici presso l'Università di Yale a New Haven, nel Connecticut. La soluzione più semplice sarebbe rendere più difficile l’accesso ai dati genetici, ma ciò avrebbe un impatto negativo sulla ricerca, afferma. “Abbiamo bisogno di condividere e aggregare grandi quantità di informazioni”, spiega. “Se blocchiamo tutto e lo rendiamo più privato, ciò ostacola davvero l’intero processo”.
Nel loro studio, Gürsoy e i suoi colleghi chiedono una maggiore trasparenza sui rischi per i partecipanti che condividono i loro dati genomici e suggeriscono che i ricercatori dovrebbero garantire che i donatori acconsentano alla condivisione dei loro dati. Un'altra possibile strada potrebbe essere quella di crittografare i dati personali se fanno parte di un database pubblico. Gli autori riconoscono che ciò complicherebbe il processo di creazione e mantenimento dei record, ma ritengono che potrebbe aiutare a proteggere la privacy dei partecipanti.
-
Walker, CR et al. Cella https://doi.org/10.1016/j.cell.2024.09.012 (2024).