Vulnérabilité des bases de données génétiques anonymes aux violations de données
Une nouvelle étude montre que les bases de données génétiques anonymes sont vulnérables au vol d’identité et aux violations de données. Les chercheurs mettent en garde contre les conséquences.

Vulnérabilité des bases de données génétiques anonymes aux violations de données
Une étude a fait craindre qu'un type de base de données génétiques de plus en plus populaire parmi les chercheurs puisse être exploité pour révéler l'identité des participants ou relier des informations privées sur la santé à leurs profils génétiques publics.
Ensembles de données à cellule unique peut contenir des informations sur l’expression des gènes dans des millions de cellules collectées auprès de milliers de personnes. Ces données sont souvent disponibles gratuitement et constituent une ressource précieuse pour les chercheurs qui étudient les effets des maladies au niveau cellulaire. Les données seraient anonymisées, mais une étude publiée le 2 octobre dans la revue Cell 1 montre comment les données génétiques d’une étude « peuvent être exploitées pour découvrir des informations privées sur des individus dans une autre étude », écrivent les auteurs.
Les résultats mettent en évidence la difficulté de trouver un équilibre entre les intérêts des chercheurs et la vie privée des donateurs. "Nos génomes sont très identifiants. Ils peuvent en dire beaucoup sur nous, nos caractéristiques et notre susceptibilité aux maladies", déclare Gamze Gürsoy, co-auteur de l'étude et chercheur en bioinformatique à l'Université Columbia de New York. "Vous pouvez changer votre numéro de carte de crédit s'il devient public, mais vous ne pouvez pas changer votre génome."
Données sensibles
Problèmes de confidentialité dans les ensembles de données génétiques ont été soulevées auparavant, mais se sont principalement concentrées sur les « données globales » des profils génétiques. Ceux-ci contiennent des informations sur l’activité des gènes moyennée sur une grande population cellulaire plutôt que sur des cellules individuelles.
On pensait auparavant que les ensembles de données monocellulaires ne seraient pas aussi vulnérables aux violations de données en raison du niveau de « bruit » ou de variation de l’expression des gènes entre les différentes cellules. Mais Gürsoy et son équipe ont pu prouver que ce n’est pas le cas.
L’équipe a examiné trois ensembles de données unicellulaires accessibles au public comprenant des cellules sanguines provenant de personnes atteintes de lupus, une maladie auto-immune chronique. Les chercheurs ont découvert qu'ils pouvaient utiliser les données d'expression génique pour prédire la structure du génome d'une personne en combinant ces valeurs avec des informations sur les locus de traits quantitatifs d'expression (eQTL). Les détails des eQTL – variations du chromosome en corrélation avec l’expression des gènes – sont également accessibles au public dans des ensembles de données unicellulaires.
Pour tester la fiabilité de leurs travaux, les chercheurs ont comparé leurs prédictions génomiques à une base de données génomique correspondant aux cellules utilisées. Ils ont pu relier la plupart des ensembles de données au génome correspondant, avec un taux de précision supérieur à 80 %.
Contrairement aux données d'expression génétique et aux eQTL, les bases de données complètes sur le génome ne peuvent généralement être consultées que par les scientifiques afin de protéger les informations d'identification des donneurs. Cependant, les chercheurs notent que les données génomiques d'un participant pourraient être accessibles au public ailleurs. Par exemple, ils pourraient les avoir téléchargés sur un site Web de généalogie sur lequel les utilisateurs soumettent des échantillons d’ADN pour en savoir plus sur leur ascendance. Dans ce cas, un attaquant pourrait identifier une personne dont les cellules se trouvent dans un ensemble de données unicellulaire en analysant son génome. Cela pourrait révéler des données personnelles associées à une caractéristique sensible telle qu’un trouble psychiatrique, car les participants à la recherche sont souvent sélectionnés pour étudier la biologie de ces conditions complexes.
De telles violations de données pourraient avoir de réelles conséquences, comme la discrimination sur le lieu de travail, explique Gürsoy. Elle ajoute que les fuites pourraient même avoir un impact sur les générations futures, car des traits génétiques peuvent être transmis à la progéniture. « Tout ce que l’on sait de nous se transmet de génération en génération », dit-elle.
Bradley Malin, qui effectue des recherches sur le partage de données génomiques à grande échelle à l'Université Vanderbilt de Nashville, Tennessee, décrit l'étude comme « un ajout novateur et une contribution à la littérature ». Il ajoute que de futures recherches pourraient déterminer si les données génomiques pourraient également être liées à des ensembles de données plus vastes contenant des échantillons provenant de milliers ou de millions de personnes.
intérêts concurrentiels
Les scientifiques ne savent pas comment répondre au mieux aux problèmes de confidentialité. « Il existe un désir de protéger la vie privée des individus, mais aussi un désir de faire progresser la recherche médicale collectivement, et malheureusement, ceux-ci sont en contradiction les uns avec les autres », déclare Mark Gerstein, chercheur en science des données médicales à l'Université de Yale à New Haven, Connecticut. La solution la plus simple serait de rendre plus difficile l’accès aux données génétiques, mais cela aurait un impact négatif sur la recherche, dit-il. « Nous devons partager et regrouper de grandes quantités d’informations », explique-t-il. "Si nous bloquons tout et rendons tout cela plus privé, cela entrave vraiment l'ensemble du processus."
Dans leur étude, Gürsoy et ses collègues appellent à une plus grande transparence sur les risques encourus par les participants qui partagent leurs données génomiques et suggèrent que les chercheurs devraient s'assurer que les donneurs consentent au partage de leurs données. Une autre voie possible pourrait consister à chiffrer les données personnelles si elles font partie d’une base de données publique. Les auteurs reconnaissent que cela compliquerait le processus de création et de conservation des dossiers, mais estiment que cela pourrait contribuer à protéger la vie privée des participants.
-
Walker, CR et coll. Cellule https://doi.org/10.1016/j.cell.2024.09.012 (2024).