Vulnerabilidade de bancos de dados genéticos anônimos a violações de dados

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Um novo estudo mostra que bancos de dados genéticos anônimos são vulneráveis ​​ao roubo de identidade e à violação de dados. Os pesquisadores alertam para as consequências.

Eine neue Studie zeigt, dass anonyme genetische Datenbanken anfällig sind für Identitätsdiebstahl und Datenschutzverletzungen. Forschende warnen vor den Folgen.
Um novo estudo mostra que bancos de dados genéticos anônimos são vulneráveis ​​ao roubo de identidade e à violação de dados. Os pesquisadores alertam para as consequências.

Vulnerabilidade de bancos de dados genéticos anônimos a violações de dados

Um estudo levantou preocupações de que um tipo de base de dados genética cada vez mais popular entre os investigadores pudesse ser explorada para revelar as identidades dos participantes ou ligar informações privadas de saúde aos seus perfis genéticos públicos.

Conjuntos de dados de célula única pode conter informações sobre a expressão genética em milhões de células coletadas de milhares de pessoas. Estes dados estão muitas vezes disponíveis gratuitamente e fornecem um recurso valioso para os investigadores que estudam os efeitos das doenças a nível celular. Os dados seriam anonimizados, mas um estudo publicado em 2 de outubro na revista Cell 1 mostra como os dados genéticos de um estudo “podem ser explorados para descobrir informações privadas sobre indivíduos em outro estudo”, escrevem os autores.

Os resultados destacam a dificuldade de equilibrar os interesses dos investigadores com a privacidade dos doadores. "Nossos genomas são muito identificadores. Eles podem dizer muito sobre nós, nossas características e nossa suscetibilidade a doenças", diz o coautor do estudo Gamze Gürsoy, pesquisador de bioinformática da Universidade de Columbia, na cidade de Nova York. “Você pode alterar o número do seu cartão de crédito se ele se tornar público, mas não pode alterar o seu genoma.”

Dados confidenciais

Preocupações com a privacidade em conjuntos de dados genéticos foram levantadas antes, mas se concentraram principalmente em “dados em massa” de perfis genéticos. Eles contêm informações sobre a atividade genética calculada em média em uma grande população de células, em vez de células individuais.

Anteriormente, pensava-se que os conjuntos de dados unicelulares não seriam tão vulneráveis ​​a violações de dados devido ao nível de “ruído”, ou variação na expressão genética, entre diferentes células. Mas Gürsoy e sua equipe conseguiram provar que não é esse o caso.

A equipe examinou três conjuntos de dados unicelulares disponíveis publicamente que incluíam células sanguíneas de pessoas com lúpus, uma doença autoimune crônica. Os pesquisadores descobriram que poderiam usar dados de expressão gênica para prever a estrutura do genoma de uma pessoa, combinando esses valores com informações sobre expressão de loci de características quantitativas (eQTLs). Os detalhes dos eQTLs – variações no cromossomo que se correlacionam com a expressão genética – também estão disponíveis publicamente em conjuntos de dados unicelulares.

Para testar a fiabilidade do seu trabalho, os investigadores compararam as suas previsões genómicas com uma base de dados genómica que correspondia às células utilizadas. Eles conseguiram vincular a maioria dos conjuntos de dados ao genoma correspondente, com uma taxa de precisão superior a 80%.

Ao contrário dos dados de expressão genética e dos eQTLs, os bancos de dados completos do genoma normalmente só podem ser visualizados por cientistas para proteger as informações de identificação dos doadores. No entanto, os investigadores observam que os dados genómicos de um participante podem estar disponíveis publicamente noutro local. Por exemplo, eles podem tê-los carregado em um site de genealogia onde os usuários enviam amostras de DNA para saber mais sobre sua ancestralidade. Nesse caso, um invasor poderia identificar uma pessoa cujas células estão em um conjunto de dados unicelular, analisando seu genoma. Isto poderia revelar dados pessoais associados a uma característica sensível, como um distúrbio psiquiátrico, uma vez que os participantes da investigação são frequentemente selecionados para estudar a biologia destas condições complexas.

Violações de dados como esta podem ter consequências reais, como a discriminação no local de trabalho, diz Gürsoy. Ela acrescenta que os vazamentos podem até impactar as gerações futuras porque as características genéticas podem ser transmitidas aos descendentes. “Tudo o que se sabe sobre nós é transmitido de geração em geração”, diz ela.

Bradley Malin, que pesquisa o compartilhamento de dados genômicos em larga escala na Universidade Vanderbilt em Nashville, Tennessee, descreve o estudo como uma “nova adição e contribuição à literatura”. Ele acrescenta que pesquisas futuras poderiam explorar se os dados genômicos também poderiam ser vinculados em conjuntos de dados maiores contendo amostras de milhares ou milhões de pessoas.

interesses de concorrência

Os cientistas não têm certeza de qual a melhor forma de abordar as questões de privacidade. “Há um desejo de proteger a privacidade individual, mas também um desejo de avançar colectivamente na investigação médica e, infelizmente, estes estão em conflito entre si”, diz Mark Gerstein, que investiga ciência de dados médicos na Universidade de Yale, em New Haven, Connecticut. A solução mais simples seria dificultar o acesso aos dados genéticos, mas isso impactaria negativamente a pesquisa, diz ele. “Precisamos compartilhar e agregar grandes quantidades de informações”, explica. “Se bloquearmos tudo e tornarmos mais privado, isso realmente atrapalha todo o processo.”

No seu estudo, Gürsoy e os seus colegas apelam a uma maior transparência sobre os riscos para os participantes que partilham os seus dados genómicos e sugerem que os investigadores devem garantir que os doadores consentem na partilha dos seus dados. Outro caminho possível seria criptografar dados pessoais se fizerem parte de um banco de dados público. Os autores reconhecem que isto complicaria o processo de criação e manutenção de registos, mas acreditam que poderia ajudar a proteger a privacidade dos participantes.

  1. Walker, CR et al. Célula https://doi.org/10.1016/j.cell.2024.09.012 (2024).

    Artigo
    Google Acadêmico

Baixar referências