匿名基因数据库容易遭受数据泄露
一项新研究表明,匿名基因数据库很容易遭受身份盗窃和数据泄露。研究人员警告其后果。

匿名基因数据库容易遭受数据泄露
一项研究引发了人们的担忧,即一种在研究人员中日益流行的基因数据库可能会被用来泄露参与者的身份或将私人健康信息与其公共基因档案联系起来。
单细胞数据集 可以包含从数千人收集的数百万个细胞中基因表达的信息。这些数据通常是免费提供的,并为研究人员在细胞水平上研究疾病的影响提供了宝贵的资源。据说这些数据是匿名的,但 10 月 2 日发表在《细胞》杂志上的一项研究 1 作者写道,展示了如何利用一项研究的遗传数据“来揭示另一项研究中个人的私人信息”。
结果凸显了平衡研究人员利益和捐赠者隐私的困难。 “我们的基因组非常具有识别性。它们可以透露很多关于我们、我们的特征以及我们对疾病的易感性的信息,”该研究的合著者、纽约哥伦比亚大学的生物信息学研究员 Gamze Gürsoy 说。 “如果你的信用卡号码公开,你可以改变它,但你无法改变你的基因组。”
敏感数据
遗传数据集中的隐私问题 以前曾提出过,但主要关注遗传图谱的“批量数据”。这些包含有关大型细胞群而不是单个细胞的平均基因活性的信息。
此前人们认为,由于不同细胞之间的“噪音”水平或基因表达的变化,单细胞数据集不会那么容易受到数据泄露的影响。但古尔索伊和她的团队证明事实并非如此。
该团队检查了三个公开的单细胞数据集,其中包括来自狼疮(一种慢性自身免疫性疾病)患者的血细胞。研究人员发现,他们可以通过将基因表达数据与表达数量性状基因座(eQTL)的信息相结合来预测一个人基因组的结构。 eQTL(与基因表达相关的染色体变异)的详细信息也在单细胞数据集中公开。
为了测试他们工作的可靠性,研究人员根据与所用细胞相对应的基因组数据库检查了他们的基因组预测。他们能够将大多数数据集与相应的基因组联系起来,准确率超过 80%。
与基因表达数据和 eQTL 不同,完整基因组数据库通常只能由科学家查看,以保护捐赠者的识别信息。然而,研究人员指出,参与者的基因组数据可以在其他地方公开获得。例如,他们可能会将其上传到家谱网站,用户可以在其中提交 DNA 样本以了解有关其血统的更多信息。在这种情况下,攻击者可以通过分析其基因组来识别其细胞位于单细胞数据集中的人。这可能会泄露与精神疾病等敏感特征相关的个人数据,因为研究参与者通常被选择来研究这些复杂病症的生物学。
古尔索伊说,像这样的数据泄露可能会产生真正的后果,例如工作场所的歧视。她补充说,泄漏甚至可能影响后代,因为遗传特征可以遗传给后代。 “我们所知道的一切都是代代相传的,”她说。
田纳西州纳什维尔范德比尔特大学研究大规模基因组数据共享的布拉德利·马林 (Bradley Malin) 将这项研究描述为“对文献的新颖补充和贡献”。他补充说,未来的研究可以探索基因组数据是否也可以链接到包含数千或数百万人样本的更大数据集中。
竞争利益
科学家们不确定如何最好地解决隐私问题。 “人们既希望保护个人隐私,又希望共同推进医学研究,不幸的是,这两者是相互矛盾的,”康涅狄格州纽黑文市耶鲁大学研究医学数据科学的马克·格斯坦 (Mark Gerstein) 说。他说,最简单的解决方案是让遗传数据更难获取,但这会对研究产生负面影响。 “我们需要共享和汇总大量信息,”他解释道。 “如果我们封锁一切并使其更加私密,那确实会阻碍整个过程。”
在他们的研究中,Gürsoy 和她的同事呼吁提高分享基因组数据的参与者面临的风险的透明度,并建议研究人员应确保捐赠者同意分享他们的数据。另一种可能的途径是加密个人数据(如果它是公共数据库的一部分)。作者承认这会使创建和维护记录的过程变得复杂,但相信这有助于保护参与者的隐私。
-
沃克,C.R.等人。细胞 https://doi.org/10.1016/j.cell.2024.09.012 (2024)。