Уязвимост на анонимни генни бази данни към нарушения на данните

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Ново проучване показва, че анонимните генетични бази данни са уязвими за кражба на самоличност и пробиви на данни. Изследователите предупреждават за последствията.

Eine neue Studie zeigt, dass anonyme genetische Datenbanken anfällig sind für Identitätsdiebstahl und Datenschutzverletzungen. Forschende warnen vor den Folgen.
Ново проучване показва, че анонимните генетични бази данни са уязвими за кражба на самоличност и пробиви на данни. Изследователите предупреждават за последствията.

Уязвимост на анонимни генни бази данни към нарушения на данните

Проучване повдигна опасения, че вид генетична база данни, която става все по-популярна сред изследователите, може да бъде използвана за разкриване на самоличността на участниците или за свързване на частна здравна информация с техните публични генетични профили.

Набори от данни с една клетка може да съдържа информация за генната експресия в милиони клетки, събрана от хиляди хора. Тези данни често са свободно достъпни и предоставят ценен ресурс за изследователите, изучаващи ефектите от болестта на клетъчно ниво. Твърди се, че данните са анонимни, но проучване, публикувано на 2 октомври в списание Cell 1 показва как генетичните данни от едно проучване „могат да бъдат използвани за разкриване на лична информация за индивиди в друго проучване“, пишат авторите.

Резултатите подчертават трудността да се балансират интересите на изследователите с поверителността на донорите. "Нашите геноми са много идентифициращи. Те могат да кажат много за нас, нашите характеристики и нашата чувствителност към болести", казва съавторът на изследването Гамзе Гюрсой, изследовател по биоинформатика в Колумбийския университет в Ню Йорк. „Можете да промените номера на кредитната си карта, ако стане публичен, но не можете да промените генома си.“

Чувствителни данни

Загриженост за поверителността в наборите от генетични данни са повдигани и преди, но са се фокусирали предимно върху „масови данни“ на генетични профили. Те съдържат информация за генната активност, осреднена за голяма клетъчна популация, а не за отделни клетки.

По-рано се смяташе, че едноклетъчните набори от данни няма да бъдат толкова уязвими за нарушения на данните поради нивото на "шум" или вариация в генната експресия между различните клетки. Но Гюрсой и нейният екип успяха да докажат, че това не е така.

Екипът изследва три публично достъпни едноклетъчни набора от данни, които включват кръвни клетки от хора с лупус, хронично автоимунно заболяване. Изследователите откриха, че могат да използват данни за генна експресия, за да предскажат структурата на генома на човек, като комбинират тези стойности с информация за локусите на количествените характеристики на експресията (eQTL). Подробностите за eQTLs – вариации в хромозомата, които корелират с генната експресия – също са публично достъпни в едноклетъчни набори от данни.

За да тестват надеждността на своята работа, изследователите провериха своите геномни прогнози спрямо геномна база данни, която съответства на използваните клетки. Те успяха да свържат повечето набори от данни със съответния геном с точност над 80%.

За разлика от данните за генната експресия и eQTL, базите данни с пълния геном обикновено могат да се разглеждат само от учени, за да се защити информацията за идентифициране на донорите. Изследователите обаче отбелязват, че геномните данни на даден участник могат да бъдат публично достъпни другаде. Например, може да са ги качили на генеалогичен уебсайт, където потребителите изпращат ДНК проби, за да научат повече за своето потекло. В този случай нападателят може да идентифицира човек, чиито клетки са в едноклетъчен набор от данни, като анализира техния геном. Това може да разкрие лични данни, свързани с чувствителна характеристика като психично разстройство, тъй като участниците в изследването често са избрани да изучават биологията на тези сложни състояния.

Нарушаването на данни като това може да има реални последици, като например дискриминация на работното място, казва Гюрсой. Тя добавя, че изтичането може дори да повлияе на бъдещите поколения, тъй като генетичните черти могат да бъдат предадени на потомството. „Всичко, което се знае за нас, се предава от поколения“, казва тя.

Брадли Малин, който изследва широкомащабно споделяне на геномни данни в университета Вандербилт в Нешвил, Тенеси, описва изследването като „ново допълнение и принос към литературата“. Той добавя, че бъдещите изследвания биха могли да проучат дали геномните данни могат също да бъдат свързани в по-големи набори от данни, съдържащи проби от хиляди или милиони хора.

конкурентни интереси

Учените не са сигурни как най-добре да се справят с проблемите, свързани с поверителността. „Има желание да се защити личната неприкосновеност на личния живот, но също и желание за колективен напредък в медицинските изследвания и за съжаление те са в противоречие едно с друго“, казва Марк Герщайн, който изследва науката за медицински данни в университета Йейл в Ню Хейвън, Кънектикът. Най-простото решение би било генетичните данни да станат по-трудни за достъп, но това би се отразило негативно на изследванията, казва той. „Трябва да споделяме и събираме големи количества информация“, обяснява той. „Ако блокираме всичко и го направим по-поверително, това наистина възпрепятства целия процес.“

В своето проучване Гюрсой и нейните колеги призовават за по-голяма прозрачност относно рисковете за участниците, които споделят своите геномни данни, и предполагат, че изследователите трябва да гарантират, че донорите се съгласяват да споделят данните си. Друг възможен път може да бъде криптиране на лични данни, ако те са част от публична база данни. Авторите признават, че това би усложнило процеса на създаване и поддържане на записи, но вярват, че може да помогне за защита на поверителността на участниците.

  1. Walker, C.R. et al. Клетка https://doi.org/10.1016/j.cell.2024.09.012 (2024).

    статия
    Google Наука

Изтегляне на препратки