В исследовании, опубликованном 12 ноября в журнале Cell, группа исследователей демонстрирует, что эти данные можно деидентифицировать, чтобы обеспечить конфиденциальность пациентов. Они также демонстрируют, как эти необработанные данные могут быть связаны с конкретными людьми через их варианты генов с помощью чего-то столь же простого, как брошенная кофейная чашка, если эти санитарные меры не будут приняты.
«Цель этого исследования – найти практические способы широкого обмена необработанными данными, не создавая ненужных проблем с конфиденциальностью», – говорит старший автор Марк Герштейн, профессор биоинформатики в Йельском университете.
Исследования функциональной геномики часто привязаны к конкретному заболеванию.
Например, при исследовании определенного психического состояния может рассматриваться экспрессия определенных генов в нейронах определенного типа. И в силу того, что их генетический материал включен в такое исследование, медицинский статус человека в отношении этого состояния может быть непреднамеренно раскрыт.
Это может происходить через так называемый квазиидентификатор. Принцип работы квазиидентификатора заключается в том, что если у кого-то есть достаточно отдельных точек данных о вас, даже если эти данные сами по себе не являются конфиденциальными или уникальными, их можно объединить для создания идентификатора, уникального для вас.
В негенетических условиях это означает, что если у кого-то есть ваш почтовый индекс, день рождения, модель автомобиля, на котором вы водите, и другие подобные данные, которые сами по себе не могут считаться конфиденциальными или конфиденциальными, они, возможно, в конечном итоге смогут объединить их и создать уникальный профиль, который свяжет вас с другими данными, которые вы не хотели бы публиковать, – такими данными, как финансовые записи, которые были собраны, когда вы подали заявку на автокредит. То же самое могло бы произойти, если бы кто-то смог получить некоторые из ваших генетических вариантов и связать эти варианты с присутствием вашего генетического материала в исследовании конкретного заболевания. Это, в свою очередь, может выявить диагноз, например ВИЧ-статус или унаследованную предрасположенность к раку, о котором вы бы предпочли не сообщать.
В своем исследовании исследователи построили сценарий «атаки сцепления», чтобы продемонстрировать, как кто-то может установить такие связи на основе данных исследований функциональной геномики, используя ДНК, полученную из выброшенной кофейной чашки. После добавления образцов от двух согласившихся участников в базу данных функциональной геномики исследователи собрали использованные кофейные чашки от одних и тех же людей.
Они секвенировали генетический материал, оставленный на чашках, и смогли успешно сопоставить этот материал с образцами в базе данных и получить конфиденциальную информацию о здоровье участников. Исследователи также смогли использовать информацию ДНК, «украденную» из базы данных генотипов, чтобы сопоставить личности 421 человека с фенотипической информацией, найденной в тестовом наборе данных функциональной геномики, который исследователи построили для 436 человек.
Тем не менее, исследователи также определили шаги, которые можно предпринять для предотвращения подобных атак по связыванию и защиты информации о здоровье участников при совместном использовании наборов данных функциональной геномики. «Функциональная геномика особенная, потому что варианты обычно не нужны для обработки данных», – говорит первый автор Гамзе Гурсой, научный сотрудник лаборатории Герштейна. "Благодаря этому мы можем дезинфицировать варианты, чтобы предотвратить обратную связь данных с личной информацией, связанной с фенотипами, включенными в эти исследования, при этом сохраняя полезность данных."
Чтобы достичь этого баланса между конфиденциальностью и полезностью данных, исследователи предлагают манипуляции с форматом файлов, которые позволят обмениваться необработанными данными функциональной геномики, в то же время значительно уменьшая утечку конфиденциальной информации за счет обобщения информации о фенотипических вариантах.
Формат файла основан на широко используемой стандартной системе форматов файлов, совместим с целым рядом программного обеспечения и конвейеров и при тестировании показал небольшую потерю полезности. Исследователи также разработали структуру, с помощью которой другие исследователи могут настроить уровень конфиденциальности и баланса полезности, которого они хотят достичь с помощью формата файла, на основе политик и согласия доноров.
«По мере того, как для такого рода исследований функциональной геномики публикуется все больше данных, не следует забывать о проблемах безопасности и конфиденциальности», – говорит Герштейн. "На заре Интернета люди не осознавали, насколько важной станет их деятельность в Интернете.
Теперь этот тип цифровой конфиденциальности стал для нас настолько важным. Если мы вступим в эпоху, когда секвенирование вашего генома станет обычным делом, мы не хотим, чтобы эти опасения по поводу конфиденциальности здоровья стали доминирующими."
Эта работа была поддержана Национальными институтами здравоохранения, Профессорским фондом А.Л. Вильямса и Фондом, консультируемым донорами Инициативы Чана Цукерберга.