Анализируя десятки общедоступных наборов данных RNA-seq, которые профилировали клеточные реакции на множество различных стрессов, Мандельбаум и его коллеги заметили, что наборы особенно коротких или длинных генов неоднократно демонстрировали изменения в уровне экспрессии (как показано видимым количеством транскриптов РНК из данный ген).
Озадаченные этим повторяющимся паттерном, авторы затем спросили, отражает ли он какой-то универсальный биологический ответ, общий для многих различных триггеров, или он, скорее, проистекает из какого-то экспериментального артефакта. Чтобы ответить на этот вопрос, они сравнили реплики образцов из одного и того же биологического состояния. Различия в экспрессии генов между репликами могут отражать технические эффекты, не связанные с представляющим интерес биологическим фактором эксперимента.
Неожиданно в этих сравнениях между повторами наблюдали тот же паттерн особенно коротких или длинных генов, показывающих изменения в уровне экспрессии, демонстрируя, что этот паттерн является результатом технической ошибки, которая, по-видимому, связана с длиной гена.
Основная цель экспериментов с РНК-секвенцией – охарактеризовать биологические процессы, которые активируются или подавляются в ответ на интересующие условия. Примечательно, что определенные биологические процессы выполняются продуктами особенно коротких и длинных генов.
Например, многие из коротких генов кодируют белки, которые составляют рибосому, механизм клеточного производства белков. И наоборот, многие из длинных генов кодируют белки, которые составляют внеклеточный матрикс (ЕСМ), сеть макромолекул, которые обеспечивают клеткам внешнюю структурную поддержку.
Мандельбаум и его коллеги смогли показать, как во многих наборах данных RNA-seq обнаруженное ими отклонение длины в сочетании с некоторыми недостатками статистического анализа может привести к ложной идентификации конкретных биологических функций (включая рибосомы и функции, связанные с ECM). как клеточные реакции на испытанные условия.
Важно отметить, что исследование также показывает, как эту предвзятость можно удалить из данных, тем самым отфильтровывая ложные вызовы, сохраняя при этом биологически подлинные.
В последние годы наблюдается растущая тревога по поводу ложных результатов биологических исследований, иногда называемая кризисом воспроизводимости.
В этом исследовании подчеркивается важность правильной статистической обработки данных для уменьшения количества вводящих в заблуждение результатов.