Предобработка данных ДНК-микрочипов

Материал из MachineLearning.

Перейти к: навигация, поиск

Предобработка данных - необходимый этап анализа данных, полученных в ходе эксперимента с ДНК-микрочипом. Выделяют три основных подэтапа предобработки:

  • Фоновая поправка

Фоновая поправка в анализе ДНК-микрочипов

  • Нормализация

Нормализация ДНК-микрочипов

  • Суммаризация

Суммаризация - этап предобработки данных, в ходе которого суммируются интенсивности нескольких ДНК-микрочипов, использованных на одной стадии эксперимента, с целью получить финальные значения интенсивностей проб. Как правило, суммаризация является составной частью алгоритма, реализующего комплекс методов предобработки данных.

Содержание

Факторный анализ для робастной суммаризации микрочипов (Factor Analysis For Robust Microarray Summarization (FARMS))


Данный подход к суммаризации интенсивностей микрочипов базируется на линейной модели с гауссовским шумом.

Модель

Обозначим x нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) logPM, а z - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида

(1)
x = \lambda z + \eps , где  x, \lambda \in \R^n

и

 z \sim \textit{N}(0,1), \; \eps \sim \textit{N}(0, \Psi).

 \textit{N}(\mu, \Sigma) это многомерное нормальное распределение с вектором матожидания \mu и ковариационной матрицей \Sigma. z обычно называют фактором. \Psi \in \R^{n\times n} это диагональная матрица ковариаций шума. \eps и z статистически независимы. Согласно принятой модели, наблюдаемый вектор x распределён нормально со следующими параметрами:

 x \sim \textit{N}(0, \lambda \lambda^T + \Psi)

Следовательно, интенсивности (PM проб) логарифмически нормально распределены. \lambda_j это параметры формы логарифмически нормального распределения для каждой пробы PM_j.

Теперь рассмотрим отдельный ген, множество микрочипов \{i\}_{i=1}^N, на каждом из которых n проб \{PM_{ij}\}_{j=1}^n, соответствующих этому гену. Обозначим s_i - истинный сигнал на микрочипе i, то есть логарифм концентрации РНК рассматриваемого гена в препарате. Пусть z_i - сигнал s_i, нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть

 s_i = z_i \sigma + \mu, \; \sigma > 0 .

Теперь предположим, что для каждой пробы PM_{ij} сигнал отклоняется на \tau_j и \gamma_j от истинных значений \sigma и \mu соответственно. Таким образом,

S_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j ,

где предполагается, что \tau_j и \gamma_j распределены с нулевым матожиданием. Величина  \sigma + \tau_j определяет дисперсию j-го измерения PM_{*j}, а  \mu + \gamma_j - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий PM_j, имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям S_{ij} шум \eps, получим

 \log (PM_{ij}) = S_{ij} + \eps_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j + \eps_{ij} ,

где \eps_{ij} - гауссовский шум с нулевым матожиданием. Значения \tau_j, \; \gamma_j и стандартного отклонения \eps_{ij} могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность экспрессии генов.

Если мы обозначим  \lambda_j = \sigma + \tau_j и нормализуем наблюдение x, чтобы оно имело нулевое матожидание, вычитая

(*)
 \frac1N \sum_{i=1}^N\log (PM_{ij}) = (\sigma + \tau_j)\frac1N\biggl( \sum_{i=1}^N {z_i} \biggr) + \mu + \gamma_j + \frac1N\biggl( \sum_{i=1}^N {\eps_{ij}} \biggr) \approx \mu + \gamma_j = \mu_j ,

где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях z_i и \eps_{ij}, мы придём к базовой модели (1). Согласно модели, z \sim \textit{N}(0,1), поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими \sigma). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений z, потому что ненормальность z имеет сравнительно небольшое влияние на правдоподобность модели.

Оценка параметров модели и сигнала

Оценка настоящей интенсивности (сигнала) состоит из трёх шагов:

1. Нормализация наблюдений

Чтобы наблюдаемые значения logPM соответствовали сделанным в модели предположением, нормализуем их, вычитая \mu_j = \mu + \gamma_j, оцениваемое с помощью уравнения (*). Таким образом, они будут иметь нулевое матожидание.

2. Максимальный апостериорный факторный анализ

Пусть \{x\} = \{x_1,\dots, x_N\} - исходные данные. Тогда байесовская апостериорная плотность вероятности параметров (\lambda,\Psi) пропорциональна произведению правдоподобия p(\{x\}|\lambda, \Psi) и априорной плотности вероятности p(\lambda, \Psi):

p(\lambda, \Psi | \{x\}) \; \propto \; p(\{x\} | \lambda, \Psi) p(\lambda, \Psi).

Для априорной плотности вероятности мы предполагаем, что p(\lambda, \Psi) = p(\lambda), то есть что априорная вероятность параметра \lambda не зависит от параметра \Psi и что последняя неинформативна. Априорная плотность вероятности для \lambda вычисляется по формуле p(\lambda) = \prod_{j=1}^N{p(\lambda_j)}, где \lambda_j из исправленного нормального распределения \textit{N}_{rect}(\mu_{\lambda}, \sigma_{\lambda}), для которого

\lambda_j = \max\{y_j, 0\}, \; y_j \sim \textit{N}(\mu_{\lambda}, \sigma_{\lambda}).

\sigma_{\lambda} выбрана пропорционально матожиданию вариации Var(x_{*j}) наблюдений, чтобы фактор отражал вариацию данных, то есть

 \sigma_{\lambda}^2 = \rho\frac{1}{n}\sum_{j=1}^n{Var(x_{*j})}.

Априорная плотность вероятности отражает следующие факты:

  • наблюдаемые вариации в данных часто небольшие, поэтому большие значения \lambda_j маловероятны,
  • микрочип обычно содержит во много раз больше генов с постоянным сигналом (\lambda_j \sim 0), чем генов с меняющимся сигналом (большие значения \lambda_j),
  • отрицательные значения \lambda_j неправдоподобны, так как это значит, что интенсивность сигналов убывает с увеличением концентрации РНК.

Два гиперпараметра \rho и \mu_{\lambda} позволяют определить разные аспекты априорных знаний. Например, значение \mu_{\lambda} около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений \lambda к нулю.

Второй множитель апостериорной плотности - это правдоподобие, которое вычисляется как

 p(\{x\}|\lambda, \Psi) = \prod_{i=1}^N{\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)},

где \textit{N}(0, \lambda\lambda^T + \Psi)(x_i) это плотность распределения, измеренная в x_i.

Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оценивает параметры \lambda,\;\Psi и апостериорные значения плотности вероятности для z для каждого x. Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов

 -\frac{1}{2}\sigma_{\lambda}^{-2}(\lambda-\mu_{\lambda}1)^T(\lambda-\mu_{\lambda}1) \; + \; \frac{nN}{2}\log{2\pi} \; - \; \frac{N}{2}\log{\|\Psi|} \; - \; \frac{1}{2} \sum_{i=1}^N{E_{z_i|x_i}((x_i-\lambda z_i)^T\Psi^{-1}(x_i-\lambda z_i)),

где x уже нормализован и имеет нулевое матожидание и

 z_i | x_i \sim \textit{N}(\mu_{z_i|x_i}, \;\sigma_{z_i|x_i}^2),
 \mu_{z_i|x_i} = (x_i)^T(\lambda \lambda^T + \Psi)^{-1}\lambda,
 \sigma_{z_i|x_i}^2 = 1 - \lambda^T(\lambda \lambda^T + \Psi)^{-1}\lambda.

Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна \lambda \lambda^T + \Psi, поэтому увеличение диагональных элементов \Psi приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью \lambda \lambda^T (отметим, что при приведении ненормального распределения к единичной дисперсии \lambda увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения n собственных значений ковариационной матрицы.

3. Оценка действительной интенсивности

Наша задача - определить действительную интенсивность s_i с помощью оцененного значения z_i, то есть нужно оценить \sigma и \mu. Для каждой пробы мы имеем

\sigma = \lambda_j - \tau_j, \; \mu = \mu_j - \gamma_j.

Мы определяем \sigma и \mu методом наименьших квадратов. Учитывая, что и \tau_i и \gamma_i взяты из распределения с нулевым матожиданием, получаем:

\sigma = \arg\min_{\tilde{\sigma}}\sum_{i=1}^n{(\lambda_j - \tilde{\sigma})^2 \; = \; \frac 1n \sum_{j=1}^n{\lambda_j},
\mu = \arg\min_{\tilde{\mu}}\sum_{j=1}^n{(\mu_j - \tilde{\mu})^2 \; = \; \frac 1n \sum_{j=1}^n{\mu_j}.

Действительная интенсивность в таком случае представляется в виде

 s_i \; = \;\sigma \;z_i \;f \;+ \;\mu,

где f это фактор, который компенсирует уменьшение вариации данных в ходе предобработки и факторного анализа (вариация данных в некоторой степени рассматривается как шум). Значение f эмпирически определено на модельных данных для разных методов нормализации: f=2 для квантильной нормализации и f=1.5 для циклической сглаживающей кривой.



Сравнение методов предобработки данных ДНК-микрочипов

Литература

Hochreiter, S.; Clevert, D.-A.; Obermayer, K. A new summarization method for Affymetrix probe level data // Bioinformatics. — (Oxford, England): 2006 T. 22. — С. 943-9.


Kogadeeva 02:45, 4 декабря 2010 (MSK)