Предобработка данных ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (3. Оценка действительной интенсивности: уточнение)
м (Ссылки: ссылки)
 
(2 промежуточные версии не показаны)
Строка 18: Строка 18:
Обозначим <tex>x</tex> нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) <tex>logPM</tex>, а <tex>z</tex> - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида
Обозначим <tex>x</tex> нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) <tex>logPM</tex>, а <tex>z</tex> - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида
 +
{{eqno|1}}
::<tex>x = \lambda z + \eps </tex>, где <tex> x, \lambda \in \R^n</tex>
::<tex>x = \lambda z + \eps </tex>, где <tex> x, \lambda \in \R^n</tex>
Строка 30: Строка 31:
Следовательно, интенсивности (PM проб) логарифмически нормально распределены. <tex>\lambda_j</tex> это параметры формы логарифмически нормального распределения для каждой пробы <tex>PM_j</tex>.
Следовательно, интенсивности (PM проб) логарифмически нормально распределены. <tex>\lambda_j</tex> это параметры формы логарифмически нормального распределения для каждой пробы <tex>PM_j</tex>.
-
Теперь рассмотрим отдельный ген, <tex>\{i \in 1,\dots,N\}</tex> - разные микрочипы, на каждом из которых <tex>n \; \{PM_{ij},\; 1\le j \le n\}</tex> проб, соответствующих этому гену. Обозначим <tex>s_i</tex> - истинный сигнал на микрочипе i, то есть логарифм концентрации ДНК рассматриваемого гена в препарате. Пусть <tex>z_i</tex> - сигнал <tex>s_i</tex>, нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть
+
Теперь рассмотрим отдельный ген, множество микрочипов <tex>\{i\}_{i=1}^N</tex>, на каждом из которых <tex>n</tex> проб <tex>\{PM_{ij}\}_{j=1}^n</tex>, соответствующих этому гену. Обозначим <tex>s_i</tex> - истинный сигнал на микрочипе <tex>i</tex>, то есть логарифм концентрации РНК рассматриваемого гена в препарате. Пусть <tex>z_i</tex> - сигнал <tex>s_i</tex>, нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть
::<tex> s_i = z_i \sigma + \mu, \; \sigma > 0 </tex>.
::<tex> s_i = z_i \sigma + \mu, \; \sigma > 0 </tex>.
Строка 38: Строка 39:
::<tex>S_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j </tex>,
::<tex>S_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j </tex>,
-
где предполагается, что <tex>\tau_j</tex> и <tex>\gamma_j</tex> распределены с нулевым матожиданием. Величина <tex> \sigma + \tau_i </tex> определяет дисперсию <tex>j</tex>-го измерения <tex>PM_{*j}</tex>, а <tex> \mu + \gamma_j </tex> - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий <tex>PM_j</tex>, имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям <tex>S_{ij}</tex> шум <tex>\eps</tex>, получим
+
где предполагается, что <tex>\tau_j</tex> и <tex>\gamma_j</tex> распределены с нулевым матожиданием. Величина <tex> \sigma + \tau_j </tex> определяет дисперсию <tex>j</tex>-го измерения <tex>PM_{*j}</tex>, а <tex> \mu + \gamma_j </tex> - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий <tex>PM_j</tex>, имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям <tex>S_{ij}</tex> шум <tex>\eps</tex>, получим
::<tex> \log (PM_{ij}) = S_{ij} + \eps_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j + \eps_{ij} </tex>,
::<tex> \log (PM_{ij}) = S_{ij} + \eps_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j + \eps_{ij} </tex>,
-
где <tex>\eps_{ij}</tex> - гауссовский шум с нулевым матожиданием (ненулевое матожидание учитывается в поправке <tex>\gamma_j</tex>). Значения <tex>\tau_j, \; \gamma_j </tex> и стандартного отклонения <tex>\eps_{ij}</tex> могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность генов.
+
где <tex>\eps_{ij}</tex> - гауссовский шум с нулевым матожиданием. Значения <tex>\tau_j, \; \gamma_j </tex> и стандартного отклонения <tex>\eps_{ij}</tex> могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность экспрессии генов.
Если мы обозначим <tex> \lambda_j = \sigma + \tau_j </tex> и нормализуем наблюдение <tex>x</tex>, чтобы оно имело нулевое матожидание, вычитая
Если мы обозначим <tex> \lambda_j = \sigma + \tau_j </tex> и нормализуем наблюдение <tex>x</tex>, чтобы оно имело нулевое матожидание, вычитая
Строка 49: Строка 50:
::<tex> \frac1N \sum_{i=1}^N\log (PM_{ij}) = (\sigma + \tau_j)\frac1N\biggl( \sum_{i=1}^N {z_i} \biggr) + \mu + \gamma_j + \frac1N\biggl( \sum_{i=1}^N {\eps_{ij}} \biggr) \approx \mu + \gamma_j = \mu_j </tex>,
::<tex> \frac1N \sum_{i=1}^N\log (PM_{ij}) = (\sigma + \tau_j)\frac1N\biggl( \sum_{i=1}^N {z_i} \biggr) + \mu + \gamma_j + \frac1N\biggl( \sum_{i=1}^N {\eps_{ij}} \biggr) \approx \mu + \gamma_j = \mu_j </tex>,
-
где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях <tex>z_i</tex> и <tex>\eps_{ij}</tex>, мы придём к базовой модели.
+
где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях <tex>z_i</tex> и <tex>\eps_{ij}</tex>, мы придём к базовой модели {{eqref|1}}.
-
Согласно модели, <tex>z \sim \textit{N}(0,1)</tex>, поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими <tex>\sigma</tex>). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений <tex>z</tex>, потому что ненормальность <tex>z</tex> имеет сравнительно небольшое влияние на правдоподобность модели.
+
Согласно модели, <tex>z \sim \textit{N}(0,1)</tex>, поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими <tex>\sigma</tex>). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений <tex>z</tex>, потому что ненормальность <tex>z</tex> имеет сравнительно небольшое влияние на правдоподобность модели.
-
 
+
====Оценка параметров модели и сигнала====
====Оценка параметров модели и сигнала====
Строка 65: Строка 65:
::<tex>p(\lambda, \Psi | \{x\}) \; \propto \; p(\{x\} | \lambda, \Psi) p(\lambda, \Psi)</tex>.
::<tex>p(\lambda, \Psi | \{x\}) \; \propto \; p(\{x\} | \lambda, \Psi) p(\lambda, \Psi)</tex>.
-
Для априорной плотности вероятности мы предполагаем, что <tex>p(\lambda, \Psi) = p(\lambda)</tex>, то есть что априорная вероятность параметра <tex>\lambda</tex> не зависит от параметра <tex>\Psi</tex> и что последняя неинформативна. Априорная плотность вероятности для <tex>\lambda</tex> вычисляется по формуле <tex>\lambda = \prod_{j=1}^N{p(\lambda_j)}</tex>, где <tex>\lambda_j</tex> из исправленного нормального распределения <tex>\textit{N}_{rect}(\mu_{\lambda}, \sigma_{\lambda})</tex>, для которого
+
Для априорной плотности вероятности мы предполагаем, что <tex>p(\lambda, \Psi) = p(\lambda)</tex>, то есть что априорная вероятность параметра <tex>\lambda</tex> не зависит от параметра <tex>\Psi</tex> и что последняя неинформативна. Априорная плотность вероятности для <tex>\lambda</tex> вычисляется по формуле <tex>p(\lambda) = \prod_{j=1}^N{p(\lambda_j)}</tex>, где <tex>\lambda_j</tex> из исправленного нормального распределения <tex>\textit{N}_{rect}(\mu_{\lambda}, \sigma_{\lambda})</tex>, для которого
::<tex>\lambda_j = \max\{y_j, 0\}, \; y_j \sim \textit{N}(\mu_{\lambda}, \sigma_{\lambda}).</tex>
::<tex>\lambda_j = \max\{y_j, 0\}, \; y_j \sim \textit{N}(\mu_{\lambda}, \sigma_{\lambda}).</tex>
Строка 80: Строка 80:
Два гиперпараметра <tex>\rho</tex> и <tex>\mu_{\lambda}</tex> позволяют определить разные аспекты априорных знаний. Например, значение <tex>\mu_{\lambda}</tex> около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений <tex>\lambda</tex> к нулю.
Два гиперпараметра <tex>\rho</tex> и <tex>\mu_{\lambda}</tex> позволяют определить разные аспекты априорных знаний. Например, значение <tex>\mu_{\lambda}</tex> около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений <tex>\lambda</tex> к нулю.
-
Второй фактор апостериорной плотности - это правдоподобие, которое вычисляется как
+
Второй множитель апостериорной плотности - это правдоподобие, которое вычисляется как
::<tex> p(\{x\}|\lambda, \Psi) = \prod_{i=1}^N{\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)},</tex>
::<tex> p(\{x\}|\lambda, \Psi) = \prod_{i=1}^N{\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)},</tex>
Строка 86: Строка 86:
где <tex>\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)</tex> это плотность распределения, измеренная в <tex>x_i</tex>.
где <tex>\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)</tex> это плотность распределения, измеренная в <tex>x_i</tex>.
-
Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оенивает параметры <tex>\lambda,\;\Psi</tex> и апостериорные значения <tex>z</tex> для каждого <tex>x</tex>. Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов
+
Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оценивает параметры <tex>\lambda,\;\Psi</tex> и апостериорные значения плотности вероятности для <tex>z</tex> для каждого <tex>x</tex>. Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов
-
::<tex> -\frac{1}{2}\sigma_{\lambda}^{-2}(\lambda-\mu_{\lambda}1)^T(\lambda-\mu_{\lambda}1) + \frac{nN}{2}\log{2\pi} - \frac{N}{2}\log{\|\Psi|} - \frac{1}{2} \sum_{i=1}^N{E_{z_i|x_i}((x_i-\lambda z_i)^T\Psi^{-1}(x_i-\lambda z_i)),</tex>
+
::<tex> -\frac{1}{2}\sigma_{\lambda}^{-2}(\lambda-\mu_{\lambda}1)^T(\lambda-\mu_{\lambda}1) \; + \; \frac{nN}{2}\log{2\pi} \; - \; \frac{N}{2}\log{\|\Psi|} \; - \; \frac{1}{2} \sum_{i=1}^N{E_{z_i|x_i}((x_i-\lambda z_i)^T\Psi^{-1}(x_i-\lambda z_i)),</tex>
-
гдк <tex>x</tex> уже нормализован и имеет нулевое матожидание и
+
где <tex>x</tex> уже нормализован и имеет нулевое матожидание и
::<tex> z_i | x_i \sim \textit{N}(\mu_{z_i|x_i}, \;\sigma_{z_i|x_i}^2),</tex>
::<tex> z_i | x_i \sim \textit{N}(\mu_{z_i|x_i}, \;\sigma_{z_i|x_i}^2),</tex>
Строка 96: Строка 96:
::<tex> \sigma_{z_i|x_i}^2 = 1 - \lambda^T(\lambda \lambda^T + \Psi)^{-1}\lambda.</tex>
::<tex> \sigma_{z_i|x_i}^2 = 1 - \lambda^T(\lambda \lambda^T + \Psi)^{-1}\lambda.</tex>
-
Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна <tex>\lambda \lambda^T + \Psi</tex>, поэтому увеличение диагональных элементов <tex>\Psi</tex> приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью <tex>\lambda \lambda^T</tex> (отметим, что при приведении ненормального распределения к единичной дисперсии <tex>\lambda</tex> увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения <tex>n</tex> собственных значений ковариационной матрицы.
+
Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна <tex>\lambda \lambda^T + \Psi</tex>, поэтому увеличение диагональных элементов <tex>\Psi</tex> приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью <tex>\lambda \lambda^T</tex> (отметим, что при приведении ненормального распределения к единичной дисперсии <tex>\lambda</tex> увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения <tex>n</tex> собственных значений ковариационной матрицы.
=====3. Оценка действительной интенсивности=====
=====3. Оценка действительной интенсивности=====
Строка 117: Строка 117:
----
----
-
===Ссылки===
+
===[[Сравнение методов предобработки данных ДНК-микрочипов]]===
 +
===Литература===
{{книга
{{книга
|автор = Hochreiter, S.; Clevert, D.-A.; Obermayer, K.
|автор = Hochreiter, S.; Clevert, D.-A.; Obermayer, K.

Текущая версия

Предобработка данных - необходимый этап анализа данных, полученных в ходе эксперимента с ДНК-микрочипом. Выделяют три основных подэтапа предобработки:

  • Фоновая поправка

Фоновая поправка в анализе ДНК-микрочипов

  • Нормализация

Нормализация ДНК-микрочипов

  • Суммаризация

Суммаризация - этап предобработки данных, в ходе которого суммируются интенсивности нескольких ДНК-микрочипов, использованных на одной стадии эксперимента, с целью получить финальные значения интенсивностей проб. Как правило, суммаризация является составной частью алгоритма, реализующего комплекс методов предобработки данных.

Содержание

[убрать]

Факторный анализ для робастной суммаризации микрочипов (Factor Analysis For Robust Microarray Summarization (FARMS))


Данный подход к суммаризации интенсивностей микрочипов базируется на линейной модели с гауссовским шумом.

Модель

Обозначим x нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) logPM, а z - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида

(1)
x = \lambda z + \eps , где  x, \lambda \in \R^n

и

 z \sim \textit{N}(0,1), \; \eps \sim \textit{N}(0, \Psi).

 \textit{N}(\mu, \Sigma) это многомерное нормальное распределение с вектором матожидания \mu и ковариационной матрицей \Sigma. z обычно называют фактором. \Psi \in \R^{n\times n} это диагональная матрица ковариаций шума. \eps и z статистически независимы. Согласно принятой модели, наблюдаемый вектор x распределён нормально со следующими параметрами:

 x \sim \textit{N}(0, \lambda \lambda^T + \Psi)

Следовательно, интенсивности (PM проб) логарифмически нормально распределены. \lambda_j это параметры формы логарифмически нормального распределения для каждой пробы PM_j.

Теперь рассмотрим отдельный ген, множество микрочипов \{i\}_{i=1}^N, на каждом из которых n проб \{PM_{ij}\}_{j=1}^n, соответствующих этому гену. Обозначим s_i - истинный сигнал на микрочипе i, то есть логарифм концентрации РНК рассматриваемого гена в препарате. Пусть z_i - сигнал s_i, нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть

 s_i = z_i \sigma + \mu, \; \sigma > 0 .

Теперь предположим, что для каждой пробы PM_{ij} сигнал отклоняется на \tau_j и \gamma_j от истинных значений \sigma и \mu соответственно. Таким образом,

S_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j ,

где предполагается, что \tau_j и \gamma_j распределены с нулевым матожиданием. Величина  \sigma + \tau_j определяет дисперсию j-го измерения PM_{*j}, а  \mu + \gamma_j - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий PM_j, имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям S_{ij} шум \eps, получим

 \log (PM_{ij}) = S_{ij} + \eps_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j + \eps_{ij} ,

где \eps_{ij} - гауссовский шум с нулевым матожиданием. Значения \tau_j, \; \gamma_j и стандартного отклонения \eps_{ij} могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность экспрессии генов.

Если мы обозначим  \lambda_j = \sigma + \tau_j и нормализуем наблюдение x, чтобы оно имело нулевое матожидание, вычитая

(*)
 \frac1N \sum_{i=1}^N\log (PM_{ij}) = (\sigma + \tau_j)\frac1N\biggl( \sum_{i=1}^N {z_i} \biggr) + \mu + \gamma_j + \frac1N\biggl( \sum_{i=1}^N {\eps_{ij}} \biggr) \approx \mu + \gamma_j = \mu_j ,

где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях z_i и \eps_{ij}, мы придём к базовой модели (1). Согласно модели, z \sim \textit{N}(0,1), поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими \sigma). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений z, потому что ненормальность z имеет сравнительно небольшое влияние на правдоподобность модели.

Оценка параметров модели и сигнала

Оценка настоящей интенсивности (сигнала) состоит из трёх шагов:

1. Нормализация наблюдений

Чтобы наблюдаемые значения logPM соответствовали сделанным в модели предположением, нормализуем их, вычитая \mu_j = \mu + \gamma_j, оцениваемое с помощью уравнения (*). Таким образом, они будут иметь нулевое матожидание.

2. Максимальный апостериорный факторный анализ

Пусть \{x\} = \{x_1,\dots, x_N\} - исходные данные. Тогда байесовская апостериорная плотность вероятности параметров (\lambda,\Psi) пропорциональна произведению правдоподобия p(\{x\}|\lambda, \Psi) и априорной плотности вероятности p(\lambda, \Psi):

p(\lambda, \Psi | \{x\}) \; \propto \; p(\{x\} | \lambda, \Psi) p(\lambda, \Psi).

Для априорной плотности вероятности мы предполагаем, что p(\lambda, \Psi) = p(\lambda), то есть что априорная вероятность параметра \lambda не зависит от параметра \Psi и что последняя неинформативна. Априорная плотность вероятности для \lambda вычисляется по формуле p(\lambda) = \prod_{j=1}^N{p(\lambda_j)}, где \lambda_j из исправленного нормального распределения \textit{N}_{rect}(\mu_{\lambda}, \sigma_{\lambda}), для которого

\lambda_j = \max\{y_j, 0\}, \; y_j \sim \textit{N}(\mu_{\lambda}, \sigma_{\lambda}).

\sigma_{\lambda} выбрана пропорционально матожиданию вариации Var(x_{*j}) наблюдений, чтобы фактор отражал вариацию данных, то есть

 \sigma_{\lambda}^2 = \rho\frac{1}{n}\sum_{j=1}^n{Var(x_{*j})}.

Априорная плотность вероятности отражает следующие факты:

  • наблюдаемые вариации в данных часто небольшие, поэтому большие значения \lambda_j маловероятны,
  • микрочип обычно содержит во много раз больше генов с постоянным сигналом (\lambda_j \sim 0), чем генов с меняющимся сигналом (большие значения \lambda_j),
  • отрицательные значения \lambda_j неправдоподобны, так как это значит, что интенсивность сигналов убывает с увеличением концентрации РНК.

Два гиперпараметра \rho и \mu_{\lambda} позволяют определить разные аспекты априорных знаний. Например, значение \mu_{\lambda} около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений \lambda к нулю.

Второй множитель апостериорной плотности - это правдоподобие, которое вычисляется как

 p(\{x\}|\lambda, \Psi) = \prod_{i=1}^N{\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)},

где \textit{N}(0, \lambda\lambda^T + \Psi)(x_i) это плотность распределения, измеренная в x_i.

Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оценивает параметры \lambda,\;\Psi и апостериорные значения плотности вероятности для z для каждого x. Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов

 -\frac{1}{2}\sigma_{\lambda}^{-2}(\lambda-\mu_{\lambda}1)^T(\lambda-\mu_{\lambda}1) \; + \; \frac{nN}{2}\log{2\pi} \; - \; \frac{N}{2}\log{\|\Psi|} \; - \; \frac{1}{2} \sum_{i=1}^N{E_{z_i|x_i}((x_i-\lambda z_i)^T\Psi^{-1}(x_i-\lambda z_i)),

где x уже нормализован и имеет нулевое матожидание и

 z_i | x_i \sim \textit{N}(\mu_{z_i|x_i}, \;\sigma_{z_i|x_i}^2),
 \mu_{z_i|x_i} = (x_i)^T(\lambda \lambda^T + \Psi)^{-1}\lambda,
 \sigma_{z_i|x_i}^2 = 1 - \lambda^T(\lambda \lambda^T + \Psi)^{-1}\lambda.

Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна \lambda \lambda^T + \Psi, поэтому увеличение диагональных элементов \Psi приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью \lambda \lambda^T (отметим, что при приведении ненормального распределения к единичной дисперсии \lambda увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения n собственных значений ковариационной матрицы.

3. Оценка действительной интенсивности

Наша задача - определить действительную интенсивность s_i с помощью оцененного значения z_i, то есть нужно оценить \sigma и \mu. Для каждой пробы мы имеем

\sigma = \lambda_j - \tau_j, \; \mu = \mu_j - \gamma_j.

Мы определяем \sigma и \mu методом наименьших квадратов. Учитывая, что и \tau_i и \gamma_i взяты из распределения с нулевым матожиданием, получаем:

\sigma = \arg\min_{\tilde{\sigma}}\sum_{i=1}^n{(\lambda_j - \tilde{\sigma})^2 \; = \; \frac 1n \sum_{j=1}^n{\lambda_j},
\mu = \arg\min_{\tilde{\mu}}\sum_{j=1}^n{(\mu_j - \tilde{\mu})^2 \; = \; \frac 1n \sum_{j=1}^n{\mu_j}.

Действительная интенсивность в таком случае представляется в виде

 s_i \; = \;\sigma \;z_i \;f \;+ \;\mu,

где f это фактор, который компенсирует уменьшение вариации данных в ходе предобработки и факторного анализа (вариация данных в некоторой степени рассматривается как шум). Значение f эмпирически определено на модельных данных для разных методов нормализации: f=2 для квантильной нормализации и f=1.5 для циклической сглаживающей кривой.



Сравнение методов предобработки данных ДНК-микрочипов

Литература

Hochreiter, S.; Clevert, D.-A.; Obermayer, K. A new summarization method for Affymetrix probe level data // Bioinformatics. — (Oxford, England): 2006 T. 22. — С. 943-9.


Kogadeeva 02:45, 4 декабря 2010 (MSK)

Личные инструменты