Фоновая поправка в анализе ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Текущая версия (16:41, 20 октября 2011) (править) (отменить)
м (LESN (Low End Signal is Noise))
 
(10 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
Фоновая поправка - важный предварительный этап в анализе [[ДНК-микрочип]]ов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.
+
Фоновая поправка важный предварительный этап в анализе [[ДНК-микрочип]]ов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.
-
== Ideal mismatch ==
+
-
Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность - было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб<ref name="notMM">Naef F, Lim DA, Patil N, Magnasco MO. From features to expression: High-density oligonucleotide array analysis revisited. 2001. http://arxiv.org/abs/physics/0102010/.</ref>. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.
+
-
Чтобы нейтрализовать этот эффект, компанией Affymetrix была разработана концепция Ideal Mismatch<ref name="affIM">Affymetrix. Statistical algorithms reference guide. Technical report, Affymetrix, Santa Clara, CA, 2001. http://www.affymetrix.com/support/technical/technotes/statistical_reference_guide.pdf</ref>. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности <tex>SB</tex>, представляющее собой одношаговое [[Взвешенное среднее Тьюки|взвешенное среднее Тьюки]] по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если <tex>i</tex> - номер пробы, а <tex>k</tex> - номер подмножества проб, то фоновый эффект оценивается следующим выражением:
+
Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность — было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб<ref name="notMM">Naef F, Lim DA, Patil N, Magnasco MO. From features to expression: High-density oligonucleotide array analysis revisited. 2001. http://arxiv.org/abs/physics/0102010/.</ref>. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.
-
:<tex>IM_i^{(k)} = \left\{MM_i^{(k)}, \:\:\: MM_i^{(k)}<PM_i^{(k)},\\ \frac{PM_i^{(k)}}{2^{SB_k}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k>\tau_c, \\ \frac{PM_i^{(k)}}{2^{\tau_c/(1+(\tau_c-SB_k)/\tau_s)}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k\leq\tau_c, \right.</tex>
+
Ниже рассмотрены алгоритмы следующих поколений, делающие более изощрённую фоновую поправку.
-
:<tex>SB_k=T_{bk}\left(\log_2 \frac{PM_i^{(k)}}{MM_i^{(k)}}, \:\:i=1,\ldots,n_k\right).</tex>
+
-
Здесь <tex>\tau_c</tex> и <tex>\tau_s</tex> - настраиваемые параметры: <tex>\tau_c</tex> - константа различия со значением по умолчанию 0.03, <tex>\tau_s</tex> - константа масштабирования со значением по умолчанию 10, <tex>T_{bk}</tex> - одношаговое [[Взвешенное среднее Тьюки|взвешенное среднее Тьюки]] с параметрами <tex>c=5, \eps=0.0001.</tex><br />
+
== Ideal mismatch ==
 +
Чтобы нейтрализовать эффект отрицательных значений экспрессии при вычитании интенсивности MM-проб, компанией Affymetrix была разработана концепция Ideal Mismatch<ref name="affIM">Affymetrix. Statistical algorithms reference guide. Technical report, Affymetrix, Santa Clara, CA, 2001. http://www.affymetrix.com/support/technical/technotes/statistical_reference_guide.pdf</ref>. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности <tex>SB</tex>, представляющее собой одношаговое [[Взвешенное среднее Тьюки|взвешенное среднее Тьюки]] по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если <tex>i</tex> — номер пробы, а <tex>k</tex> — номер подмножества проб, то фоновый эффект оценивается следующим выражением:
 +
 
 +
::<tex>IM_i^{(k)} = \left\{MM_i^{(k)}, \:\:\: MM_i^{(k)}<PM_i^{(k)},\\ \frac{PM_i^{(k)}}{2^{SB_k}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k>\tau_c, \\ \frac{PM_i^{(k)}}{2^{\tau_c/(1+(\tau_c-SB_k)/\tau_s)}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k\leq\tau_c, \right.</tex>
 +
::<tex>SB_k=T_{bk}\left(\log_2 \frac{PM_i^{(k)}}{MM_i^{(k)}}, \:\:i=1,\ldots,n_k\right).</tex>
 +
 
 +
Здесь <tex>\tau_c</tex> и <tex>\tau_s</tex> настраиваемые параметры: <tex>\tau_c</tex> константа различия со значением по умолчанию 0.03, <tex>\tau_s</tex> константа масштабирования со значением по умолчанию 10, <tex>T_{bk}</tex> одношаговое [[Взвешенное среднее Тьюки|взвешенное среднее Тьюки]] с параметрами <tex>c=5, \eps=0.0001.</tex><br />
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины <tex>IM</tex>.
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины <tex>IM</tex>.
Строка 14: Строка 17:
Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов<ref name="RMA"> Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 2003;4(2):249-64. Available at: http://www.ncbi.nlm.nih.gov/pubmed/12925520.</ref>. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности <tex>Y</tex> представляется в виде суммы нормально распределённого шума <tex>B</tex> со средним <tex>\mu</tex> и дисперсией <tex>\sigma^2</tex> и экспоненциально распределённого сигнала <tex>S</tex> со средним значением <tex>\alpha</tex>. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:
Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов<ref name="RMA"> Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 2003;4(2):249-64. Available at: http://www.ncbi.nlm.nih.gov/pubmed/12925520.</ref>. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности <tex>Y</tex> представляется в виде суммы нормально распределённого шума <tex>B</tex> со средним <tex>\mu</tex> и дисперсией <tex>\sigma^2</tex> и экспоненциально распределённого сигнала <tex>S</tex> со средним значением <tex>\alpha</tex>. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:
-
:<tex>\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex>
+
::<tex>\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex>
-
где <tex>a=y-\mu-\sigma^2\alpha,\:</tex> <tex>b=\sigma,\:</tex> <tex>\Phi</tex> и <tex>\phi</tex> — соответственно функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть <tex> f(x)</tex> — плотность распределения интенсивностей на микрочипе, тогда
+
где <tex>a=y-\mu-\sigma^2\alpha,\:</tex> <tex>b=\sigma,\:</tex> <tex>\Phi</tex> и <tex>\phi</tex> — соответственно, функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть <tex> f(x)</tex> — эмпирическая плотность распределения интенсивностей на микрочипе, тогда
-
:<tex> x_m=\arg\max(f(x))</tex> — мода распределения интенсивностей;
+
-
:<tex>\hat{\mu}=\arg\max\left[f\left(x\left|x<x_m\right.\right)\right]</tex> — мода интенсивностей, меньших <tex>x_m</tex>;
+
-
:<tex>\hat{\sigma^2}</tex> — выборочное стандартное отклонение интенсивностей, меньших <tex>\hat{\mu}</tex>, умноженное на <tex>\sqrt{2}</tex>;
+
-
:<tex>\hat{\alpha}=1/\arg\max\left[f\left(x\left|x>x_m\right.\right)\right]</tex>.
+
-
Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, [[EM-алгоритм]] работает слишком медленно из-за большого объёма данных<ref name="bolstad"> Bolstad BM: Low Level Analysis of High-density Oligonucleotide Array Data: Background, Normalization and Summarization. Dissertation, Dept. of Statistics, University of California, Berkeley. 2004. Available at: http://www.bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf.</ref>. В то же время, в работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок.
+
::<tex> \hat{\mu}=\arg\max\left(f\left(x\right)\right)</tex> — среднее шума оценивается как мода распределения интенсивностей;
 +
::<tex>\hat{\sigma^2}</tex> выбирается путём подгонки нормального распределения под левый хвост эмпирической плотности распределения интенсивностей (множество <tex>x< \hat{\mu}</tex>);
 +
::<tex>\hat{\alpha}</tex> выбирается путём подгонки экспоненциального распределения под правый хвост эмпирической плотности распределения интенсивностей (множество <tex>x > \hat{\mu}</tex>).
 +
 
 +
Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, [[EM-алгоритм]] работает слишком медленно из-за большого объёма данных<ref name="bolstad"> Bolstad BM: Low Level Analysis of High-density Oligonucleotide Array Data: Background, Normalization and Summarization. Dissertation, Dept. of Statistics, University of California, Berkeley. 2004. Available at: http://www.bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf.</ref>. В то же время, в работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок. C другой стороны, там же подчёркивается, что само используемое представление распределения интенсивностей в виде смеси нормального и экспоненциального зачастую неадеквано.
== DFCM (Distribution Free Convolution Model) ==
== DFCM (Distribution Free Convolution Model) ==
Строка 31: Строка 34:
# Оценкой стандартного отклонения шума служит <tex>\hat{\sigma}</tex> — выборочное стандартное отклонения шума со значениями интенсивностей, меньших <tex>\hat{\mu}</tex>, умноженное на <tex>\sqrt{2}</tex>.
# Оценкой стандартного отклонения шума служит <tex>\hat{\sigma}</tex> — выборочное стандартное отклонения шума со значениями интенсивностей, меньших <tex>\hat{\mu}</tex>, умноженное на <tex>\sqrt{2}</tex>.
# Значение интенсивности <tex>k</tex>-й пробы в <tex>i</tex>-м наборе проб, соответствующих одному гену, рассчитывается по следующей формуле:
# Значение интенсивности <tex>k</tex>-й пробы в <tex>i</tex>-м наборе проб, соответствующих одному гену, рассчитывается по следующей формуле:
-
:<tex>s_{ki}=\left\{y_{ki}-\hat{\mu}, \:\:\: y_{ki}\geq\hat{\mu}+3\hat{\sigma}, \\ 1 + \left(y_{ki}-min\right) \left( \frac{3\hat{\sigma}-1}{\hat{\mu}+3\hat{\sigma}-min}\right), \:\:\: y_{ki}<\hat{\mu}+3\hat{\sigma}, \right.</tex>
+
::<tex>s_{ki}=\left\{y_{ki}-\hat{\mu}, \:\:\: y_{ki}\geq\hat{\mu}+3\hat{\sigma}, \\ 1 + \left(y_{ki}-min\right) \left( \frac{3\hat{\sigma}-1}{\hat{\mu}+3\hat{\sigma}-min}\right), \:\:\: y_{ki}<\hat{\mu}+3\hat{\sigma}, \right.</tex>
где <tex>min</tex> — минимальное значение интенсивности (PM или MM проб).
где <tex>min</tex> — минимальное значение интенсивности (PM или MM проб).
Строка 38: Строка 41:
== MAS 5.0 (Affymetrix Micro Array Suite 5.0) ==
== MAS 5.0 (Affymetrix Micro Array Suite 5.0) ==
[[Изображение:MAS.PNG|thumb|250px|Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0]]
[[Изображение:MAS.PNG|thumb|250px|Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0]]
-
Данный метод делит каждый ДНК-микрочип на <tex>K</tex> (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности <tex>b_k</tex>; оценивается также дисперсия наименьших 2% значений интенсивности <tex>n_k</tex>. Затем фоновая поправка для каждой пробы с координатами <tex>\left(x,y\right)</tex> рассчитывается как взвешенное среднее всех <tex>k</tex> оценок:
+
Данный метод делит каждый ДНК-микрочип на <tex>K</tex> (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности <tex>b_k;</tex> оценивается также дисперсия наименьших 2% значений интенсивности <tex>n_k</tex>. Затем фоновая поправка для каждой пробы с координатами <tex>\left(x,y\right)</tex> рассчитывается как взвешенное среднее всех <tex>k</tex> оценок:
-
:<tex>b\left(x,y\right) = \frac{1}{\sum_{k=1}^K \omega_k\left(x,y\right)} \sum_{k=1}^K \omega_k\left(x,y\right)b_k</tex>.
+
::<tex>b\left(x,y\right) = \frac{1}{\sum_{k=1}^K \omega_k\left(x,y\right)} \sum_{k=1}^K \omega_k\left(x,y\right)b_k</tex>.
По аналогичной формуле с заменой <tex>b_k</tex> на <tex>n_k</tex> рассчитывается дисперсия фоновой поправки для каждой пробы.
По аналогичной формуле с заменой <tex>b_k</tex> на <tex>n_k</tex> рассчитывается дисперсия фоновой поправки для каждой пробы.
Веса зависят от расстояния между пробой и центрами прямоугольных областей:
Веса зависят от расстояния между пробой и центрами прямоугольных областей:
-
:<tex>\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},</tex>
+
::<tex>\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},</tex>
-
где <tex>d_k\left(x,y\right)</tex> - евклидово расстояние между пробой и центром <tex>k</tex>-й ячейки, <tex>s_0</tex> - сглаживающий коэффициент (значение по умолчанию 100).
+
где <tex>d_k\left(x,y\right)</tex> евклидово расстояние между пробой и центром <tex>k</tex>-й ячейки, <tex>s_0</tex> сглаживающий коэффициент (значение по умолчанию 100).
Скорректированное значение интенсивности рассчитывается по формуле
Скорректированное значение интенсивности рассчитывается по формуле
-
:<tex>A\left(x,y\right)=\max(\max(I(x,y),0.5)-b(x,y),\:NoiseFrac\ast n(x,y)),</tex>
+
::<tex>A\left(x,y\right)=\max(I(x,y)-b(x,y),\:NoiseFrac\ast n(x,y)),</tex>
-
где <tex>I(x,y)</tex> - исходное значение интенсивности, <tex>NoiseFrac</tex> - параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).
+
где <tex>I(x,y)</tex> исходное значение интенсивности, <tex>NoiseFrac</tex> параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).
 +
 
 +
== LESN (Low End Signal is Noise) ==
 +
Данный метод основывается на двух принципах: фоновая поправка должна сохранять порядок интенсивностей проб и наименьшим интенсивностям должна соответствовать наибольшая поправка<ref name="bolstad" />.
 +
 
 +
Обозначим через <tex>p_{\min}</tex> наименьшее значение интенсивности пробы на чипе.
 +
Пусть <tex>w\left(P\right)</tex> — невозрастающая весовая функция, принимающая значения из <tex>[0, 1]</tex> и такая, что <tex>w\left(p_{\min}\right) = 1</tex>.
 +
Тогда если <tex>P_i</tex> — интенсивность <tex>i</tex>-й пробы, то поправка вычисляется по следующей формуле:
 +
::<tex>P_i' = P_i - w\left(P_i\right)\left(p_{\min} - p_0\right)</tex>.
 +
Здесь <tex>p_0</tex> — некоторая маленькая константа, необходимая для того, чтобы интенсивности не обращались в ноль.
 +
 
 +
В качестве весовой функции предлагается использовать экспоненциальную или гауссову:
 +
::<tex>w_E\left(P\right) = \exp\left(- \frac{P - p_{\min}}{\theta}\right)</tex>,
 +
 
 +
::<tex>w_G\left(P\right) = \exp\left(- \frac{\left(P - p_{\min}\right)^2}{\theta^2}\right)</tex>.
 +
 
 +
Отметим, что авторы рекомендуют перед вычислением поправок перейти к логарифмической шкале.
== Примечания ==
== Примечания ==

Текущая версия

Фоновая поправка — важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.

Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность — было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.

Ниже рассмотрены алгоритмы следующих поколений, делающие более изощрённую фоновую поправку.

Содержание

Ideal mismatch

Чтобы нейтрализовать эффект отрицательных значений экспрессии при вычитании интенсивности MM-проб, компанией Affymetrix была разработана концепция Ideal Mismatch[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности SB, представляющее собой одношаговое взвешенное среднее Тьюки по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если i — номер пробы, а k — номер подмножества проб, то фоновый эффект оценивается следующим выражением:

IM_i^{(k)} = \left\{MM_i^{(k)}, \:\:\: MM_i^{(k)}<PM_i^{(k)},\\ \frac{PM_i^{(k)}}{2^{SB_k}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k>\tau_c, \\ \frac{PM_i^{(k)}}{2^{\tau_c/(1+(\tau_c-SB_k)/\tau_s)}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k\leq\tau_c, \right.
SB_k=T_{bk}\left(\log_2 \frac{PM_i^{(k)}}{MM_i^{(k)}}, \:\:i=1,\ldots,n_k\right).

Здесь \tau_c и \tau_s — настраиваемые параметры: \tau_c — константа различия со значением по умолчанию 0.03, \tau_s — константа масштабирования со значением по умолчанию 10, T_{bk} — одношаговое взвешенное среднее Тьюки с параметрами c=5, \eps=0.0001.
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины IM.

RMA (Robust Multichip Average)

Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов[1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности Y представляется в виде суммы нормально распределённого шума B со средним \mu и дисперсией \sigma^2 и экспоненциально распределённого сигнала S со средним значением \alpha. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:

\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},

где a=y-\mu-\sigma^2\alpha,\: b=\sigma,\: \Phi и \phi — соответственно, функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть  f(x) — эмпирическая плотность распределения интенсивностей на микрочипе, тогда

 \hat{\mu}=\arg\max\left(f\left(x\right)\right) — среднее шума оценивается как мода распределения интенсивностей;
\hat{\sigma^2} выбирается путём подгонки нормального распределения под левый хвост эмпирической плотности распределения интенсивностей (множество x< \hat{\mu});
\hat{\alpha} выбирается путём подгонки экспоненциального распределения под правый хвост эмпирической плотности распределения интенсивностей (множество x > \hat{\mu}).

Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, EM-алгоритм работает слишком медленно из-за большого объёма данных[1]. В то же время, в работе McGee, Chen, 2006[1] показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок. C другой стороны, там же подчёркивается, что само используемое представление распределения интенсивностей в виде смеси нормального и экспоненциального зачастую неадеквано.

DFCM (Distribution Free Convolution Model)

В рамках данной модели, как и в модели алгоритма RMA, предполагается, что наблюдаемая интенсивность является суммой сигнала и шума: Y=S+B; однако, в отличие от RMA, не делается никаких предположений о распределениях компонент[1]. Алгоритм учёта фоновой поправки следующий.

  1. Выделяются наименьшие q_1 процентов значений PM-интенсивностей (обычно доля q_1 достаточно мала и не превышает 30%).
  2. Выделяются наименьшие q_2 процентов (обычно 90% или 95%) значений MM-интенсивностей проб, соответствующих PM-пробам, отобранным на предыдущем шаге. Отобранные значения интенсивностей MM-проб далее служат мерой фонового шума.
  3. С использованием непараметрической оценки плотности распределения шума (как правило, ядерной оценки Епачечникова), ищется мода распределения шума \hat{\mu}.
  4. Оценкой стандартного отклонения шума служит \hat{\sigma} — выборочное стандартное отклонения шума со значениями интенсивностей, меньших \hat{\mu}, умноженное на \sqrt{2}.
  5. Значение интенсивности k-й пробы в i-м наборе проб, соответствующих одному гену, рассчитывается по следующей формуле:
s_{ki}=\left\{y_{ki}-\hat{\mu}, \:\:\: y_{ki}\geq\hat{\mu}+3\hat{\sigma}, \\ 1 + \left(y_{ki}-min\right) \left( \frac{3\hat{\sigma}-1}{\hat{\mu}+3\hat{\sigma}-min}\right), \:\:\: y_{ki}<\hat{\mu}+3\hat{\sigma}, \right.

где min — минимальное значение интенсивности (PM или MM проб).

Выбирая значения параметров q_1 и q_2, мы хотим отобрать те значения PM-интенсивностей, которые достаточно малы для того, чтобы пренебречь неспецифической гибридизацией MM-фрагментов к PM-зондам, а затем отобрать такие соответствующие им MM-пробы, которые, скорее всего, не подвержены кросс-гибридизации. Параметр q_1 может рассматриваться как мера доли PM-проб, соответствующим не экспрессированным генам. Любой MM-сигнал, соответствующий таким пробам, не может быть результатом неспецифической гибридизации, поскольку ген не экспрессирован. Значение параметра q_1 выбирается таким, чтобы доля MM-проб с интенсивностью большей, чем у соответствующих им PM-проб для наименьших q_1% данных была примерно равна 50%.

MAS 5.0 (Affymetrix Micro Array Suite 5.0)

Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0
Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0

Данный метод делит каждый ДНК-микрочип на K (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности b_k; оценивается также дисперсия наименьших 2% значений интенсивности n_k. Затем фоновая поправка для каждой пробы с координатами \left(x,y\right) рассчитывается как взвешенное среднее всех k оценок:

b\left(x,y\right) = \frac{1}{\sum_{k=1}^K \omega_k\left(x,y\right)} \sum_{k=1}^K \omega_k\left(x,y\right)b_k.

По аналогичной формуле с заменой b_k на n_k рассчитывается дисперсия фоновой поправки для каждой пробы.

Веса зависят от расстояния между пробой и центрами прямоугольных областей:

\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},

где d_k\left(x,y\right) — евклидово расстояние между пробой и центром k-й ячейки, s_0 — сглаживающий коэффициент (значение по умолчанию 100).

Скорректированное значение интенсивности рассчитывается по формуле

A\left(x,y\right)=\max(I(x,y)-b(x,y),\:NoiseFrac\ast n(x,y)),

где I(x,y) — исходное значение интенсивности, NoiseFrac — параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).

LESN (Low End Signal is Noise)

Данный метод основывается на двух принципах: фоновая поправка должна сохранять порядок интенсивностей проб и наименьшим интенсивностям должна соответствовать наибольшая поправка[1].

Обозначим через p_{\min} наименьшее значение интенсивности пробы на чипе. Пусть w\left(P\right) — невозрастающая весовая функция, принимающая значения из [0, 1] и такая, что w\left(p_{\min}\right) = 1. Тогда если P_i — интенсивность i-й пробы, то поправка вычисляется по следующей формуле:

P_i' = P_i - w\left(P_i\right)\left(p_{\min} - p_0\right).

Здесь p_0 — некоторая маленькая константа, необходимая для того, чтобы интенсивности не обращались в ноль.

В качестве весовой функции предлагается использовать экспоненциальную или гауссову:

w_E\left(P\right) = \exp\left(- \frac{P - p_{\min}}{\theta}\right),
w_G\left(P\right) = \exp\left(- \frac{\left(P - p_{\min}\right)^2}{\theta^2}\right).

Отметим, что авторы рекомендуют перед вычислением поправок перейти к логарифмической шкале.

Примечания

Личные инструменты