Фоновая поправка в анализе ДНК-микрочипов
Материал из MachineLearning.
Строка 13: | Строка 13: | ||
== RMA-свёртка == | == RMA-свёртка == | ||
- | Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов <ref name="RMA"> Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 2003;4(2):249-64. Available at: http://www.ncbi.nlm.nih.gov/pubmed/12925520.</ref>. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности <tex>Y</tex> представляется в виде суммы нормально распределённого шума <tex>B</tex> со средним <tex>\mu</tex> и дисперсией <tex>\sigma^2</tex> и экспоненциально распределённого сигнала <tex>S</tex> со средним значением <tex>\alpha</tex>. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения. Корректировка производится согласно следующей формуле: <br /><tex>E\left(S\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex><br /> | + | Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов <ref name="RMA"> Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 2003;4(2):249-64. Available at: http://www.ncbi.nlm.nih.gov/pubmed/12925520.</ref>. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности <tex>Y</tex> представляется в виде суммы нормально распределённого шума <tex>B</tex> со средним <tex>\mu</tex> и дисперсией <tex>\sigma^2</tex> и экспоненциально распределённого сигнала <tex>S</tex> со средним значением <tex>\alpha</tex>. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения. Корректировка производится согласно следующей формуле: <br /> <tex>E\left(S\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex><br /> |
где <tex>a=s-\mu-\sigma^2\alpha,</tex> <tex>b=\sigma</tex>, <tex>\Phi</tex> и <tex>\phi</tex> - соответственно функция распределения и плотность стандартного нормального распределения. | где <tex>a=s-\mu-\sigma^2\alpha,</tex> <tex>b=\sigma</tex>, <tex>\Phi</tex> и <tex>\phi</tex> - соответственно функция распределения и плотность стандартного нормального распределения. | ||
== MAS 5.0 == | == MAS 5.0 == | ||
+ | [[Изображение:MAS.PNG|thumb|250px|Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0]] | ||
+ | Данный метод делит каждый ДНК-микрочип на <tex>K</tex> (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности <tex>b_k</tex>; оценивается также дисперсия наименьших 2% значений интенсивности <tex>n_k</tex>. Затем фоновая поправка для каждой пробы с координатами <tex>\left(x,y\right)</tex> рассчитывается как взвешенное среднее всех <tex>k</tex> оценок: <br /> <tex>b\left(x,y\right) = \frac{1}{\sum_{k=1}^K \omega_k\left(x,y\right)} \sum_{k=1}^K \omega_k\left(x,y\right)b_k</tex>. <br /> | ||
+ | По аналогичной формуле с заменой <tex>b_k</tex> на <tex>n_k</tex> рассчитывается дисперсия фоновой поправки для каждой пробы. | ||
+ | |||
+ | Веса зависят от расстояния между пробой и центрами прямоугольных областей: <br /> | ||
+ | <tex>\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},</tex><br /> | ||
+ | где <tex>d_k\left(x.y\right)</tex> - евклидово расстояние между пробой и центром <tex>k</tex>-й ячейки, <tex>s_0</tex> - сглаживающий коэффициент (значение по умолчанию 100). | ||
+ | |||
+ | Скорректированное значение интенсивности рассчитывается по формуле <tex>A\left(x,y\right)=max(max(I(x,y),0.5)-b(x,y), NoiseFrac*n(x,y)),</tex> где <tex>I(x,y)</tex> - исходное значение интенсивности, <tex>NoiseFrac</tex> - параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5). | ||
[[Категория:Биоинформатика]] | [[Категория:Биоинформатика]] | ||
{{Stub}} | {{Stub}} |
Версия 14:25, 11 мая 2010
Фоновая поправка - важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.
Ideal mismatch
Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность - было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.
Чтобы нейтрализовать этот эффект, компанией Affymetrix была разработана концепция Ideal Mismatch[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности , представляющее собой устойчивое к выбросам среднее по каждой паре проб в множестве логарифмов отношений PM-интенсивностей к MM-интенсивностям. Если - номер пробы, а - номер подмножества проб, то фоновый эффект оценивается следующим выражением:
Здесь и - настраиваемые параметры: - константа различия со значением по умолчанию 0.03, - константа масштабирования со значением по умолчанию 10. Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины .
RMA-свёртка
Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов [1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности представляется в виде суммы нормально распределённого шума со средним и дисперсией и экспоненциально распределённого сигнала со средним значением . Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения. Корректировка производится согласно следующей формуле:
где , и - соответственно функция распределения и плотность стандартного нормального распределения.
MAS 5.0
Данный метод делит каждый ДНК-микрочип на (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности ; оценивается также дисперсия наименьших 2% значений интенсивности . Затем фоновая поправка для каждой пробы с координатами рассчитывается как взвешенное среднее всех оценок:
.
По аналогичной формуле с заменой на рассчитывается дисперсия фоновой поправки для каждой пробы.
Веса зависят от расстояния между пробой и центрами прямоугольных областей:
где - евклидово расстояние между пробой и центром -й ячейки, - сглаживающий коэффициент (значение по умолчанию 100).
Скорректированное значение интенсивности рассчитывается по формуле где - исходное значение интенсивности, - параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).