Участник:EvgSokolov/Песочница

Материал из MachineLearning.

< Участник:EvgSokolov(Различия между версиями)

Текущая версия

Источник — «http://recognition.su/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:EvgSokolov/%D0%9F%D0%B5%D1%81%D0%BE%D1%87%D0%BD%D0%B8%D1%86%D0%B0»

@@ Строка 1: / Строка 1: @@
-== fRMA (Frozen Robust Multi-Array Analysis) ==
-Рассматривается следующая модель уровня экспрессии:
-{{eqno|1}}
-::<tex> Y_{ijkn} = \theta_{in} + \phi_{jn} + \gamma_{jkn} + \varepsilon_{ijkn} </tex>
-Здесь используются следующие обозначения:
-* <tex>k</tex> — номер партии микрочипов <tex> k \in 1, \dots, K </tex>. Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
-* <tex>i</tex> — номер микрочипа <tex> i \in 1, \dots, I_k </tex>.
-* <tex>n</tex> — номер набора проб <tex> n \in 1, \dots, N </tex>. Также через <tex>n</tex>  мы будем обозначать номер гена, соответствующего <tex>n</tex>-му набору проб.
-* <tex>j</tex> — номер пробы <tex> i \in 1, \dots, J_n </tex>.
-* <tex>Y_{ijkn}</tex> — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы <tex>j</tex> из набора проб <tex>n</tex> микрочипа <tex>i</tex> из партии микрочипов <tex>k</tex>.
-* <tex>\theta_{in}</tex> — экспрессия гена <tex>n</tex> на <tex>i</tex>-м микрочипе.
-* <tex>\phi_{jn}</tex> — коэффициент сродства пробы <tex>j</tex> гену <tex>n</tex>.
-* <tex>\gamma_{jkn}</tex> — случайная ошибка, вызывающая различия между партиями проб.
-* <tex>\varepsilon_{ijkn}</tex> — случайная ошибка, вызывающая различия между пробами на чипах одной партии.
-В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: <tex>\mathbb{D} \varepsilon_{ijkn} = \sigma_{jn}^2</tex>.
-Также делается предположение, что <tex>\gamma_{jkn}</tex> — это случайная величина, дисперсия которой не зависит от партии чипов: <tex>\mathbb{D} \gamma_{jkn} = \tau_{jn}^2</tex>.
-=== Обучение модели ===
-Для обучения необходимы данные с большого числа микрочипов.
-Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.
-В дальнейшем мы будем называть это распределение «представительным».
-Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.
-Рассматривается упрощенная модель
-::<tex> Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn} </tex>.
-По обучающей выборке находятся робастные оценки параметров <tex>\hat \theta_{in} </tex> и <tex> \hat \phi_{jn} </tex> для данной модели.
-Затем вычисляются остатки <tex>r_{ijkn} = Y_{ijkn} - \left( \hat \theta_{in} + \hat \phi_{jn} \right) </tex>, с помощью которых оцениваются дисперсии <tex>\sigma_{jn}^2</tex> и <tex>\tau_{jn}^n</tex>:
-::<tex> \hat \tau_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \left( \bar r_{.jkn} - \bar r_{.j.n} \right)^2</tex>;
-::<tex> \hat \sigma_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} \left( r_{ijkn} - \bar r_{.jkn} \right)^2</tex>,
-где <tex>\bar r_{.jkn} = \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn},\; \bar r_{.j.n} = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn} </tex>.
-=== Обработка новых чипов ===
-Рассмотрим процесс обработки новых чипов.
-Сначала делается фоновая поправка всех чипов методом RMA-свертки, затем с помощью квантильной нормализации интенсивности новых чипов приводятся к представительному распределению, полученному на этапе обучения. Последним шагом является суммаризация, которая подробно описана ниже.
-В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства:
-::<tex> Y_{ijln}^* = Y_{ijln} - \hat \phi_{jn} \approx \theta_{in} + \gamma_{jkn} + \varepsilon_{ijkn} </tex>
-(здесь <tex>l</tex> — это индекс новой партии микрочипов).
-Далее из скорректированных интенсивностей нужно получить робастную оценку для <tex>\theta</tex>.
-Это делается разными способами в зависимости от того, из скольких чипов состоит партия.
-==== Один микрочип ====
-В данном случае индексы <tex>i</tex> и <tex>l</tex> могут быть опущены опущены, так как обрабатывается один микрочип и одна партия.
-Логарифмированная концентрация оценивается следующим образом:
-::<tex> \hat \theta_n = \frac{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}} Y_{jn}^*}{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}}} </tex>,
-где <tex> v_{jn} = \hat \tau_{jn}^2 + \hat \sigma_{jn}^2 </tex> — оценка дисперсии скорректированной интенсивности <tex>Y_{jn}^*</tex>, а <tex> w_{jn} </tex> — веса, соответствующие некоторой M-оценке.
-Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие <tex>w_{jn}</tex>) и пробы с большой дисперсией шума.
-==== Партия микрочипов ====
-В данном случае индекс <tex>l</tex> может быть опущен, так как обрабатывается одна партия микрочипов.

Участник:EvgSokolov/Песочница

Материал из MachineLearning.

Текущая версия

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты