Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)
Материал из MachineLearning.
(→Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома) |
(→План лекций) |
||
Строка 34: | Строка 34: | ||
=== Лекция 1. Проблемная область - биология === | === Лекция 1. Проблемная область - биология === | ||
- | Биология как проблемная область. | + | *Биология как проблемная область. |
- | О данных и методах из области биологии. | + | *О данных и методах из области биологии. |
- | Уровни биологических систем и уровни данных. | + | *Уровни биологических систем и уровни данных. |
- | Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации. | + | *Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации. |
=== Лекция 2. От клеточной биологии к задачам распознавания === | === Лекция 2. От клеточной биологии к задачам распознавания === | ||
- | Клетка. Методы исследований клеток. | + | *Клетка. Методы исследований клеток. |
- | Основные компоненты и процессы в клетках, их биологические роли и взаимодействия. | + | *Основные компоненты и процессы в клетках, их биологические роли и взаимодействия. |
- | ДНК. РНК. Аминокислоты и белки. | + | *ДНК. РНК. Аминокислоты и белки. |
- | Клеточная биология и система задач распознавания. | + | *Клеточная биология и ... система задач распознавания. |
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач === | === Лекция 3. Биологические данные, объекты и подходы к формализации задач === | ||
- | '''Биологические объекты и их описания. Базы данных в биологии.''' | + | *'''Биологические объекты и их описания. Базы данных в биологии.''' |
- | Объемы данных и степень их интеграции (связности). Противоречивость множеств прецедентов. | + | *Объемы данных и степень их интеграции (связности). |
+ | *Противоречивость множеств прецедентов. | ||
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей === | === Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей === | ||
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.''' | '''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.''' | ||
- | Экспериментальные методы секвенирования. | + | *Экспериментальные методы секвенирования. |
- | Алгоритмы выравнивания и сравнения символьных последовательностей. | + | *Алгоритмы выравнивания и сравнения символьных последовательностей. |
- | Верификация данных из разных уровней иерархии клеточных процессов. | + | *Верификация данных из разных уровней иерархии клеточных процессов. |
- | Классификация последовательностей как подход к решению задач 1D→ххх. | + | *Классификация последовательностей как подход к решению задач 1D→ххх. |
=== Лекция 5. Задачи 1Dднк. === | === Лекция 5. Задачи 1Dднк. === | ||
'''Лексический анализ символьных последовательностей.''' | '''Лексический анализ символьных последовательностей.''' | ||
- | Что такое ген? От гена к белку. Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция. | + | *Что такое ген? От гена к белку. |
- | Задача распознавания гена. Промотер. Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны). | + | *Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция. |
- | Задача инициации транскрипции. Сайты факторов транскрипции. | + | *Задача распознавания гена. Промотер. |
+ | *Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны). | ||
+ | *Задача инициации транскрипции. Сайты факторов транскрипции. | ||
=== Лекция 6. Задачи 1Dднк и 3Dднк === | === Лекция 6. Задачи 1Dднк и 3Dднк === | ||
'''Лексический анализ текстовых строк.''' | '''Лексический анализ текстовых строк.''' | ||
- | Суперскручивание ДНК. Сайты нуклеосом. | + | *Суперскручивание ДНК. Сайты нуклеосом. |
- | Структура генома: последовательность и ориентация генов. | + | *Структура генома: последовательность и ориентация генов. |
- | Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации. | + | *Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации. |
- | Генетика и эпигенетика. | + | *Генетика и эпигенетика. |
- | CpG и сайты метилирования ДНК. | + | *CpG и сайты метилирования ДНК. |
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк === | === Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк === | ||
'''Классификация символьных последовательностей. База данных PDB.''' | '''Классификация символьных последовательностей. База данных PDB.''' | ||
- | ДНК и РНК. Распознавание классов РНК. | + | *ДНК и РНК. Распознавание классов РНК. |
- | Задача 1Dрнк→1Dб: альтернативный сплайсинг. | + | *Задача 1Dрнк→1Dб: альтернативный сплайсинг. |
- | Задача 1Dрнк→2Dрнк: вторичная структура РНК. | + | *Задача 1Dрнк→2Dрнк: вторичная структура РНК. |
- | Задачи 1Dрнк, 2Dрнк →3Dрнк. | + | *Задачи 1Dрнк, 2Dрнк →3Dрнк. |
- | Задачи 1Dрнк, 2Dрнк →Фрнк. | + | *Задачи 1Dрнк, 2Dрнк →Фрнк. |
=== Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб === | === Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб === | ||
'''Анализ и классификация трехмерных объектов. База данных PDB.''' | '''Анализ и классификация трехмерных объектов. База данных PDB.''' | ||
- | Химическое строение молекул белка. Уровни структуры белка. | + | *Химическое строение молекул белка. Уровни структуры белка. |
- | Рентгеноструктурный анализ белков. | + | *Рентгеноструктурный анализ белков. |
- | Белковый ЯМР. | + | *Белковый ЯМР. |
- | Задачи 3D→3D. | + | *Задачи 3D→3D. |
- | Задачи 3D→2D. | + | *Задачи 3D→2D. |
=== Лекция 9. Задачи 1Dб→1Dб === | === Лекция 9. Задачи 1Dб→1Dб === | ||
'''Лексический анализ символьных последовательностей. Базы данных NCBI.''' | '''Лексический анализ символьных последовательностей. Базы данных NCBI.''' | ||
- | Распознавание сигнальных пептидов. | + | *Распознавание сигнальных пептидов. |
- | Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации. | + | *Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации. |
- | Установление функциональных сайтов и «функционально-значимых участков». | + | *Установление функциональных сайтов и «функционально-значимых участков». |
- | О 1D детерминантах стабильности белка. | + | *О 1D детерминантах стабильности белка. |
=== Лекция 10. Задача распознавания вторичной структуры — основы формализма === | === Лекция 10. Задача распознавания вторичной структуры — основы формализма === | ||
'''Перекодировка символьных последовательностей. База данных PDB.''' | '''Перекодировка символьных последовательностей. База данных PDB.''' | ||
- | Задачи 1Dб→2Dб. | + | *Задачи 1Dб→2Dб. |
- | Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные. | + | *Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные. |
- | Основы формализма проблемно-ориентированной теории. | + | *Основы формализма проблемно-ориентированной теории. |
- | О задачах 1D→3D. | + | *О задачах 1D→3D. |
=== Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома === | === Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома === | ||
'''Классификация символьных последовательностей.''' | '''Классификация символьных последовательностей.''' | ||
- | Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка. | + | *Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка. |
- | Задача 1D→Л и о «случайных» последовательностях. | + | *Задача 1D→Л и о «случайных» последовательностях. |
- | 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма. | + | *1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма. |
=== Лекция 12. Анализ и синтез биологических сетей === | === Лекция 12. Анализ и синтез биологических сетей === | ||
'''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.''' | '''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.''' | ||
- | Молекулярные сети клетки. | + | *Молекулярные сети клетки. |
- | Функциональная геномика, задача синтеза сетей и... ловушки. | + | *Функциональная геномика, задача синтеза сетей и... ловушки. |
- | Транскриптомика, протеомика, метаболомика. | + | *Транскриптомика, протеомика, метаболомика. |
- | Исследования «стимул-отклик» в масштабе клетки. | + | *Исследования «стимул-отклик» в масштабе клетки. |
- | Задача поиска «биомаркеров» для медицинской диагностики. | + | *Задача поиска «биомаркеров» для медицинской диагностики. |
=== Лекция 13. Молекулярная фармакология и хемоинформатика === | === Лекция 13. Молекулярная фармакология и хемоинформатика === | ||
'''Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.''' | '''Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.''' | ||
- | Физико-химическое моделирование и хемоинформатика. | + | *Физико-химическое моделирование и хемоинформатика. |
- | Формула→3Dл. | + | *Формула→3Dл. |
- | Задачи 3Dл→3Dл. | + | *Задачи 3Dл→3Dл. |
- | 3Dл→физ.-хим. свойства. | + | *3Dл→физ.-хим. свойства. |
- | 3Dл→белки-рецепторы. 3Dл→константы взаимодействия. | + | *3Dл→белки-рецепторы. 3Dл→константы взаимодействия. |
- | Хемоинформатика, задачи формула→ххх. | + | *Хемоинформатика, задачи формула→ххх. |
=== Лекция 14. Биомедицинские и генетические исследования === | === Лекция 14. Биомедицинские и генетические исследования === | ||
'''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).''' | '''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).''' | ||
- | Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание). | + | *Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание). |
- | Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание). | + | *Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание). |
- | Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание. | + | *Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание. |
=== Лекция 15. Анализ текстов, использование баз данных === | === Лекция 15. Анализ текстов, использование баз данных === | ||
'''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.''' | '''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.''' | ||
- | Биомедицина. | + | *Биомедицина. |
- | Нахождение надежных диагностических исследований. | + | **Нахождение надежных диагностических исследований. |
- | Извлечение информации о генетических ассоциациях. | + | **Извлечение информации о генетических ассоциациях. |
- | Выяснение диагноза по заключению врача. | + | **Выяснение диагноза по заключению врача. |
- | Информатика («вычислительная лингвистика»). | + | *Информатика («вычислительная лингвистика»). |
- | Контекст-зависимая расшифровка аббревиатур. | + | **Контекст-зависимая расшифровка аббревиатур. |
- | Концептуализация абстрактов с использованием онтологий терминов. | + | **Концептуализация абстрактов с использованием онтологий терминов. |
- | Установление значимости соотношений терминов. | + | **Установление значимости соотношений терминов. |
- | Установление функциональных взаимоотношений между белками и генами. | + | **Установление функциональных взаимоотношений между белками и генами. |
- | Замечание о научной этике. | + | *Замечание о научной этике. |
- | Экспертный анализ. | + | *Экспертный анализ. |
=== Лекция 16. Био-логика и алгоритмы === | === Лекция 16. Био-логика и алгоритмы === | ||
'''О поиске новых принципов построения алгоритмов.''' | '''О поиске новых принципов построения алгоритмов.''' | ||
- | Коллектив — индивид — коллектив. | + | *Коллектив — индивид — коллектив. |
- | Нейроны и их реальные сети – избегая редукционизм. | + | *Нейроны и их реальные сети – избегая редукционизм. |
- | «Генетические алгоритмы» и генетика. | + | *«Генетические алгоритмы» и генетика. |
- | Клетка и... экономическая система. | + | *Клетка и... экономическая система. |
- | Artificial life — living and artificial. | + | *Artificial life — living and artificial. |
- | Клетки и... теория электрических цепей? | + | *Клетки и... теория электрических цепей? |
== Литература == | == Литература == |
Версия 15:25, 13 сентября 2010
Курс читается студентам 6-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.
Аннотация
Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.
В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе здач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных органичений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
Организационная часть
Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.
Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-4 стр), проведенной по выбранной задаче.
План лекций
Лекция 1. Проблемная область - биология
- Биология как проблемная область.
- О данных и методах из области биологии.
- Уровни биологических систем и уровни данных.
- Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.
Лекция 2. От клеточной биологии к задачам распознавания
- Клетка. Методы исследований клеток.
- Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
- ДНК. РНК. Аминокислоты и белки.
- Клеточная биология и ... система задач распознавания.
Лекция 3. Биологические данные, объекты и подходы к формализации задач
- Биологические объекты и их описания. Базы данных в биологии.
- Объемы данных и степень их интеграции (связности).
- Противоречивость множеств прецедентов.
Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей
Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.
- Экспериментальные методы секвенирования.
- Алгоритмы выравнивания и сравнения символьных последовательностей.
- Верификация данных из разных уровней иерархии клеточных процессов.
- Классификация последовательностей как подход к решению задач 1D→ххх.
Лекция 5. Задачи 1Dднк.
Лексический анализ символьных последовательностей.
- Что такое ген? От гена к белку.
- Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
- Задача распознавания гена. Промотер.
- Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
- Задача инициации транскрипции. Сайты факторов транскрипции.
Лекция 6. Задачи 1Dднк и 3Dднк
Лексический анализ текстовых строк.
- Суперскручивание ДНК. Сайты нуклеосом.
- Структура генома: последовательность и ориентация генов.
- Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
- Генетика и эпигенетика.
- CpG и сайты метилирования ДНК.
Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк
Классификация символьных последовательностей. База данных PDB.
- ДНК и РНК. Распознавание классов РНК.
- Задача 1Dрнк→1Dб: альтернативный сплайсинг.
- Задача 1Dрнк→2Dрнк: вторичная структура РНК.
- Задачи 1Dрнк, 2Dрнк →3Dрнк.
- Задачи 1Dрнк, 2Dрнк →Фрнк.
Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб
Анализ и классификация трехмерных объектов. База данных PDB.
- Химическое строение молекул белка. Уровни структуры белка.
- Рентгеноструктурный анализ белков.
- Белковый ЯМР.
- Задачи 3D→3D.
- Задачи 3D→2D.
Лекция 9. Задачи 1Dб→1Dб
Лексический анализ символьных последовательностей. Базы данных NCBI.
- Распознавание сигнальных пептидов.
- Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
- Установление функциональных сайтов и «функционально-значимых участков».
- О 1D детерминантах стабильности белка.
Лекция 10. Задача распознавания вторичной структуры — основы формализма
Перекодировка символьных последовательностей. База данных PDB.
- Задачи 1Dб→2Dб.
- Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
- Основы формализма проблемно-ориентированной теории.
- О задачах 1D→3D.
Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома
Классификация символьных последовательностей.
- Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
- Задача 1D→Л и о «случайных» последовательностях.
- 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.
Лекция 12. Анализ и синтез биологических сетей
Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.
- Молекулярные сети клетки.
- Функциональная геномика, задача синтеза сетей и... ловушки.
- Транскриптомика, протеомика, метаболомика.
- Исследования «стимул-отклик» в масштабе клетки.
- Задача поиска «биомаркеров» для медицинской диагностики.
Лекция 13. Молекулярная фармакология и хемоинформатика
Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.
- Физико-химическое моделирование и хемоинформатика.
- Формула→3Dл.
- Задачи 3Dл→3Dл.
- 3Dл→физ.-хим. свойства.
- 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
- Хемоинформатика, задачи формула→ххх.
Лекция 14. Биомедицинские и генетические исследования
Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).
- Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание).
- Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание).
- Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание.
Лекция 15. Анализ текстов, использование баз данных
Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.
- Биомедицина.
- Нахождение надежных диагностических исследований.
- Извлечение информации о генетических ассоциациях.
- Выяснение диагноза по заключению врача.
- Информатика («вычислительная лингвистика»).
- Контекст-зависимая расшифровка аббревиатур.
- Концептуализация абстрактов с использованием онтологий терминов.
- Установление значимости соотношений терминов.
- Установление функциональных взаимоотношений между белками и генами.
- Замечание о научной этике.
- Экспертный анализ.
Лекция 16. Био-логика и алгоритмы
О поиске новых принципов построения алгоритмов.
- Коллектив — индивид — коллектив.
- Нейроны и их реальные сети – избегая редукционизм.
- «Генетические алгоритмы» и генетика.
- Клетка и... экономическая система.
- Artificial life — living and artificial.
- Клетки и... теория электрических цепей?
Литература
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...
- Torshin I.Yu. Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.
- Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
- Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.