Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 594, весна 2018
Материал из MachineLearning.
Видео докладов по курсу на канале Machine Learning на Youtube |
Моя первая научная публикация
Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.
- Описание курса
- Результаты предыдущих курсов
- Видео докладов по курсу на канале Machine Learning на Youtube
- Короткая ссылка на эту страницу: http://bit.ly/2Hohmld
Роли
Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.
Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.
Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.
Результаты
Автор | Тема научной работы | Ссылка | Консультант | Рецензент | Доклад | Буквы | ||
---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSWH> | ||
Белых Евгений Проскурин Александр | Классификация суперпозиций движений физической активности | paper | Мария Владимирова, Александра Малькова | Романенко Илья, Поповкин Андрей, review | MF | AILSBRC>V> [AILSBRC0VT0E0D0WS] CTD | 2+9 | |
Зуева Надежда | Style Change Detection | paper | Рита Кузнецова | Игашов Илья, review | BHMF | AIL-S-B-R- [AILSBRCV0TE0D0WS] | 3+10 | |
Игашов Илья | Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул. | paper | Сергей Грудинин, Мария Кадукова | Манучарян Вардан, review, correction | BHMF | AILBS+BRHC>V> [AILSBRCVTE0D0WS] | 3+11 | |
Калугин Дмитрий | Предсказание графовой структуры нейросетевой модели | paper | Бахтеев Олег | Зуева Надежда review | BHM | AI-L-S--B0R0C0V0 [A-ILSBR0CVT0ED0WS] | 2+11 | |
Манучарян Вардан | Предсказание свойств и типов атомов в молекулярных графах при помощи сверточных сетей | paper, | Сергей Грудинин, Мария Кадукова | Фаттахов Артур review | BMF | AILS>B> [AILSB0R0CV0TE0D0WS] VED | 3+7 | |
Муравьев Кирилл | Определение параметров нейросети, подлежащих оптимизации. | paper, | Бахтеев Олег | Калугин Дмитрий review | BHMF | A+IL-S-B-RCVTED [AILSBRCV0TE0DWS] | 3+12 | |
Мурзин Дмитрий Данилов Андрей | Распознавание текста на основе скелетного представления толстых линий и свёрточных сетей | paper, slides, code
[video] | Л. М. Местецкий, Иван Рейер, Жариков И. Н. | Муравьев Кирилл review | BHMF | A+IL> [AILSB0R0CV0TE0D0WS] | 3+8 | |
Поповкин Андрей Романенко Илья | Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей | paper | Кулунчаков Андрей, В. В. Стрижов | Проскурин Александр, Белых Евгений, review | BHMF | AILS0BC>V> [AILSBRC0VTED0WS] | 3+11 | |
Фаттахов Артур | Style Change Detection | paper | Рита Кузнецова | Данилов Андрей, Мурзин Дмитрий, рецензия | BMF | AIL-S-B-R-CVTDSWH [AILSBRCVTE0D0WS] | 3+11 |
Расписание
Дата | N | Что делаем | Результат для обсуждения | Буква | |
Февраль | 15 | 1 | Организация работы, расписание, инструменты | ||
22 | 2 | ДЗ-1. Выбор задачи | Тема в ML и ссылка на работу в SF помещена напротив фамилии. | ||
Март | 1 | 3 | Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. | Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. | Abstract, Introduction, Literature |
8 | 4 | Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент. | Постановка задачи (0.5-1 страница), описание базового алгоритма. Подготовить доклад 45 сек. | B-talk, Statement | |
15 | 5 | Поставить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи. | Базовый код, отчет о работе базового алгоритма (кратко). | Basic code, Report, cHeck | |
22 | 6 | Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. | Код, визуализация полученных результатов, анализ ошибки, анализ качества. | Code, Visualization | |
29 | 7 | Описать алгоритм. | Теоретическая и алгоритмическая часть статьи (второй / третий раздел). Подготовить промежуточный доклад со слайдами, 2-3 минуты. | M-talk, Theory | |
Апрель | 5 | 8 | Завершение вычислительного эксперимента. | Описание эксперимента с анализом ошибок. | Error |
12 | 9 | Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. | Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». | Document | |
19 | 10 | Контрольная точка — показ статьи в целом, рецензия. | Статья в варианте для рецензирования. | сHeck | |
26 | 11 | Доработка статьи. Подготовка презентации. | Доработанная статья. | RevieW, Slides,Final show | |
Май | 3 | 12 | Доклады и обсуждение. | Статья подготовлена к подаче в журнал. | Final show, Journal |
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- Каждый этап работ +1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>». Недельное опоздание — знак "-".
Список проектов
Шаблон описания проекта — научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
- Авторы: эксперт, консультант.
Задачи группы 594
Задача 1 (1-2)
- Название: Классификация суперпозиций движений физической активности
- Задача: Анализ поведения человека по измерениям датчиков мобильного телефона: по данным акселерометра определить движения человека. Данные акселерометра представляют собой сигнал, не имеющий точной периодики, который содержит неизвестную суперпозицию физических моделей. Будем рассматривать суперпозицию моделей: тело + рука/сумка/рюкзак.
Классификация видов деятельности человека по измерениям фитнес-браслетов. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. (Развитие: Характерная продолжительность движения — секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности — минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.)
- Данные:
- Собираются самостоятельно
- Данные строителей
- Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- Литература:
- Карасиков М. Е., Стрижов В. В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М. П., Ивкин Н. П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471—1483. [URL]
- Исаченко Р. В., Стрижов В. В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А. И., Попова М. С., Стрижов В. В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466—1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
- Базовой алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
- Решение: Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Новизна: Предложен способ классификации и анализа сложных движений (Развитие: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.)
- Авторы: Александра Малькова, Мария Владимирова, Р. Г. Нейчев, В. В. Стрижов,
Задача 2 (1)
- Название: Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста (Text Detection).
- Задача: Automatically Detect Text in Natural Images.
- Данные: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
- Литература: COCO benchmark, One of a state-of-the-art architecture
- Базовой алгоритм: code + морфологические методы, Avito 2014 winner’s solution.
- Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
- Новизна: предложить алгоритм, основанный на использовании как нейросетевых, так и морфологических методов (решение задачи word detection).
- Авторы: И. Н. Жариков.
- Эксперт: Л. М. Местецкий (морфологические методы).
Задача 3 (1-2)
- Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
- Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное. (Развитие: порождение толстых линий нейросетями)
- Данные: Шрифты в растровом представлении.
- Литература: Список работ [1], в частности arXiv:1611.03199 и
- Базовый алгоритм: Сверточная сеть для растрового изображения.
- Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
- Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
- Авторы: Л. М. Местецкий, И. А. Рейер, В. В. Стрижов
Задача 4 (1-2)
- Название: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
- Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
- Данные:
- Коллекция текстовых документов TREC (!)
- Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
- Литература:
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [2]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [3]
- Базовой алгоритм: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
- Решение: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
- Авторы: Кулунчаков Андрей, В. В. Стрижов
Задача 5 (1)
- Название: Определение параметров нейросети, подлежащих оптимизации.
- Задача: Рассматривается задача оптимизации нейросети. Требуется разделить параметры модели на две группы:
- а) Параметры модели, подлежащие оптимизации
- б) Параметры модели, оптимизация которых завершилась. Дальнейшая оптимизация данных параметров не даст улучшения качества модели.
Предлагается рассматривать оптимизацию параметров как стохастический процесс. Основываясь на истории процесса найдем те параметры, чья оптимизация больше не требуется.
- Данные: Выборка рукописных цифр MNIST
- Базовый алгоритм: Случайный выбор параметров.
- Литература:
- Новизна: полученный алгоритм позволит существенно снизить вычислительную стоимость оптимизации нейросетей. Возможным дальнейшим развитием метода является получение оценок на параметры сети, полученной из исходной операциями расширения, сжатия, добавления и удаления слоев.
- Авторы: Бахтеев Олег, В. В. Стрижов
Задача 6 (1)
- Название: Предсказание графовой структуры нейросетевой модели.
- Задача: Рассматривается задача нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
- Данные: Выборки MNIST, CIFAR-10
- Базовый алгоритм: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
- Литература:
- Авторы: Бахтеев Олег, В. В. Стрижов
Задача 7 (1)
- Название: Style Change Detection.
- Задача: Дана коллекция документов, требуется определить, написан ли каждый документ одним автором, или несколькими (http://pan.webis.de/clef18/pan18-web/author-identification.html).
- Данные: PAN 2018 (http://pan.webis.de/clef18/pan18-web/author-identification.html)
PAN 2017 (http://pan.webis.de/clef17/pan17-web/author-identification.html) PAN 2016 (http://pan.webis.de/clef16/pan16-web/author-identification.html)
- Литература:
1. Ian Goodfellow. NIPS 2016 Tutorial: Generative Adversarial Networks (https://arxiv.org/pdf/1701.06547.pdf) 2. Jiwei Li, Will Monroe, Tianlin Shi, Sebastien Jean, Alan Ritter and Dan Jurafsky. Adversarial Learning for Neural Dialogue Generation(https://arxiv.org/pdf/1701.06547.pdf) 3. M. Kuznetsov, A. Motrenko, R. Kuznetsova, V. Strijov. Methods for Intrinsic Plagiarism Detection and Author Diarization (https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf) 4. K. Safin, R. Kuznetsova. Style Breach Detection with Neural Sentence Embeddings (https://pdfs.semanticscholar.org/c70e/7f8fbc561520accda7eea2f9bbf254edb255.pdf)
- Базовый алгоритм: решение, описанное в [3, 4].
- Решение: предлагается решать задачу, используя generative adversarial networks — генеративная модель порождает тексты в одном авторском стиле, дискриминативная модель — бинарный классификатор.
- Новизна: предполагается, что решение этой задачи предлагаемым методом может дать прирост качества по сравнению с типичными методами решениями этой задачи, а также связанных с ней задач кластеризации авторов.
- Авторы: Рита Кузнецова (консультант), В. В. Стрижов
Задача 8 (1)
- Название: Получение оценок правдоподобия с использованием автокодировщиков
- Задача: предполагается, что рассматриваемые объекты подчиняются гипотезе многообразия (manifold learning) — вектора высокий размерности сосредоточились вокруг некоторого подпространства меньшей размерности. Работы [1, 2] показывают, что некоторые модификации автокодировщиков ищут k-мерное многообразие в пространстве объектов, которое наиболее полно передает структуру данных. В работе [2] выводится оценка плотности вероятности данных с помощью автокодировщика. Требуется получить эту оценку на правдоподобие модели.
- Данные: предлагается провести эксперимент на коротких текстовых фрагментах Google ngrams (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
- Литература:
- Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion (http://www.jmlr.org/papers/volume11/vincent10a/vincent10a.pdf).
- Guillaume Alain, Yoshua Bengio. What Regularized Auto-Encoders Learn from the Data Generating Distribution (https://arxiv.org/pdf/1211.4246.pdf)
- Hanna Kamyshanska, Roland Memisevic. The Potential Energy of an Autoencoder (https://www.iro.umontreal.ca/~memisevr/pubs/AEenergy.pdf)
- Базовый алгоритм:
- Решение: в задаче предлагается обучить векторные представления для фраз (n-грамм) с использованием автокодировщика, с помощью теоремы 2 в работе [2] получить оценку на правдоподобие выборки и, с помощью этой оценки, вывести правдоподобие модели. С помощью полученных оценок можно также рассмотреть процесс сэмплирования.
- Новизна: получение оценок правдоподобия данных и правдоподобия модели, порождение текстов с помощью полученных оценок.
- Авторы: Рита Кузнецова (консультант).
Задача 9 (1)
- Название: Предсказание свойств и типов атомов в молекулярных графах при помощи сверточных сетей.
- Задача: Multilabel classification using convolutional neural networks (CNN) on graphs.
Для предсказания взаимодействия молекул друг с другом зачастую необходимо правильно описать составляющие их атомы, поставив им в соответствие некоторые типы. Для маленьких молекул доступно не так много дескрипторов: координаты и химические элементы атомов, длины связей и величины углов между ними. Используя эти признаки, мы успешно предсказываем гибридизации атомов и типы связей. При таком подходе каждый атом рассматривается «по отдельности», информация о соседних атомах, необходимая для определения типа атома, практически не используется, и типы атомов определяются с помощью проверки большого числа условий. В то же время, молекулы представимы в виде трехмерных молекулярных графов, и было бы интересно использовать это для предсказания их типов методами машинного обучения, например, с помощью CNN. Необходимо предсказать типы вершин и рёбер молекулярных графов :
- тип атома (тип вершины графа, около 150 классов),
- гибридизацию атома (вспомогательный признак, тип вершины, 4 класса),
- тип связи (вспомогательный признак, тип ребра, 5 классов).
Тип атома (вершины графа) основан на информации о его гибридизации и свойствах соседних с ним атомов. Поэтому в случае успешного решения задачи классификации можно провести кластеризацию для поиска других способов определения типов атомов.
- Данные: Около 15 тысяч молекул, представленных в виде молекулярных графов. Для каждой вершины (атома) известны 3D координаты и химический элемент. Дополнительно посчитаны длины связей, величины углов и двугранных углов между атомами (3D координаты графа), бинарные признаки, отражающие, входит ли атом в цикл и является ли он терминальным. Выборка размечена, однако в размеченных данных может содержаться ~5 % ошибок.
Если данных будет недостаточно, возможно увеличение выборки (до 200 тысяч молекул), сопряженное с увеличением неточности в разметке.
- Литература:
- Базовой алгоритм: Предсказание гибридизаций и порядков связей с помощью мультиклассового нелинейного SVM с небольшим числом дескрипторов. https://hal.inria.fr/hal-01381010/document
- Решение: Предлагаемое решение задачи и способы проведения исследования.
Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма. На первом этапе нужно будет определить операции на графах, необходимые для построения архитектуры сети. Далее нужно будет обучить сеть для мульти-классовой классификации типов вершин (и ребер) входного графа. Для оценки качества алгоритма предполагается оценивать точность с помощью кросс-валидации. Для конечной публикации (в профильном журнале) нужно будет сделать специфический тест на качество предсказаний: на основе предсказанных типов связи молекула записывается в виде строки (в формате SMILES) и сравнивается с образцом. В этом случае для каждой молекулы предсказание будет считаться верным, только если типы всех связей в ней были предсказаны без ошибок.
- Новизна: Предложенные молекулярные графы обладают 3D структурой и внутренней иерархией, что делает их идеальным объектом применения CNN.
- Авторы: Сергей Грудинин, Мария Кадукова, В. В. Стрижов.
Задача 10 (1)
- Название: Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул. Описание задачи [11]
- Задача:
С точки зрения биоинформатики, задача заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет \textbf{наименьшую свободную энергию} взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
- Данные:
- Данные для бинарной классификации.
Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза и 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования и публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
- Данные для регрессии.
Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
- Решение: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии и решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация.
Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
- Новизна': В первую очередь, интерес представляет объединение задач классификации и регрессии.
Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
- Авторы Сергей Грудинин, Мария Кадукова, В. В. Стрижов.