БММО (курс лекций)/2013осень/Задание 1
Материал из MachineLearning.
(→Распределение студентов по вариантам) |
|||
(6 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{well|Окончательный текст задания. Можно приступать к выполнению}} | {{well|Окончательный текст задания. Можно приступать к выполнению}} | ||
- | {{Main|Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов)}} | + | {{Main|Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов)/осень 2013}} |
__TOC__ | __TOC__ | ||
Строка 90: | Строка 90: | ||
| align="center"|15 || Даулбаев - 205 || 3 || | | align="center"|15 || Даулбаев - 205 || 3 || | ||
|- | |- | ||
- | | align="center"|16 || Иванов - 203|| 1 || | + | | align="center"|16 || Иванов - 203|| 1 || 5 |
|- | |- | ||
| align="center"|17 || Кондрашкин - 517 || 2 || 5 | | align="center"|17 || Кондрашкин - 517 || 2 || 5 | ||
Строка 96: | Строка 96: | ||
| align="center"|18 || Ибадов - 420|| 3 || | | align="center"|18 || Ибадов - 420|| 3 || | ||
|- | |- | ||
- | | align="center"|19 || Чепарухин - 214|| 1 || | + | | align="center"|19 || Чепарухин - 214|| 1 || 3.0 |
|- | |- | ||
- | | align="center"|20 || Панкратов - 205|| 2 || | + | | align="center"|20 || Панкратов - 205|| 2 || 4.1 |
|- | |- | ||
| align="center"|21 || Борисов - 525|| 3 || | | align="center"|21 || Борисов - 525|| 3 || | ||
Строка 104: | Строка 104: | ||
| align="center"|22 || Дремов - 205|| 1 || | | align="center"|22 || Дремов - 205|| 1 || | ||
|- | |- | ||
- | | align="center"|23 || Щемирова - 205|| 2 || | + | | align="center"|23 || Щемирова - 205|| 2 || 4.0 |
|- | |- | ||
| align="center"|24 || Нижибицкий - 517|| 3 || 5 | | align="center"|24 || Нижибицкий - 517|| 3 || 5 | ||
Строка 110: | Строка 110: | ||
| align="center"|25 || Горячих - 210|| 1 || | | align="center"|25 || Горячих - 210|| 1 || | ||
|- | |- | ||
- | | align="center"|26 || Захаров - 317|| 3 || | + | | align="center"|26 || Захаров - 317|| 3 || 4.7 |
|- | |- | ||
- | |} | + | | align="center"|27 || Ямшинин - ВВО|| 2 || |
+ | |- | ||
+ | |} | ||
Кто не обнаружил себя в списках, пожалуйста, отпишитесь нам (bayesml@gmail.com). Если чью-то фамилию не разобрал, не взыщите - сообщите и мы исправим :) Для студентов второго курса требования по эффективности реализации являются опциональными. | Кто не обнаружил себя в списках, пожалуйста, отпишитесь нам (bayesml@gmail.com). Если чью-то фамилию не разобрал, не взыщите - сообщите и мы исправим :) Для студентов второго курса требования по эффективности реализации являются опциональными. |
Текущая версия
![]() | Окончательный текст задания. Можно приступать к выполнению |
Содержание |
Начало выполнения задания: 15 октября 2013 г.
Срок сдачи: 29 октября 2013 г., 23:59. За каждый день просрочки оценка за задание будет снижаться на 0.1 балла.
Среда для выполнения задания — MATLAB.
Вероятностные модели посещаемости курса
Рассмотрим модель посещаемости студентами одного курса лекции. Пусть аудитория данного курса состоит из студентов профильной кафедры, а также студентов других кафедр. Обозначим через количество студентов, распределившихся на профильную кафедру, а через
— количество студентов других кафедр на курсе. Пусть студенты профильной кафедры посещают курс с некоторой вероятностью
, а студенты остальных кафедр — с вероятностью
. Обозначим через
количество студентов на данной лекции. Тогда случайная величина
есть сумма двух случайных величин, распределенных по биномиальному закону
и
соответственно. Пусть далее на лекции по курсу ведется запись студентов. При этом каждый студент записывается сам, а также, быть может, записывает своего товарища, которого на лекции на самом деле нет. Пусть студент записывает своего товарища с некоторой вероятностью
. Обозначим через
общее количество записавшихся на данной лекции. Тогда случайная величина
представляет собой сумму
и случайной величины, распределенной по биномиальному закону
. Для завершения задания вероятностной модели осталось определить априорные вероятности для
и для
. Пусть обе эти величины распределены равномерно в своих интервалах
и
. Таким образом, мы определили следующую вероятностную модель:
Модель 1
|
Рассмотрим несколько упрощенную версию модели 1. Известно, что биномиальное распределение при большом количестве испытаний и маленькой вероятности успеха может быть с высокой точностью приближено пуассоновским распределением
с
. Известно также, что сумма двух пуассоновских распределений с параметрами
и
есть пуассоновское распределение с параметром
. Таким образом, мы можем сформулировать вероятностную модель, которая является приближенной версией модели 1:
Модель 2
,
,
,
,
.
Рассмотрим теперь модель посещаемости нескольких лекций курса. Будем считать, что посещаемости отдельных лекций являются независимыми. Тогда:
Модель 3
|
По аналогии с моделью 2 можно сформулировать упрощенную модель для модели 3:
Модель 4
,
,
,
,
.
Задание состоит из трех вариантов.
Распределение студентов по вариантам
№ п/п | Студент | Вариант | Оценка |
---|---|---|---|
1 | Жмудь - 203 | 1 | |
2 | Коняхин - 203 | 2 | |
3 | Молчанов - 203 | 3 | 5 |
4 | Юкова - 203 | 1 | 5 |
5 | Швец - 416 | 2 | |
6 | Кульпинов - 202 | 3 | 5 |
7 | Чабаненко - 204 | 1 | 5 |
8 | Галков - 205 | 2 | |
9 | Тавыриков - 205 | 3 | |
10 | Казорин - ВВО | 1 | 4.2 |
11 | Колосков - 204 | 2 | |
12 | Комалов - 210 | 3 | |
13 | Белоусов - 210 | 1 | |
14 | Чиркова - 210 | 2 | |
15 | Даулбаев - 205 | 3 | |
16 | Иванов - 203 | 1 | 5 |
17 | Кондрашкин - 517 | 2 | 5 |
18 | Ибадов - 420 | 3 | |
19 | Чепарухин - 214 | 1 | 3.0 |
20 | Панкратов - 205 | 2 | 4.1 |
21 | Борисов - 525 | 3 | |
22 | Дремов - 205 | 1 | |
23 | Щемирова - 205 | 2 | 4.0 |
24 | Нижибицкий - 517 | 3 | 5 |
25 | Горячих - 210 | 1 | |
26 | Захаров - 317 | 3 | 4.7 |
27 | Ямшинин - ВВО | 2 |
Кто не обнаружил себя в списках, пожалуйста, отпишитесь нам (bayesml@gmail.com). Если чью-то фамилию не разобрал, не взыщите - сообщите и мы исправим :) Для студентов второго курса требования по эффективности реализации являются опциональными.
Вариант 1
Рассматривается модель 2 с параметрами . Провести на компьютере следующие исследования:
- Найти математические ожидания и дисперсии априорных распределений для всех параметров
.
- Пронаблюдать, как происходит уточнение прогноза для величины
по мере прихода новой косвенной информации. Для этого построить графики и найти мат.ожидание и дисперсию для распределений
при параметрах
, равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого.
- Определить, какая из величин
вносит больший вклад в уточнение прогноза для величины
(в смысле дисперсии распределения). Для этого убедиться в том, что
и
для любых допустимых значений
. Найти множество точек
таких, что
. Являются ли множества
и
линейно разделимыми?
- Провести временные замеры по оценке всех необходимых распределений
.
- Провести исследования из пп. 1-4 для точной модели 1 и сравнить результаты с аналогичными для модели 2. Привести пример оценки параметра, в котором разница между моделью 1 и 2 проявляется в большой степени.
Взять в качестве диапазона допустимых значений для величины интервал
, а для величины
— интервал
.
При оценке выполнения задания будет учитываться эффективность программного кода. В частности, временные затраты на расчет отдельного распределения не должны превышать одной секунды.
Вариант 2
Рассматривается модель 2 с параметрами . Провести на компьютере следующие исследования:
- Найти математические ожидания и дисперсии априорных распределений для всех параметров
.
- Пронаблюдать, как происходит уточнение прогноза для величины
по мере прихода новой косвенной информации. Для этого построить графики и найти мат.ожидание и дисперсию для распределений
при параметрах
, равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого.
- Определить, при каких соотношениях параметров
изменяется относительная важность параметров
для оценки величины
. Для этого найти множество точек
при
, равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого. Являются ли множества
и
линейно разделимыми?
- Провести временные замеры по оценке всех необходимых распределений
.
- Провести исследования из пп. 1-4 для точной модели 1 и сравнить результаты с аналогичными для модели 2. Привести пример оценки параметра, в котором разница между моделью 1 и 2 проявляется в большой степени.
Взять в качестве диапазона допустимых значений для величины интервал
, а для величины
— интервал
.
При оценке выполнения задания будет учитываться эффективность программного кода. В частности, временные затраты на расчет отдельного распределения не должны превышать одной секунды.
Вариант 3
Рассматривается модель 4 с параметрами . Провести на компьютере следующие исследования:
- Найти математические ожидания и дисперсии априорных распределений для всех параметров
.
- Реализовать генератор выборки
из модели при заданных значениях параметров
.
- Пронаблюдать, как происходит уточнение прогноза для величины
по мере прихода новой косвенной информации. Для этого построить графики и найти мат.ожидание и дисперсию для распределений
, где выборка
1) сгенерирована из модели при параметрах
, равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого и 2)
, где
равно мат.ожиданию своего априорного распределения, округленного до ближайшего целого. Провести аналогичный эксперимент, если дополнительно известно значение
. Сравнить результаты двух экспериментов.
- Провести временные замеры по оценке всех необходимых распределений
.
- Провести исследования из пп. 1-4 для точной модели 3 и сравнить результаты с аналогичными для модели 4.
Взять в качестве диапазона допустимых значений для величины интервал
, а для величины
— интервал
.
При оценке выполнения задания будет учитываться эффективность программного кода. В частности, временные затраты на расчет отдельного распределения не должны превышать одной секунды.
Оформление задания
Выполненное задание следует отправить письмом по адресу bayesml@gmail.com с заголовком письма «[БММО13] Задание 1 <ФИО>». Убедительная просьба присылать выполненное задание только один раз с окончательным вариантом. Также убедительная просьба строго придерживаться заданных ниже прототипов реализуемых функций.
Присланный вариант задания должен содержать в себе:
- Текстовый файл в формате PDF с указанием ФИО и номера варианта, содержащий описание всех проведенных исследований.
- Все исходные коды с необходимыми комментариями.
Исходные коды должны включать в себя реализацию оценки распределений в виде отдельных функций. Прототип для функции оценки распределения для модели 2 имеет следующий вид:
Оценка распределения | ||||
---|---|---|---|---|
[p, c, m, v] = p2c_ad(a, d, params) | ||||
ВХОД | ||||
| ||||
ВЫХОД | ||||
|
Прототипы функций для других распределений выглядят аналогично. Если в распределении переменных до или после | несколько, то в названии функции они идут в алфавитном порядке. Функция для оценки распределения для модели 3 имеет название p3b_ad, а входной параметр
является одномерным массивом длины
.
Генерация из распределения | ||||
---|---|---|---|---|
d = m3_generate(N, a, b, params) | ||||
ВХОД | ||||
| ||||
ВЫХОД | ||||
|