Полигон алгоритмов/Пошаговая реализация собственного алгоритма

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(6. Напишите код самого алгоритма)
м (Написание кода самого алгоритма)
 
(9 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
__NOTOC__
+
{{TOCright}}
-
В данной инструкции описывается реализация программы, отвечающей за проведение тестирования Вашего алгоритма системой Полигон. Взаимодействие с системой происходит при помощи веб-сервиса, к которому обращается программа. Алгоритм должен периодически запрашивать новые задания на тестирование, каждое из которых содержит несколько тестов (т.е. несколько обучающих и контрольных подвыборок данных задачи). При получении задания алгоритм должен рассчитать его и сохранить полученные результаты через веб-сервис. Подробнее о взаимодействии системы Полигон с пользовательскими алгоритмами и описание функций веб-сервиса смотрите [[Полигон алгоритмов/Взаимодействие с пользовательскими алгоритмами|здесь]].
+
{{Main|Полигон алгоритмов}}
 +
В данной инструкции описывается реализация программы, отвечающей за проведение тестирования в системе Полигон алгоритма, реализованного пользователем. Взаимодействие с системой происходит при помощи веб-сервиса, к которому обращается программа. Алгоритм должен периодически запрашивать новые задания на тестирование, каждое из которых содержит несколько тестов (т.е. несколько обучающих и контрольных подвыборок данных задачи). При получении задания алгоритм должен рассчитать его и сохранить полученные результаты через веб-сервис. Подробнее о взаимодействии системы Полигон с пользовательскими алгоритмами и описание функций веб-сервиса можно посмотреть [[Полигон алгоритмов/Взаимодействие с пользовательскими алгоритмами|здесь]].
Далее описывается написание программы алгоритма на C# в Microsoft Visual Studio 2008. Соответствующую реализованную программу можно скачать по адресу http://poligon.machinelearning.ru/files/ExampleAlg.rar
Далее описывается написание программы алгоритма на C# в Microsoft Visual Studio 2008. Соответствующую реализованную программу можно скачать по адресу http://poligon.machinelearning.ru/files/ExampleAlg.rar
Скачать данную инструкцию в формате pdf можно [http://poligon.machinelearning.ru/files/AlgStepByStep.pdf здесь]
Скачать данную инструкцию в формате pdf можно [http://poligon.machinelearning.ru/files/AlgStepByStep.pdf здесь]
-
{{Врезка|Выравнивание=left
+
<!--
 +
{{Врезка|Выравнивание=right
|Ширина=50%
|Ширина=50%
|Заголовок=Краткий список действий
|Заголовок=Краткий список действий
Строка 19: Строка 21:
#[[#9. Проверьте работоспособность алгоритма на сайте: создание отчета, запуск программы алгоритма, просмотр отчета|Проверьте работоспособность алгоритма на сайте: создание отчета, запуск программы алгоритма, просмотр отчета]]
#[[#9. Проверьте работоспособность алгоритма на сайте: создание отчета, запуск программы алгоритма, просмотр отчета|Проверьте работоспособность алгоритма на сайте: создание отчета, запуск программы алгоритма, просмотр отчета]]
}}
}}
 +
-->
 +
=Создание нового проекта=
 +
Создается новый проект типа ''ConsoleApplication''. В нашем примере для него используется название ''TestServiceAlgorithm''.
 +
=Добавление в проект Web Reference на обрабатывающий сервис системы=
 +
a. Правой кнопкой нужно нажать на название проекта в ''Solution Explorer'' и затем выбрать пункт ''Add Service Reference''
-
 
+
b. В появившемся окне в левом нижнем углу нужно нажать на кнопку ''“Advanced…”''
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
 
+
-
=1. Создайте новый проект=
+
-
Создайте новый проект типа ''ConsoleApplication''. Дайте ему название. В нашем примере используется название ''TestServiceAlgorithm''.
+
-
 
+
-
=2. Добавьте в проект Web Reference на обрабатывающий сервис системы=
+
-
a. Правой кнопкой нажмите на название проекта в ''Solution Explorer'', выберете пункт ''Add Service Reference''
+
-
 
+
-
b. В появившемся окне в левом нижнем углу нажмите на кнопку ''“Advanced…”''
+
:[[Изображение:AddWebReferenceStep1.png]]
:[[Изображение:AddWebReferenceStep1.png]]
-
c. В появившемся окне в левом нижнем углу нажмите на кнопку ''“Add Web Reference…”''
+
c. В появившемся окне в левом нижнем углу следует нажать на кнопку ''“Add Web Reference…”''
:[[Изображение:AddWebReferenceStep2.png]]
:[[Изображение:AddWebReferenceStep2.png]]
-
d. Введите URL-адрес веб-сервиса: http://poligon.machinelearning.ru/ProcessingService.asmx.
+
d. Необходимо ввести URL-адрес веб-сервиса: http://poligon.machinelearning.ru/ProcessingService.asmx. Затем нажать на кнопку ''“Go”''
-
Нажмите на кнопку ''“Go”''
+
:[[Изображение:AddWebReferenceStep3.png]]
:[[Изображение:AddWebReferenceStep3.png]]
-
e. Назовите новый ''Web Reference'' подходящим образом
+
e. Нужно дать подходящее название новому ''Web Reference''
:[[Изображение:AddWebReferenceStep4.png]]
:[[Изображение:AddWebReferenceStep4.png]]
-
f.Нажмите на кнопку ''"Add Reference"''
+
f. В этом же окне нужно нажать на кнопку ''"Add Reference"''
:[[Изображение:AddWebReferenceStep5.png]]
:[[Изображение:AddWebReferenceStep5.png]]
-
В нашем проекте появляется новый namespace ''<название проекта>.<объявленное название web reference>'' (в нашем случае ''TestServiceAlgorithm.ProcessService''), содержащий все типы и функции веб-сервиса. Включите данный namespace во все используемые файлы кода (''Program.cs''):
+
В проекте появляется новый namespace ''<название проекта>.<объявленное название web reference>'' (в примере: ''TestServiceAlgorithm.ProcessService''), содержащий все типы и функции веб-сервиса. Данный namespace включается во все используемые файлы кода (''Program.cs''):
:<code>using TestServiceAlgorithm.ProcessService</code>;
:<code>using TestServiceAlgorithm.ProcessService</code>;
-
Для обращения к функциям сервиса создайте экземпляр класса ''ProcessingService'', описание которого находится в подключенном namespace:
+
Для обращения к функциям сервиса создается экземпляр класса ''ProcessingService'', описание которого находится в подключенном namespace:
:<code>var procService = new ProcessingService()</code>;
:<code>var procService = new ProcessingService()</code>;
-
=3. Добавьте Web Reference на тестовый сервис системы=
+
=Добавление Web Reference на тестовый сервис системы=
-
Аналогичным образом добавьте в проект тестовый веб-сервис, который расположен по адресу http://poligon.machinelearning.ru/TestService.asmx. В данном примере этот web reference называется ''TestService''. Тогда для использования функций тестового сервиса вместо обрабатывающего нужно подключать namespace, соответствующий тестовому сервису:
+
Аналогичным образом в проект можно добавить тестовый веб-сервис, который расположен по адресу http://poligon.machinelearning.ru/TestService.asmx. В реализованном примере этот web reference называется ''TestService''. Тогда для использования функций тестового сервиса вместо обрабатывающего нужно подключать namespace, соответствующий тестовому сервису:
:<code>using TestServiceAlgorithm.TestService;</code>
:<code>using TestServiceAlgorithm.TestService;</code>
Строка 87: Строка 70:
-
Далее считаем, что переменная ''procService'' соответствует нужному нам сервису.
+
Далее будем считать, что переменная ''procService'' соответствует нужному нам сервису.
-
=4. Напишите логику работы с сервисом=
+
=Написание логики работы с сервисом=
Данный код следует писать в функции ''Main'' файла ''Program.cs''.
Данный код следует писать в функции ''Main'' файла ''Program.cs''.
-
a. Поскольку при вызове любой функции сервиса требуются параметры авторизации, введите переменные, отвечающие за эти данные.
+
a. Поскольку при вызове любой функции сервиса требуются параметры авторизации, нужно ввести переменные, отвечающие за эти данные.
<code>
<code>
:const string algSynonim = "algSynonim";
:const string algSynonim = "algSynonim";
Строка 98: Строка 81:
</code>
</code>
-
b. Рассмотрим схему получения и обработки одного задания алгоритмом со вставками кода:
+
b. Далее рассматривается схема получения и обработки одного задания алгоритмом со вставками кода:
# запрос задания для алгоритма
# запрос задания для алгоритма
Строка 104: Строка 87:
# если задание получено и не было ошибки, то запрос данных задачи
# если задание получено и не было ошибки, то запрос данных задачи
#:<code>ProblemData data = procService.GetProblem(algSynonim, algPassword, procTask.ProblemSynonim);</code>
#:<code>ProblemData data = procService.GetProblem(algSynonim, algPassword, procTask.ProblemSynonim);</code>
-
# тестирование алгоритма на полученном задании (подробнее в пункте [[#5. Напишите логику тестирования алгоритма на задании|Логика тестирования алгоритма на задании]])
+
# тестирование алгоритма на полученном задании (подробнее в пункте [[#Написание логики тестирования алгоритма на задании|Логика тестирования алгоритма на задании]])
#:В результате тестирования возвращаются наборы результатов теста на обучении и на контроле:
#:В результате тестирования возвращаются наборы результатов теста на обучении и на контроле:
#:<code>//Определение числа тестов
#:<code>//Определение числа тестов
Строка 198: Строка 181:
::throw new Exception("Данные задачи возвращены с ошибкой: " + procTask.ProcessingState.Message);</code>
::throw new Exception("Данные задачи возвращены с ошибкой: " + procTask.ProcessingState.Message);</code>
-
При вызове функций обрабатывающего сервиса ошибками могут являться неверный синоним или пароль алгоритма (ошибки авторизации). При регистрации результатов ошибку может вызвать неверный формат регистрируемых данных (результатов теста) (подробнее в пункте [[#7. Протестируйте взаимодействие алгоритма с системой, работу алгоритма|Тестирование взаимодействия алгоритма с системой]]).
+
При вызове функций обрабатывающего сервиса ошибками могут являться неверный синоним или пароль алгоритма (ошибки авторизации). При регистрации результатов ошибку может вызвать неверный формат регистрируемых данных (результатов теста) (подробнее в пункте [[#Тестирование взаимодействия алгоритма с системой, работы алгоритма|Тестирование взаимодействия алгоритма с системой]]).
Нужно определить действия программы в случае возникновения ошибки – сгенерировать исключение (<code>throw new Exception</code>), записать ошибку в файл или выдать сообщение пользователю.
Нужно определить действия программы в случае возникновения ошибки – сгенерировать исключение (<code>throw new Exception</code>), записать ошибку в файл или выдать сообщение пользователю.
Строка 241: Строка 224:
</code>
</code>
-
=5. Напишите логику тестирования алгоритма на задании=
+
=Написание логики тестирования алгоритма на задании=
Задание содержит несколько тестов алгоритма. Каждый тест задается выборкой объектов обучения и выборкой объектов классификации. Соответственно, тестирование алгоритма на задании заключается в последовательном прохождении тестов задания. В каждом тесте алгоритм должен сначала обучиться на обучающей выборке, а потом вернуть результаты классификации на контрольной и обучающей выборках.
Задание содержит несколько тестов алгоритма. Каждый тест задается выборкой объектов обучения и выборкой объектов классификации. Соответственно, тестирование алгоритма на задании заключается в последовательном прохождении тестов задания. В каждом тесте алгоритм должен сначала обучиться на обучающей выборке, а потом вернуть результаты классификации на контрольной и обучающей выборках.
-
Количество тестов определено длиной массива ''LearnIndexes'' в задании, она должна совпадать с длиной массива ''TestIndexes''. Определите количество тестов:
+
Количество тестов определено длиной массива ''LearnIndexes'' в задании, она должна совпадать с длиной массива ''TestIndexes''. Определяется количество тестов:
<code>
<code>
:int learnTaskCount = procTask.LearnIndexes.Length;
:int learnTaskCount = procTask.LearnIndexes.Length;
Строка 251: Строка 234:
-
Создайте списки для сохранения результатов тестов:
+
Создаются списки для сохранения результатов тестов:
<code>
<code>
:var learnResults = new List<TestResult>(learnTaskCount);
:var learnResults = new List<TestResult>(learnTaskCount);
Строка 259: Строка 242:
-
Следующая часть кода пишется в область «Код обработки задания» перед сохранением результатов тестирования (см. пример полного кода в пункте [[#4. Напишите логику работы с сервисом|Логика работы с сервисом]]).
+
Следующая часть кода пишется в область «Код обработки задания» перед сохранением результатов тестирования (см. пример полного кода в пункте [[#Написание логики работы с сервисом|Логика работы с сервисом]]).
-
В цикле <code>for (var i = 0; i < learnTaskCount; i++) </code> напишите поэтапное прохождение тестов:
+
В цикле <code>for (var i = 0; i < learnTaskCount; i++) </code> находится поэтапное прохождение тестов:
1. Обучение алгоритма на обучающей подвыборке с заданными параметрами (в данном случае создание объекта алгоритма, у которого потом будет вызываться функция расчета классификации).
1. Обучение алгоритма на обучающей подвыборке с заданными параметрами (в данном случае создание объекта алгоритма, у которого потом будет вызываться функция расчета классификации).
Строка 268: Строка 251:
В данном случае обучение алгоритма происходит в конструкторе класса. Он требует данные задачи, индексы объектов обучения, информацию о параметрах алгоритма. Именно у созданного (обученного) экземпляра класса ''Algorithm'' будет вызываться функция расчета результатов классификации. Разбор параметров алгоритма, переданных в задании, можно обрабатывать при создании алгоритма, как в данном случае, либо сразу после получения задания и конструктору передавать отдельную структуру с параметрами.
В данном случае обучение алгоритма происходит в конструкторе класса. Он требует данные задачи, индексы объектов обучения, информацию о параметрах алгоритма. Именно у созданного (обученного) экземпляра класса ''Algorithm'' будет вызываться функция расчета результатов классификации. Разбор параметров алгоритма, переданных в задании, можно обрабатывать при создании алгоритма, как в данном случае, либо сразу после получения задания и конструктору передавать отдельную структуру с параметрами.
-
Подробнее код класса ''Algorithm'' будет рассмотрен ниже (пункт [[#6. Напишите код самого алгоритма|Написание кода самого алгоритма]]).
+
Подробнее код класса ''Algorithm'' будет рассмотрен ниже (пункт [[#Написание кода самого алгоритма|Написание кода самого алгоритма]]).
2. Расчет результатов классификации обученного алгоритма (получение ''TestResult'') на обучающей и контрольной выборках.
2. Расчет результатов классификации обученного алгоритма (получение ''TestResult'') на обучающей и контрольной выборках.
-
Вызовите функцию расчетов результатов классификации для обученного алгоритма. Параметрами являются данные задачи и индексы объектов для классификации.
+
Вызывается функцию расчетов результатов классификации для обученного алгоритма. Параметрами являются данные задачи и индексы объектов для классификации.
<code>
<code>
:TestResult learnTestRes = alg.GetTestResult(data, procTask.LearnIndexes[i]);
:TestResult learnTestRes = alg.GetTestResult(data, procTask.LearnIndexes[i]);
Строка 284: Строка 267:
</code>
</code>
-
Сохраните результаты тестов в созданных массивах результатов:
+
Сохраняются результаты тестов в созданных массивах результатов:
<code>
<code>
:learnResults.Add(learnTestRes);
:learnResults.Add(learnTestRes);
Строка 317: Строка 300:
</code>
</code>
-
=6. Напишите код самого алгоритма=
+
=Написание кода самого алгоритма=
-
Создайте класс, отвечающий за работу алгоритма. В нашем примере он называется ''Algorithm''. Далее будем описывать данный класс.
+
Создается класс, отвечающий за работу алгоритма. В нашем примере он называется ''Algorithm''. Далее описывается данный класс.
-
a. Если у алгоритма есть '''параметры''', то опишите их.
+
a. Если у алгоритма есть '''параметры''', то следует их описать.
Для одних параметров значения определяются в задании (те параметры, которые являются внешними и описываются на сайте системы при регистрации алгоритма), для других значения определяются на стадии обучения алгоритма.
Для одних параметров значения определяются в задании (те параметры, которые являются внешними и описываются на сайте системы при регистрации алгоритма), для других значения определяются на стадии обучения алгоритма.
-
Задайте все параметры внутренними полями класса:
+
Все параметры в примере задаются внутренними полями класса:
:<code>private int _seed;</code>
:<code>private int _seed;</code>
-
b. Добавьте возможность '''обучения алгоритма''', т.е. функцию, которая по обучающей выборке и параметрам из задания будет определять внутренние настройки (параметры) алгоритма. Соответственно, атрибутами обучения будут данные задачи, индексы объектов обучения, значения параметров, определенные в задании. В нашем примере стадию обучения алгоритм будет проходить в конструкторе класса:
+
b. Добавляется возможность '''обучения алгоритма''', т.е. функция, которая по обучающей выборке и параметрам из задания будет определять внутренние настройки (параметры) алгоритма. Соответственно, атрибутами обучения будут данные задачи, индексы объектов обучения, значения параметров, определенные в задании. В нашем примере стадию обучения алгоритм будет проходить в конструкторе класса:
<code>
<code>
:public Algorithm(ProblemData data, int[] indexes, string[] paramNames, string[] paramValues, bool[] paramUsages)
:public Algorithm(ProblemData data, int[] indexes, string[] paramNames, string[] paramValues, bool[] paramUsages)
:{
:{
::/* Разбор переданных параметров */
::/* Разбор переданных параметров */
-
 
::// имитация обучения
::// имитация обучения
::_seed = 0;
::_seed = 0;
::foreach (int i in indexes)
::foreach (int i in indexes)
-
::_seed += i;
+
:::_seed += i;
:}
:}
</code>
</code>
-
c. Добавьте возможность '''рассчитать классификацию для определенной выборки''', т.е. по данным задачи и индексам объектов в выборке вернуть ''TestResult''.
+
c. Добавляется возможность '''рассчитать классификацию для определенной выборки''', т.е. по данным задачи и индексам объектов в выборке вернуть ''TestResult''.
-
Определите данную функцию:
+
Следует определить данную функцию:
<code>
<code>
:public TestResult GetTestResult(ProblemData data, int[] indexes)
:public TestResult GetTestResult(ProblemData data, int[] indexes)
Строка 348: Строка 330:
В теле функции:
В теле функции:
-
:1. Определите число объектов на классификацию по длине массива индексов объектов:
+
:1. Определяется число объектов на классификацию по длине массива индексов объектов:
::<code>int objectsCount = indexes.Length;</code>
::<code>int objectsCount = indexes.Length;</code>
-
:2. Определите число признаков задачи по описанию признаков PropertiesDescription в данных задачи
+
:2. Определяется число признаков задачи по описанию признаков PropertiesDescription в данных задачи
::<code>int propertyCount = data.PropertiesDescription.Length - 1;</code>
::<code>int propertyCount = data.PropertiesDescription.Length - 1;</code>
-
:3. Определите число классов задачи (описание классов, как целевого признака, записано в последней строке ''PropertiesDescription'' данных задачи)
+
:3. Определяется число классов задачи (описание классов, как целевого признака, записано в последней строке ''PropertiesDescription'' данных задачи)
::<code>int classCount = data.PropertiesDescription[propertyCount].Values.Length;</code>
::<code>int classCount = data.PropertiesDescription[propertyCount].Values.Length;</code>
-
:4. Создайте структуру для возвращения результатов теста. В ней обязательно должна быть определена матрицу оценок ''ProbabilityMatrix''. В данную матрицу на этапе работы алгоритма следует проставить оценки отнесения ''i''-го объекта классификации (первый индекс) к ''j''-му классу (второй индекс). Создание вектора ответов – необязательно, но если он присутствует, то должен быть согласован с матрицей оценок (т.е. ответ алгоритма на объекте должен соответствовать максимальной оценке в матрице оценок на данном объекте). Веса объектов и признаков должны присутствовать только для тестов на обучении, поэтому их следует создавать и сохранять на этапе обучения алгоритма.
+
:4. Создается структура для возвращения результатов теста. В ней обязательно должна быть определена матрица оценок ''ProbabilityMatrix''. В данную матрицу на этапе работы алгоритма следует проставить оценки отнесения ''i''-го объекта классификации (первый индекс) к ''j''-му классу (второй индекс). Создание вектора ответов – необязательно, но если он присутствует, то должен быть согласован с матрицей оценок (т.е. ответ алгоритма на объекте должен соответствовать максимальной оценке в матрице оценок на данном объекте). Веса объектов и признаков должны присутствовать только для тестов на обучении, поэтому их следует создавать и сохранять на этапе обучения алгоритма.
<code>
<code>
::var testResult = new TestResult
::var testResult = new TestResult
Строка 364: Строка 346:
::};
::};
</code>
</code>
-
:5. Напишите логику работы алгоритма (заполнение матрицы оценок и вектора ответов, если нужно)
+
:5. Описывается логику работы алгоритма (заполнение матрицы оценок и вектора ответов, если нужно)
<code>
<code>
::try
::try
Строка 376: Строка 358:
::}
::}
:</code>
:</code>
-
:Возвращаем результат:
+
:6. Возвращается результат:
::<code>return testResult;</code>
::<code>return testResult;</code>
-
:Пример полного кода функции расчета результатов классификации на выборке:
+
Пример полного кода функции расчета результатов классификации на выборке:
<code>
<code>
::public TestResult GetTestResult(ProblemData data, int[] indexes)
::public TestResult GetTestResult(ProblemData data, int[] indexes)
Строка 386: Строка 368:
::://определяем число объектов на классификацию
::://определяем число объектов на классификацию
:::int objectsCount = indexes.Length;
:::int objectsCount = indexes.Length;
-
 
::://определяем число признаков
::://определяем число признаков
:::int propertyCount = data.PropertiesDescription.Length - 1;
:::int propertyCount = data.PropertiesDescription.Length - 1;
-
 
::://определяем число классов
::://определяем число классов
:::int classCount = data.PropertiesDescription[propertyCount].Values.Length;
:::int classCount = data.PropertiesDescription[propertyCount].Values.Length;
-
 
:::var testResult = new TestResult
:::var testResult = new TestResult
Строка 414: Строка 393:
:::return testResult;
:::return testResult;
::}
::}
-
 
</code>
</code>
-
=7. Протестируйте взаимодействие алгоритма с системой, работу алгоритма=
+
=Тестирование взаимодействия алгоритма с системой, работы алгоритма=
 +
Программа алгоритма запускается в режиме связи с тестовым сервисом (т.е. подключен namespace ''TestServiceAlgorithm.TestService'' и ''procService'' является экземпляром ''TestService''). Тогда авторизация алгоритма при запросах не проверяется.
 +
 
 +
При запросе задания алгоритму всегда возвращается стандартное тестовое задание: в качестве параметров алгоритма возвращается ''null'', ''ProblemSynonim'' равно ''Iris'', указаны индексы разбиений в массивах ''LearnIndexes'' и ''TestIndexes''.
 +
 
 +
При запросе задачи всегда возвращаются данные по задаче ''Iris''.
 +
 
 +
При регистрации результатов на тестовом сервере происходит только проверка возвращенных данных на корректность. Данные, регистрируемые алгоритмом, нигде не сохраняются. По статусу ответа сервиса можно определить, есть ли ошибки в формате возвращенных алгоритмом данных, и, соответственно, исправить их.
 +
 
 +
При '''проверке данных на корректность''' в первую очередь проверяется соответствие числа тестов в массивах с заявленным в задании. Далее для всех тестов по очереди проверяется, что:
 +
 
 +
:a. лежит непустой (не ''null'') указатель на тест
 +
:b. индекс теста (поле ''Index'') совпадает с порядковым номером теста в массивах ''learnResults'' и ''testResults''.
 +
:c. существует обязательная матрица оценок
 +
:d. числа объектов в матрице оценок и векторе ответов совпадает с заявленным в задании числом объектов на данном тесте
 +
:e. длины вектора весов объектов, если он есть, равна числу объектов на данном тесте. Данный вектор может быть только в тесте на обучающей выборке
 +
:f. длина вектора весов признаков, если он есть, равна числу признаков задачи. Данный вектор может быть только в тесте на обучающей выборке
 +
:g. в каждой строчке матрицы оценок лежит непустой указатель
 +
:h. в каждой строчке матрицы оценок записано элементов, равное числу классов
 +
:i. все значения в матрице оценок неотрицательны
 +
:j. если есть вектор классификаций, то ответ на всех объектах определяет некоторый класс (т.е. записанное число лежит в пределах от 0 до <число классов – 1>) и соответствует максимальной оценке в матрице оценок.
 +
 
 +
Если в каком-либо тесте была ошибка (''Error = true''), то данные этого теста на корректность не проверяются, но будет выдано предупреждение, что в расчетах алгоритма произошли ошибки (в случае, если нет других ошибок).
 +
 
 +
Если тестовый сервер вернул ответ со статусом ''Ok'', то вероятнее всего алгоритм готов к запуску на обрабатывающем сервере на реальных задачах. Если вернул ошибку, то ее надо исправить.
 +
 
 +
=Регистрация алгоритма на сайте=
 +
Подробные инструкции можно получить на странице [[Полигон алгоритмов/Мастер загрузки алгоритмов|мастера добавления алгоритма]].
-
=8. Зарегистрируйте алгоритм на сайте=
+
=Проверка работоспособности алгоритма на сайте=
 +
Создается отчет с новым алгоритмом (подробные инструкции на странице [[Полигон алгоритмов/Мастер формирования отчета|мастера формирования отчета]]). Для проверки работоспособности алгоритма лучше всего создать тестовый отчет на одной небольшой задаче, например, на задаче ''Iris''.
-
=9. Проверьте работоспособность алгоритма на сайте: создание отчета, запуск программы алгоритма, просмотр отчета=
+
Для расчета созданного отчета написанную программу необходимо запускать на обрабатывающем сервисе. После того, как алгоритм вернет результаты всех заданий, связанных с некоторой ячейкой отчета (тестирование алгоритма на одной задаче при заданных параметрах), произойдет расчет статистик, и в этой ячейке отчета отобразятся результаты тестирования.
-
{{UnderConstruction|[[Участник:Sintsova|Sintsova]] 00:16, 3 апреля 2010 (MSD)}}
+
[[Категория:Полигон алгоритмов классификации]]

Текущая версия

Содержание

Основная статья: Полигон алгоритмов

В данной инструкции описывается реализация программы, отвечающей за проведение тестирования в системе Полигон алгоритма, реализованного пользователем. Взаимодействие с системой происходит при помощи веб-сервиса, к которому обращается программа. Алгоритм должен периодически запрашивать новые задания на тестирование, каждое из которых содержит несколько тестов (т.е. несколько обучающих и контрольных подвыборок данных задачи). При получении задания алгоритм должен рассчитать его и сохранить полученные результаты через веб-сервис. Подробнее о взаимодействии системы Полигон с пользовательскими алгоритмами и описание функций веб-сервиса можно посмотреть здесь.

Далее описывается написание программы алгоритма на C# в Microsoft Visual Studio 2008. Соответствующую реализованную программу можно скачать по адресу http://poligon.machinelearning.ru/files/ExampleAlg.rar

Скачать данную инструкцию в формате pdf можно здесь

Создание нового проекта

Создается новый проект типа ConsoleApplication. В нашем примере для него используется название TestServiceAlgorithm.

Добавление в проект Web Reference на обрабатывающий сервис системы

a. Правой кнопкой нужно нажать на название проекта в Solution Explorer и затем выбрать пункт Add Service Reference

b. В появившемся окне в левом нижнем углу нужно нажать на кнопку “Advanced…”

Изображение:AddWebReferenceStep1.png

c. В появившемся окне в левом нижнем углу следует нажать на кнопку “Add Web Reference…”

Изображение:AddWebReferenceStep2.png

d. Необходимо ввести URL-адрес веб-сервиса: http://poligon.machinelearning.ru/ProcessingService.asmx. Затем нажать на кнопку “Go”

Изображение:AddWebReferenceStep3.png

e. Нужно дать подходящее название новому Web Reference

Изображение:AddWebReferenceStep4.png

f. В этом же окне нужно нажать на кнопку "Add Reference"

Изображение:AddWebReferenceStep5.png

В проекте появляется новый namespace <название проекта>.<объявленное название web reference> (в примере: TestServiceAlgorithm.ProcessService), содержащий все типы и функции веб-сервиса. Данный namespace включается во все используемые файлы кода (Program.cs):

using TestServiceAlgorithm.ProcessService;

Для обращения к функциям сервиса создается экземпляр класса ProcessingService, описание которого находится в подключенном namespace:

var procService = new ProcessingService();

Добавление Web Reference на тестовый сервис системы

Аналогичным образом в проект можно добавить тестовый веб-сервис, который расположен по адресу http://poligon.machinelearning.ru/TestService.asmx. В реализованном примере этот web reference называется TestService. Тогда для использования функций тестового сервиса вместо обрабатывающего нужно подключать namespace, соответствующий тестовому сервису:

using TestServiceAlgorithm.TestService;

И для обращения к функциям тестового сервиса нужно создать экземпляр класса TestService, находящийся в данном namespace:

var procService = new TestService();

При настройке взаимодействия и отладке работы алгоритма следует обращаться именно к тестовому сервису.


Далее будем считать, что переменная procService соответствует нужному нам сервису.

Написание логики работы с сервисом

Данный код следует писать в функции Main файла Program.cs.

a. Поскольку при вызове любой функции сервиса требуются параметры авторизации, нужно ввести переменные, отвечающие за эти данные.

const string algSynonim = "algSynonim";
const string algPassword = "algPassword";

b. Далее рассматривается схема получения и обработки одного задания алгоритмом со вставками кода:

  1. запрос задания для алгоритма
    ProcessingTask procTask = procService.GetTask(algSynonim, algPassword);
  2. если задание получено и не было ошибки, то запрос данных задачи
    ProblemData data = procService.GetProblem(algSynonim, algPassword, procTask.ProblemSynonim);
  3. тестирование алгоритма на полученном задании (подробнее в пункте Логика тестирования алгоритма на задании)
    В результате тестирования возвращаются наборы результатов теста на обучении и на контроле:
    //Определение числа тестов
    int learnTaskCount = procTask.LearnIndexes.Length;
    //создание наборов результатов тестов
    var learnResults = new List<TestResult>(learnTaskCount);
    var testResults = new List<TestResult>(learnTaskCount);
  4. регистрация результатов
    ProcessingState state = procService.RegisterResult
    (algSynonim, algPassword, procTask.PocketId, learnResults.ToArray(), testResults.ToArray());

Полный код простой логики запроса и обработки одного задания:

//Запрос задания для алгоритма
ProcessingTask procTask = procService.GetTask(algSynonim, algPassword);


if (procTask != null)
{
//Проверка на ошибку при получении задания
if (procTask.ProcessingState.Status == StatusType.Error)
throw new Exception("Задание возвращено с ошибкой: " + procTask.ProcessingState.Message);


//Если задание есть и не было ошибки, надо получить данные по задаче
ProblemData data = procService.GetProblem(algSynonim, algPassword,procTask.ProblemSynonim);


//Проверка на ошибку при получении данных задачи
if (data.ProcessingState.Status == StatusType.Error)
throw new Exception("Данные задачи возвращены с ошибкой: " + procTask.ProcessingState.Message);


//Определение числа тестов
int learnTaskCount = procTask.LearnIndexes.Length;


//создание наборов результатов тестов
var learnResults = new List<TestResult>(learnTaskCount);
var testResults = new List<TestResult>(learnTaskCount);


/*
Код обработки задания (заполнение списков learnResults и testResults)
*/


//Регистрация результатов
ProcessingState state = procService.RegisterResult(algSynonim, algPassword, procTask.PocketId, learnResults.ToArray(), testResults.ToArray());


//Проверка на ошибки при сохранении результатов:
if (state.Status == StatusType.Warning)
throw new Exception("При сохранении результата" + procTask.PocketId + " было выдано предупреждение: " + state.Message);
if (state.Status == StatusType.Error)
throw new Exception("Произошла ошибка при сохранении результата" + procTask.PocketId + ": " + state.Message);
}


c. После каждого вызова функций веб-сервиса стоит проверять возвращенный статус (структура ProcessingState) на произошедшие ошибки или выданные сервером предупреждения.

Например:

//вызов функции получения задачи с сервиса
ProblemData data = procService.GetProblem(algSynonim, algPassword, procTask.ProblemSynonim);


//Проверка на ошибку при получении данных задачи
if (data.ProcessingState.Status == StatusType.Error)
throw new Exception("Данные задачи возвращены с ошибкой: " + procTask.ProcessingState.Message);

При вызове функций обрабатывающего сервиса ошибками могут являться неверный синоним или пароль алгоритма (ошибки авторизации). При регистрации результатов ошибку может вызвать неверный формат регистрируемых данных (результатов теста) (подробнее в пункте Тестирование взаимодействия алгоритма с системой).

Нужно определить действия программы в случае возникновения ошибки – сгенерировать исключение (throw new Exception), записать ошибку в файл или выдать сообщение пользователю.


d. Поскольку для расчета статистик по одной задаче алгоритму требуется рассчитать несколько заданий, можно добавить проверку новых заданий в цикле. При этом следует ставить таймер между запросами заданий, чтобы обращения к серверу не были слишком частыми (возможен бан).

for (int counter = 0; counter < 1000; counter++)
{
/*
Запрос и последующая обработка одного задания (см.выше)
*/
Thread.Sleep((procTask != null) ? 500 : 60000);
}


В данном примере программа ждет полсекунды, если задание приходило, и минуту, если задания не было. Число 1000 соответствует суммарному числу запросов заданий программой. Алгоритм может запрашивать задания в вечном цикле или конечное число раз на усмотрение автора.


e. Для оптимизации трафика можно данные задачи сохранять в алгоритме и запрашивать новые, только если в задании указана другая задача.

Для этого нужно:

Перед объявлением цикла ввести переменную, в которой будут храниться данные последней полученной задачи, и переменную с синонимом последней полученной задачи:

ProblemData lastData = null;
string lastProblemSyn = "";

Вместо прежнего кода запроса данных задачи вставить новый:

if (lastProblemSyn != procTask.ProblemSynonim)
{
lastData = procService.GetProblem(algSynonim, algPassword, procTask.ProblemSynonim);
/* проверка ошибок */
lastProblemSyn = procTask.ProblemSynonim;
}
ProblemData data = lastData;

Написание логики тестирования алгоритма на задании

Задание содержит несколько тестов алгоритма. Каждый тест задается выборкой объектов обучения и выборкой объектов классификации. Соответственно, тестирование алгоритма на задании заключается в последовательном прохождении тестов задания. В каждом тесте алгоритм должен сначала обучиться на обучающей выборке, а потом вернуть результаты классификации на контрольной и обучающей выборках.


Количество тестов определено длиной массива LearnIndexes в задании, она должна совпадать с длиной массива TestIndexes. Определяется количество тестов:

int learnTaskCount = procTask.LearnIndexes.Length;


Создаются списки для сохранения результатов тестов:

var learnResults = new List<TestResult>(learnTaskCount);
var testResults = new List<TestResult>(learnTaskCount);

Результатом теста является объект типа TestResult. Данный класс объявлен в namespace веб-сервиса.


Следующая часть кода пишется в область «Код обработки задания» перед сохранением результатов тестирования (см. пример полного кода в пункте Логика работы с сервисом).

В цикле for (var i = 0; i < learnTaskCount; i++) находится поэтапное прохождение тестов:

1. Обучение алгоритма на обучающей подвыборке с заданными параметрами (в данном случае создание объекта алгоритма, у которого потом будет вызываться функция расчета классификации).

var alg = new Algorithm(data, procTask.LearnIndexes[i], procTask.AlgParamNames, procTask.AlgParamValues, procTask.AlgParamUsages);

В данном случае обучение алгоритма происходит в конструкторе класса. Он требует данные задачи, индексы объектов обучения, информацию о параметрах алгоритма. Именно у созданного (обученного) экземпляра класса Algorithm будет вызываться функция расчета результатов классификации. Разбор параметров алгоритма, переданных в задании, можно обрабатывать при создании алгоритма, как в данном случае, либо сразу после получения задания и конструктору передавать отдельную структуру с параметрами.

Подробнее код класса Algorithm будет рассмотрен ниже (пункт Написание кода самого алгоритма).


2. Расчет результатов классификации обученного алгоритма (получение TestResult) на обучающей и контрольной выборках. Вызывается функцию расчетов результатов классификации для обученного алгоритма. Параметрами являются данные задачи и индексы объектов для классификации.

TestResult learnTestRes = alg.GetTestResult(data, procTask.LearnIndexes[i]);
TestResult testTestRes = alg.GetTestResult(data, procTask.TestIndexes[i]);

Для отслеживания корректности записанных результатов, нужно сохранять порядковый индекс теста:

learnTestRes.Index = i;
testTestRes.Index = i;

Сохраняются результаты тестов в созданных массивах результатов:

learnResults.Add(learnTestRes);
testResults.Add(testTestRes);

Полный пример кода обработки (проведения тестирования) одного задания:

//Определение числа тестов
int learnTaskCount = procTask.LearnIndexes.Length;


//создание наборов результатов тестов
var learnResults = new List<TestResult>(learnTaskCount);
var testResults = new List<TestResult>(learnTaskCount);
for (var i = 0; i < learnTaskCount; i++)
{
// обучение алгоритма
var alg = new Algorithm(data, procTask.LearnIndexes[i], procTask.AlgParamNames, procTask.AlgParamValues, procTask.AlgParamUsages);


//Получаем результат классификации на объектах обучения
var learnTestRes = alg.GetTestResult(data, procTask.LearnIndexes[i]);
learnTestRes.Index = i;
learnResults.Add(learnTestRes);
//Получаем результат классификации на объектах контроля
var testTestRes = alg.GetTestResult(data, procTask.TestIndexes[i]);
testTestRes.Index = i;
testResults.Add(testTestRes);
}

Написание кода самого алгоритма

Создается класс, отвечающий за работу алгоритма. В нашем примере он называется Algorithm. Далее описывается данный класс.

a. Если у алгоритма есть параметры, то следует их описать.

Для одних параметров значения определяются в задании (те параметры, которые являются внешними и описываются на сайте системы при регистрации алгоритма), для других значения определяются на стадии обучения алгоритма.

Все параметры в примере задаются внутренними полями класса:

private int _seed;

b. Добавляется возможность обучения алгоритма, т.е. функция, которая по обучающей выборке и параметрам из задания будет определять внутренние настройки (параметры) алгоритма. Соответственно, атрибутами обучения будут данные задачи, индексы объектов обучения, значения параметров, определенные в задании. В нашем примере стадию обучения алгоритм будет проходить в конструкторе класса:

public Algorithm(ProblemData data, int[] indexes, string[] paramNames, string[] paramValues, bool[] paramUsages)
{
/* Разбор переданных параметров */
// имитация обучения
_seed = 0;
foreach (int i in indexes)
_seed += i;
}

c. Добавляется возможность рассчитать классификацию для определенной выборки, т.е. по данным задачи и индексам объектов в выборке вернуть TestResult.

Следует определить данную функцию:

public TestResult GetTestResult(ProblemData data, int[] indexes)

В теле функции:

1. Определяется число объектов на классификацию по длине массива индексов объектов:
int objectsCount = indexes.Length;
2. Определяется число признаков задачи по описанию признаков PropertiesDescription в данных задачи
int propertyCount = data.PropertiesDescription.Length - 1;
3. Определяется число классов задачи (описание классов, как целевого признака, записано в последней строке PropertiesDescription данных задачи)
int classCount = data.PropertiesDescription[propertyCount].Values.Length;
4. Создается структура для возвращения результатов теста. В ней обязательно должна быть определена матрица оценок ProbabilityMatrix. В данную матрицу на этапе работы алгоритма следует проставить оценки отнесения i-го объекта классификации (первый индекс) к j-му классу (второй индекс). Создание вектора ответов – необязательно, но если он присутствует, то должен быть согласован с матрицей оценок (т.е. ответ алгоритма на объекте должен соответствовать максимальной оценке в матрице оценок на данном объекте). Веса объектов и признаков должны присутствовать только для тестов на обучении, поэтому их следует создавать и сохранять на этапе обучения алгоритма.

var testResult = new TestResult
{
Answers = new int[objectsCount],
ObjectsWeights = null,
ProbabilityMatrix = new double[objectsCount][],
PropertiesWeights = null
};

5. Описывается логику работы алгоритма (заполнение матрицы оценок и вектора ответов, если нужно)

try
{
/*Работа алгоритма*/
}
catch (Exception exp)
{
testResult.Error = true;
testResult.ErrorException = exp.Message;
}
6. Возвращается результат:
return testResult;


Пример полного кода функции расчета результатов классификации на выборке:

public TestResult GetTestResult(ProblemData data, int[] indexes)
{
//определяем число объектов на классификацию
int objectsCount = indexes.Length;
//определяем число признаков
int propertyCount = data.PropertiesDescription.Length - 1;
//определяем число классов
int classCount = data.PropertiesDescription[propertyCount].Values.Length;
var testResult = new TestResult
{
Answers = new int[objectsCount],
ObjectsWeights = null,
ProbabilityMatrix = new double[objectsCount][],
PropertiesWeights = null
};
try
{
/*Работа алгоритма*/
}
catch (Exception exp)
{
testResult.Error = true;
testResult.ErrorException = exp.Message;
}
return testResult;
}

Тестирование взаимодействия алгоритма с системой, работы алгоритма

Программа алгоритма запускается в режиме связи с тестовым сервисом (т.е. подключен namespace TestServiceAlgorithm.TestService и procService является экземпляром TestService). Тогда авторизация алгоритма при запросах не проверяется.

При запросе задания алгоритму всегда возвращается стандартное тестовое задание: в качестве параметров алгоритма возвращается null, ProblemSynonim равно Iris, указаны индексы разбиений в массивах LearnIndexes и TestIndexes.

При запросе задачи всегда возвращаются данные по задаче Iris.

При регистрации результатов на тестовом сервере происходит только проверка возвращенных данных на корректность. Данные, регистрируемые алгоритмом, нигде не сохраняются. По статусу ответа сервиса можно определить, есть ли ошибки в формате возвращенных алгоритмом данных, и, соответственно, исправить их.

При проверке данных на корректность в первую очередь проверяется соответствие числа тестов в массивах с заявленным в задании. Далее для всех тестов по очереди проверяется, что:

a. лежит непустой (не null) указатель на тест
b. индекс теста (поле Index) совпадает с порядковым номером теста в массивах learnResults и testResults.
c. существует обязательная матрица оценок
d. числа объектов в матрице оценок и векторе ответов совпадает с заявленным в задании числом объектов на данном тесте
e. длины вектора весов объектов, если он есть, равна числу объектов на данном тесте. Данный вектор может быть только в тесте на обучающей выборке
f. длина вектора весов признаков, если он есть, равна числу признаков задачи. Данный вектор может быть только в тесте на обучающей выборке
g. в каждой строчке матрицы оценок лежит непустой указатель
h. в каждой строчке матрицы оценок записано элементов, равное числу классов
i. все значения в матрице оценок неотрицательны
j. если есть вектор классификаций, то ответ на всех объектах определяет некоторый класс (т.е. записанное число лежит в пределах от 0 до <число классов – 1>) и соответствует максимальной оценке в матрице оценок.

Если в каком-либо тесте была ошибка (Error = true), то данные этого теста на корректность не проверяются, но будет выдано предупреждение, что в расчетах алгоритма произошли ошибки (в случае, если нет других ошибок).

Если тестовый сервер вернул ответ со статусом Ok, то вероятнее всего алгоритм готов к запуску на обрабатывающем сервере на реальных задачах. Если вернул ошибку, то ее надо исправить.

Регистрация алгоритма на сайте

Подробные инструкции можно получить на странице мастера добавления алгоритма.

Проверка работоспособности алгоритма на сайте

Создается отчет с новым алгоритмом (подробные инструкции на странице мастера формирования отчета). Для проверки работоспособности алгоритма лучше всего создать тестовый отчет на одной небольшой задаче, например, на задаче Iris.

Для расчета созданного отчета написанную программу необходимо запускать на обрабатывающем сервисе. После того, как алгоритм вернет результаты всех заданий, связанных с некоторой ячейкой отчета (тестирование алгоритма на одной задаче при заданных параметрах), произойдет расчет статистик, и в этой ячейке отчета отобразятся результаты тестирования.