Статистический отчет при создании моделей
Материал из MachineLearning.
(→Модель №1) |
(→Модель №1) |
||
Строка 66: | Строка 66: | ||
Отчет состоит из трех экспериментов, демонстрирующих работу инструмента на различных по качеству моделях. | Отчет состоит из трех экспериментов, демонстрирующих работу инструмента на различных по качеству моделях. | ||
- | === Модель №1 === | + | Вставляйте сюда неотформатированный текст.=== Модель №1 === |
Неизвестная зависимость: | Неизвестная зависимость: | ||
Строка 80: | Строка 80: | ||
Отчет, построенный программой: | Отчет, построенный программой: | ||
- | <small> | + | <small><nowiki> |
Статистический анализ линейной модели | Статистический анализ линейной модели | ||
Строка 104: | Строка 104: | ||
Коэффициент множественной корреляции равен 3.8029 | Коэффициент множественной корреляции равен 3.8029 | ||
- | </small> | + | </nowiki></small> |
=== Модель №2 === | === Модель №2 === |
Версия 21:15, 14 ноября 2011
|
В данной работе приведен обзор статистических методов оценивания качества регрессионных моделей, используемых популярными программами машинного обучения и статистической обработки данных. Приведены примеры вычисления и анализа полученных оценок.
Постановка задачи
Имеется пространство объектов-строк и
пространство ответов
.
Задана выборка
.
Обозначеним:
-
— матрица информации или матрица плана;
-
— вектор параметров;
-
— целевой вектор.
Будем считать, что зависимость имеет вид
,
где — некоторая неслучайная функция,
— случайная величина,
с нулевым математически ожиданием.
В моделях многомерной линейной регрессии предполагается, что неслучайная составляющая имеет вид:
.
Требуется численно оценить качество модели при заданном векторе параметров .
Описание решения
Предполагая,
что матрица ковариации вектора ошибки имеет вид
,
где
,
получаем выражение для оценки параметров
взвешенным методом наименьших квадратов:
Основными инструментами оценки качества линейной модели является анализ:
- регрессионных остатков;
- матрицы частных и получастных корреляций (условные корреляции);
- корреляции и ковариации коэффициентов регрессии;
- статистики Дарбина-Уотсона;
- расстояния Махаланобиса между исходной и модельной зависимостями;
- расстояния Кука (мера изменения прогноза при удалении одного объекта);
- доверительных интервалов для предсказанных значений.
В работе рассматривается
- анализ регрессионных остатков, включающий в себя:
- вычисление среднеквадратичной ошибки:
- вычисление коэффициента детерминации:
где
- проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе критерия знаков;
- проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли;
- проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия Жарка-Бера;
- вычисление расстояния Махаланобиса и Кука;
- вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии.
Вычислительный эксперимент
В данном отчете представлены результаты применения созданного инструмента для анализа модели. Отчет состоит из трех экспериментов, демонстрирующих работу инструмента на различных по качеству моделях.
Вставляйте сюда неотформатированный текст.=== Модель №1 ===
Неизвестная зависимость:
.
Для построения модели использовалось объектов независимо равномерно распределительных на отрезке
В качестве шума использовались независимые случайные величины из распределения
В качестве признаков использовались
.
Параметры модели подбирались с помощью метода наименьших квадратов.
Отчет, построенный программой:
Статистический анализ линейной модели Среднеквадратичная ошибка: 0.009639 Значение коэффициента детерминации R^2: 0.99999 Расстояние Кука: 1.0086 (соотношение между дисперсиями признаков не заданы пользователем) Расстояние Махаланобиса: 3.1018 (соотношение между дисперсиями признаков не заданы пользователем) Гипотезу о равенстве нулю математического ожидания регрессионных остатков нельзя отвергнуть при уровне значимости 0.05. Для анализа использован критерий знаков. Значение статистики попало в 0.76418-хвост распределения. Гипотеза о равенстве дисперсий регрессионных остатков отвергнута при уровне значимости 0.05. Для анализа использован критерий Ансари-Брэдли. Значение статистики попало в 0.5466-хвост распределения. Гипотеза о нормальности распределения регрессионных остатков отвергнута при уровне значимости 0.05. Для анализа использован критерий хи-квадрат. Значение статистики попало в 0.05685-хвост распределения. Гипотеза о нормальности распределения регрессионных остатков отвергнута при уровне значимости 0.05. Для анализа использован критерий Жарка-Бера. Значение статистики попало в 0.5-хвост распределения. Матрица корреляции признаков: 1 0.010935 0.99136 0.010935 1 -0.0061593 0.99136 -0.0061593 1 Вектор корреляции признаков и значений функции: 0.97338 -0.21851 0.96916 Коэффициент множественной корреляции равен 3.8029
Модель №2
Неизвестная зависимость:
.
Для построения модели использовалось объектов независимо равномерно распределительных на отрезке
В качестве шума использовались независимые случайные величины из распределения
В качестве признаков использовались
.
Параметры модели подбирались с помощью метода наименьших квадратов.
Модель №3
Неизвестная зависимость:
.
Для построения модели использовалось объектов независимо равномерно распределительных на отрезке
В качестве шума использовались независимые случайные величины из распределения
В качестве признаков использовались
.
Параметры модели подбирались с помощью метода наименьших квадратов.
Исходный код и полный текст работы
Смотри также
Литература
![]() | Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |