GMDH Shell

Материал из MachineLearning.

Перейти к: навигация, поиск

GMDH Shell — это программный инструмент для интеллектуального анализа данных и прогнозирования на основе МГУА.

С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.

Бесплатная версия программы имеет ограничения:

  • Вычислительное задание не может выполнятся дольше 60 секунд.
  • Недоступны функции:
    • Экспорт модели в Excel.
    • Сохранение результатов вычислений.
    • Управление с помощью командной строки.
    • Вычисление на удаленном Linux-кластере.

Содержание

Функциональные возможности

Анализ и визуализация данных

  • Предпросмотр таблицы данных.
  • Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество 2\sigma и 3\sigma-outliers.
  • График.
  • Линейчатая диаграмма.
  • Скаттер.
  • Гистограмма.
  • Коррелограмма.
  • Таблица корреляции с зависимой переменной.
  • Триангуляционная поверхность: 3D, изолинии, температурная карта.

Модуль импорта

  • Считывание колонок из CSV, XLS, XLSX.
  • Нахождение прямоугольной таблицы данных.
  • Считывание названий колонок из первой строки.
  • Маркировка пропущенных или испорченных ячеек.

Модуль предобработки

  • Графическая манипуляция колонками данных.
  • Применение трансформаций:
  1. Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.).
  2. Временные ряды (серии лагов, разности, скользящее среднее).
  3. Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
  • Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений.
  • Задание экзаменационной выборки.
  • Выбор режима предобработки:
  1. Общая предобработка (регрессия и классификация)
  2. Прогнозирование временных рядов:
    1. Длинна обучающего окна.
    2. Интервал прогноза.
    3. Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.

Модуль “решателя”

  • Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
    • мин. и макс. степень одной переменной.
    • ограничение суммарной степени члена полинома.
    • ограничение количества переменных в одном члене.
  • Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
  • Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»:
    • Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
    • Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
    • k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
    • Leave-one-out кросс-валидация.
  • Выбор критерия валидации моделей.
    • Среднеквадратичная ошибка (RMSE).
    • Средняя абсолютная ошибка (MAE).
    • RMSE или MAE со штрафом за сложность (умножение на корень сложности модели).
  • Ранжирование переменных (с ограничением на использование не более N лучших переменных) .
    • По проверочной точности модели a+b*x.
    • По частоте использования в моделях комбинаторного алгоритма МГУА.
  • Выбор алгоритма обучения.
    • Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI).
    • Многорядный итерационный алгоритм (улучшенный MIA) .
      • активные нейроны (COMBI в каждом нейроне).
      • нейроны могут иметь от 2 до 5 входов.
      • нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
  • Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков.

Модуль пост-обработки

  • Усреднение прогнозов N лучших моделей.
  • Дискретизация прогнозных значений (для классификации).

Экспорт результатов

  • Экспорт матрицы предобработанных данных.
  • Экспорт прогнозов.
  • Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX.

Модуль визуализации результатов

  • График модели.
  • График отклонений для текущей модели и результатов пост-обработки.
  • Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.
  • Список ранжированных переменных.
  • Формула модели.
  • Оценка качества прогнозирующих моделей (60 различных видов ошибки):
    • Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
    • Максимальная положительная и отрицательная, средняя, квадратичная ошибка.
    • Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
    • Ошибка классификации в задачах с двумя и тремя классами.

Литература

  1. Кошулько А.А. Прозрачная акселерация программной системы интеллектуального анализа данных. // Научный сервис в сети Интернет: суперкомпьютерные центры и задачи: Труды Международной суперкомпьютерной конференции, ISBN 978-5-211-05916-0 (20-25 сентября 2010 г., г. Новороссийск). — М.: Изд-во МГУ, 2010. — С. 313-314.

Ссылки

Личные инструменты