Интерпретируемая модель машинного обучения
Материал из MachineLearning.
Интерпретируемая модель машинного обучения — это такая модель, структуру которой способен объяснить эксперт. Она не противоречит той модели измерений, согласно которой была получена выборка.
При интерпретации модели эксперт объясняет
- как отдельные признаки и элементы модели влияют на целевую переменную,
- какова их функциональная взаимосвязь,
- как изменение параметров модели влияет на точность и устойчивость аппроксимации,
- каким образом описываются отдельные части выборки (свойства локальной модели),
- какие свойства имеет модель при аппроксимации выборки в целом (свойства универсальной модели).
При построении интерпретируемых моделей, аппроксимирующих нейросети, черные ящики, или пополняемые выборки, накладываются следующие ограничения, определяющие интерпретируемость.
- Исходное пространство имеет невысокую размерность (или высокая размерность агрегируется).
- Модель является суперпозицией интерпретируемых функций-примитивов.
- На параметры модели накладываются ограничения, учитывающие природу или модель измерений.
- На модель накладываются ограничения области определения, значений, дифференцируемости, липшицевости.
- Точность аппроксимации и другие критерии качества модели вычисляются в той области определения или области пространства измерений, которая соответствует модели измерений.
Примеры интерпретируемых моделей: обобщенно-линейные модели, функции радиального базиса малой размерности, решающие правила, суперпозиции нелинейных функций-примитивов, суррогатные модели, смеси экспертов. Пример интерпретации скоринговой модели: модель является (обобщенной) линейной комбинацией переменных, источник которых задают эксперты (поля анкеты клиента), области значений переменных заданы, веса комбинации положительны, их значения соответствуют экспертным ожиданиям.
При построении моделей, аппроксимирующих нейросети, учитывается тот факт, что сеть может быть прорежена без значимого падения точности аппроксимации. Интерпретируемая модель может быть построена, если статистическая сложность прореженной сети позволяет представить элементы сети в виде интерпретируемой суперпозиции. Иначе, интерпретируемая модель может быть построена при условии, что падение точности аппроксимации не значимо и допустимо для получения адекватной модели.
Литература
- Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221-230.
- Zachary C. Lipton The Mythos of Model Interpretability // arXiv:1606.03490v3, cs.LG, 6 Mar 2017.
- Raphael Féraud, Fabrice Clérot A methodology to explain neural network classification // Neural Networks. Volume 15, Issue 2, March 2002, Pages 237-246.
- Tong Wang et al. A Bayesian Framework for Learning Rule Sets for Interpretable Classification // Journal of Machine Learning Research 18 (2017) 1-37.
- Стрижов В. В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН. 2008. 55 с.
- Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М.: ВЦ РАН, 2010. 60 с.
- Е.В. Бурнаев, П.В. Приходько Методология построения суррогатных моделей для аппроксимации пространственно неоднородных функций // Труды МФТИ, 2013. Том 5, No 4 : 122-132.
- Григорьева К.В. Суррогатные функционалы в задачах диагностики // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления // 2010, Вып. 41 : 33-42.
- Christoph Molnar Interpretable Machine Learning A Guide for Making Black Box Models Explainable, 2018-07-02.
- Workshop on Human Interpretability in Machine Learning WHI 2016 @ ICML, New York, June 23, 2016.
- Workshop on Human Interpretability in Machine Learning (WHI), August 10, 2017.
- Tong Wang et al. A Bayesian Framework for Learning Rule Sets for Interpretable Classification // Journal of Machine Learning Research 18 (2017) 1-37.
- Alfred Inselberg Parallel Coordinates: Visual Multidimensional Geometry and its Applications // Microsoft Research Talks, July 26, 2013.