Символьная регрессия
Материал из MachineLearning.
 (Литература по теме)  | 
				|||
| Строка 1: | Строка 1: | ||
| + | '''Символьная регрессия''' — метод построения [[регрессионная модель|регрессионных моделей]]] путем перебора различных произвольных суперпозиций функций из некоторого заданного набора. Суперпозиция функций при этом называется "программой", а стохастический оптимизационный алгоритм построения таких суперпозиций называется [[генетическое программирование|генетическим программированием]].   | ||
| + | |||
| + | Генетическое программирование – модификация [[генетического алгоритма]]. Различие заключается в том, что для решения задач символьной регрессии необходима изменяющаяся длина хромосом, описывающих суперпозиции.   | ||
| + | |||
| + | Так как подобные алгоритмы являются переборными и требуют значительных вычислительных ресурсов, то публикации по данной теме стали появляться в 90-х годах, а значительное развитие они получили после 2000-го года. Наиболее известным исследователем является Джон Коза.  | ||
| + | |||
| + | == Постановка задачи ==  | ||
| + | |||
| + | Задача отыскания оптимальной структуры регрессионной модели нескольких свободных переменных следующим образом. Задана выборка — множество <tex>\{\mathbf{x}_1,…,\mathbf{x}_N|\mathbf{x}\in\R^M\}</tex> значений свободных переменных и множество <tex>\{y_1,…,y_N| y\in\R\}</tex> соответствующих им значений зависимой переменной. Обозначим оба эти множества как множество исходных данных <tex>D</tex>.  | ||
| + | |||
| + | Также задано множество <tex>G=\{g|g:\R\times…\times\R\longrightarrow\R\}</tex> гладких  | ||
| + | параметрических функций <tex>g=g(\mathbf{b},\cdot,\cdot,…,\cdot) </tex>. Первый аргумент функции <tex>g</tex> — вектор-строка параметров <tex>\mathbf{b}</tex>, последующие — переменные из множества действительных чисел, рассматриваемые как элементы вектора свободных переменных.  | ||
| + | Рассмотрим произвольную суперпозицию, состоящую из не более чем <tex>r</tex> функций <tex>g</tex>. Эта суперпозиция задает параметрическую регрессионную модель <tex>f=f(\mathbf{w},\mathbf{x}) </tex>. Регрессионная модель <tex>f</tex> зависит от вектора свободных переменных <tex>\mathbf{x}</tex> и от вектора параметров <tex>\mathbf{w}</tex>. Вектор <tex>\mathbf{w}\in\R^W</tex> состоит из присоединенных векторов-параметров  | ||
| + | функций <tex>g_1,…,g_r</tex>, то есть, <tex>\mathbf{w}=\mathbf{b}_1\vdots\mathbf{b}_2\vdots…\vdots\mathbf{b}_r</tex>, где <tex>\vdots</tex> — знак присоединения векторов. Обозначим <tex>\Phi=\{f_i\}</tex> — множество всех суперпозиций, индуктивно порожденное элементами множества <tex>G</tex>.  | ||
| + | |||
| + | Требуется выбрать такую модель <tex>f_i</tex>, которая доставляет максимум заданного функционала <tex>p(\mathbf{w}|D) </tex>.  | ||
| + | |||
{{Заготовка}}  | {{Заготовка}}  | ||
== Литература ==  | == Литература ==  | ||
| + | * {{s|Zelinka, I., Nolle, L., Oplatkova, Z.}} Analytic Programming — Symbiloc Regression by Means of Arbitrfary Evolutionary Algorithms / Journal of Simulation. Vol. 6 No 9. P. 44—56.  | ||
* {{s|Koza, J. R.}} Genetic Programming IV: Routine Human-Competitive Machine Intelligence. Springer. 2005.  | * {{s|Koza, J. R.}} Genetic Programming IV: Routine Human-Competitive Machine Intelligence. Springer. 2005.  | ||
* {{s|Riolo, R., Soule, T., Worzel, B. (Eds.)}} Genetic Programming Theory and Practice V. Series: Genetic and Evolutionary Computation. Springer. 2008.  | * {{s|Riolo, R., Soule, T., Worzel, B. (Eds.)}} Genetic Programming Theory and Practice V. Series: Genetic and Evolutionary Computation. Springer. 2008.  | ||
| Строка 11: | Строка 29: | ||
== Внешние ссылки ==  | == Внешние ссылки ==  | ||
| + | * [http://alphard.ethz.ch/gerber/approx/default.html Simple Symbolic Regression Using Genetic Programming à la John Koza]  | ||
* [http://gplab.sourceforge.net {{s|Silva, S.}} GPLAB — A Genetic Programming Toolbox for MATLAB]  | * [http://gplab.sourceforge.net {{s|Silva, S.}} GPLAB — A Genetic Programming Toolbox for MATLAB]  | ||
* [http://www.staff.ncl.ac.uk/d.p.searson/gptips.htm {{s|Searson, D.}} GPTIPS — Genetic Programming Tool for MATLAB]  | * [http://www.staff.ncl.ac.uk/d.p.searson/gptips.htm {{s|Searson, D.}} GPTIPS — Genetic Programming Tool for MATLAB]  | ||
* [http://www.gepsoft.com {{s|Gepsoft}} GeneXproTools — Logistic Regression Analytics Platform]  | * [http://www.gepsoft.com {{s|Gepsoft}} GeneXproTools — Logistic Regression Analytics Platform]  | ||
| + | * [http://en.wikipedia.org/wiki/Genetic_programming Genetic programming, Wikipedia]  | ||
| + | [[Категория:Незавершенные статьи]]  | ||
[[Категория:Регрессионный анализ]]  | [[Категория:Регрессионный анализ]]  | ||
[[Категория:Энциклопедия анализа данных]]  | [[Категория:Энциклопедия анализа данных]]  | ||
Версия 16:39, 30 марта 2008
Символьная регрессия — метод построения регрессионных моделей] путем перебора различных произвольных суперпозиций функций из некоторого заданного набора. Суперпозиция функций при этом называется "программой", а стохастический оптимизационный алгоритм построения таких суперпозиций называется генетическим программированием.
Генетическое программирование – модификация генетического алгоритма. Различие заключается в том, что для решения задач символьной регрессии необходима изменяющаяся длина хромосом, описывающих суперпозиции.
Так как подобные алгоритмы являются переборными и требуют значительных вычислительных ресурсов, то публикации по данной теме стали появляться в 90-х годах, а значительное развитие они получили после 2000-го года. Наиболее известным исследователем является Джон Коза.
Постановка задачи
Задача отыскания оптимальной структуры регрессионной модели нескольких свободных переменных следующим образом. Задана выборка — множество  значений свободных переменных и множество 
 соответствующих им значений зависимой переменной. Обозначим оба эти множества как множество исходных данных 
.
Также задано множество  гладких
параметрических функций 
. Первый аргумент функции 
 — вектор-строка параметров 
, последующие — переменные из множества действительных чисел, рассматриваемые как элементы вектора свободных переменных.
Рассмотрим произвольную суперпозицию, состоящую из не более чем 
 функций 
. Эта суперпозиция задает параметрическую регрессионную модель 
. Регрессионная модель 
 зависит от вектора свободных переменных 
 и от вектора параметров 
. Вектор 
 состоит из присоединенных векторов-параметров
функций 
, то есть, 
, где 
 — знак присоединения векторов. Обозначим 
 — множество всех суперпозиций, индуктивно порожденное элементами множества 
.
Требуется выбрать такую модель , которая доставляет максимум заданного функционала 
.
Литература
- Zelinka, I., Nolle, L., Oplatkova, Z. Analytic Programming — Symbiloc Regression by Means of Arbitrfary Evolutionary Algorithms / Journal of Simulation. Vol. 6 No 9. P. 44—56.
 - Koza, J. R. Genetic Programming IV: Routine Human-Competitive Machine Intelligence. Springer. 2005.
 - Riolo, R., Soule, T., Worzel, B. (Eds.) Genetic Programming Theory and Practice V. Series: Genetic and Evolutionary Computation. Springer. 2008.
 - Madar, J., Janos, A., Szeifert, F. Genetic Programming for the Identification of Nonlinear Input-Output Models. citeseer.ist.psu.edu. 2005.
 - Hazan, A. et al. Modelling Expressive Performance: A Regression Tree Approach Based on Strongly Typed Genetic Programming / Applications of Evolutionary Computing. Springer. Vol. 3907/2006. P. 676—687.
 - Kohavi, R. A study of cross-validation and bootstrap for accuracy estimation and model selection / Proceedings of 14 International Joint Conference of Artificial Intelligence. 2(12). P. 1137—1143.
 

