Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента
Для цитирования
Жучкова С.В., Ротмистров А.Н. Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента // Социология: методология, методы, математическое моделирование (Социология:4М). 2018. № 46. С. 85-122.
Аннотация
Рассматривается вариант работы с пропущенными данными («пропусками») «как есть», т.е. предполагающий придание пропускам статуса самостоятельной категории изучаемой переменной. Этот вариант кардинально отличается от других вариантов работы с пропусками: удалять те наблюдения, которые содержат пропуски, или заполнять пропуски. Один из известных нам методов, позволяющий реализовать вариант работы с пропусками «как есть» – CHAID. Модели деревьев с пропусками нередко встречаются в эмпирических исследованиях, однако в литературе отсутствует систематическое рассмотрение вопроса, какие конкретно преимущества и ограничения имеет реализованный в CHAID вариант работы с пропусками «как есть» по сравнению с обозначенными альтернативными вариантами. С целью начать дискуссию по этому поводу, мы провели несколько серий статистических экспериментов на модельных данных, организованных в три переменные категориального и интервального типа. Было эмпирически установлено, что в целом метод корректно распределяет пропуски по узлам, однако в большинстве случаев включение пропусков в анализ сопровождается изменениями в структуре дерева, а следовательно, существует риск получения неверных, ложных, ошибочных выводов. Также представлены рекомендации о том, какие факторы следует учитывать при принятии решения о включении пропусков в модель «как есть»
Ключевые слова:
деревья решений, деревья классификации, катего¬риальные переменные, поиск взаимодействий, пропущенные данные, пропущенные значения, статистический эксперимент, CHAID
Литература
Rubin D.B. Inference and Missing Data // Biometrika. 1976. Vol. 63. P. 581–592.
Ratner B. Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data. Boca Raton: CRC Press, 2012.
Doove L.L., van Buuren S., Dusseldorp E. Recursive Partitioning for Missing Data Imputation in the Presence of Interaction Effects // Computational Statistics and Data Analysis. 2014. Vol. 72. P. 92–104.
Von Hipple P.T. How to Impute Interactions, Squares, and Other Transformed Variables // Sociological Methodology. 2009. Vol. 39. No. 1. P. 265–291.
Dempster A.P., Rubin D.B. Incomplete Data in Sample Surveys. Vol. 2: Theory and Annotated Bibliography. New York: Academic Press, 1983.
Allison P.D. Missing Data. Thousand Oaks, CA: Sage, 2002.
Rokach L., Maimon O. Decision Trees // Data Mining and Knowledge Dis¬covery Handbook. Boston: Springer, 2010. P. 165–192.
Kenett R., Salini S. Modern Analysis of Customer Surveys: with Applications using R. Chichester: Wiley, 2012.
Kass G.V. An Exploratory Technique for Investigating Large Quantities of Categorical Data // Applied Statistics. 1980. Vol. 29. No. 2. P. 119–127.
Quinlan J.R. Unknown Attribute Values in Induction. Proceedings of the Sixth International Machine Learning Workshop. New York: Morgan Kaufmann Publishers Inc., 1989. P. 164–168.
Gentle J.E., Härdle W.K., Mori Y. Handbook of Computational Statistics: Concepts and Methods. Berlin: Springer, 2012.
Gesser-Edelsburg A., Zemach M., Lotan T., Elias W., Grimberg E. Perceptions, Intentions and Behavioral Norms that Affect Pre-license Driving among Arab Youth in Israel // Accident Analysis & Prevention. 2018. Vol. 111. P. 1–11.
Ritschard G. CHAID and Earlier Supervised Tree Methods. Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences / Ed. J. McArdle, G. Ritschard. London: Routledge. 2013. P. 48–74.
Breiman L. Random Forest. Machine Learning. 2001. Vol. 45. P. 5–32.
Ratner B. Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data. Boca Raton: CRC Press, 2012.
Doove L.L., van Buuren S., Dusseldorp E. Recursive Partitioning for Missing Data Imputation in the Presence of Interaction Effects // Computational Statistics and Data Analysis. 2014. Vol. 72. P. 92–104.
Von Hipple P.T. How to Impute Interactions, Squares, and Other Transformed Variables // Sociological Methodology. 2009. Vol. 39. No. 1. P. 265–291.
Dempster A.P., Rubin D.B. Incomplete Data in Sample Surveys. Vol. 2: Theory and Annotated Bibliography. New York: Academic Press, 1983.
Allison P.D. Missing Data. Thousand Oaks, CA: Sage, 2002.
Rokach L., Maimon O. Decision Trees // Data Mining and Knowledge Dis¬covery Handbook. Boston: Springer, 2010. P. 165–192.
Kenett R., Salini S. Modern Analysis of Customer Surveys: with Applications using R. Chichester: Wiley, 2012.
Kass G.V. An Exploratory Technique for Investigating Large Quantities of Categorical Data // Applied Statistics. 1980. Vol. 29. No. 2. P. 119–127.
Quinlan J.R. Unknown Attribute Values in Induction. Proceedings of the Sixth International Machine Learning Workshop. New York: Morgan Kaufmann Publishers Inc., 1989. P. 164–168.
Gentle J.E., Härdle W.K., Mori Y. Handbook of Computational Statistics: Concepts and Methods. Berlin: Springer, 2012.
Gesser-Edelsburg A., Zemach M., Lotan T., Elias W., Grimberg E. Perceptions, Intentions and Behavioral Norms that Affect Pre-license Driving among Arab Youth in Israel // Accident Analysis & Prevention. 2018. Vol. 111. P. 1–11.
Ritschard G. CHAID and Earlier Supervised Tree Methods. Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences / Ed. J. McArdle, G. Ritschard. London: Routledge. 2013. P. 48–74.
Breiman L. Random Forest. Machine Learning. 2001. Vol. 45. P. 5–32.
Форматы цитирования
Другие форматы цитирования:
APA
Жучкова, С. В., & Ротмистров, А. Н. (2018). Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента. Социология: методология, методы, математическое моделирование (Социология:4М), (46), 85-122. извлечено от https://soc4m.ru/index.php/soc4m/article/view/6125
Выпуск
Раздел
МЕТОДИЧЕСКИЕ ЭКСПЕРИМЕНТЫ