Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента

Светлана Васильевна Жучкова Национальный исследовательский университет «Высшая школа экономики», Москва lana_lob@mail.ru
Алексей Николаевич Ротмистров Национальный исследовательский университет «Высшая школа экономики», Москва alexey.n.rotmistrov@gmail.com

Для цитирования

Жучкова С.В., Ротмистров А.Н. Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента // Социология: методология, методы, математическое моделирование (Социология:4М). 2018. № 46. С. 85-122.

Аннотация

Рассматривается вариант работы с пропущенными данными («пропусками») «как есть», т.е. предполагающий придание пропускам статуса самостоятельной категории изучаемой переменной. Этот вариант кардинально отличается от других вариантов работы с пропусками: удалять те наблюдения, которые содержат пропуски, или заполнять пропуски. Один из известных нам методов, позволяющий реализовать вариант работы с пропусками «как есть» – CHAID. Модели деревьев с пропусками нередко встречаются в эмпирических исследованиях, однако в литературе отсутствует систематическое рассмотрение вопроса, какие конкретно преимущества и ограничения имеет реализованный в CHAID вариант работы с пропусками «как есть» по сравнению с обозначенными альтернативными вариантами. С целью начать дискуссию по этому поводу, мы провели несколько серий статистических экспериментов на модельных данных, организованных в три переменные категориального и интервального типа. Было эмпирически установлено, что в целом метод корректно распределяет пропуски по узлам, однако в большинстве случаев включение пропусков в анализ сопровождается изменениями в структуре дерева, а следовательно, существует риск получения неверных, ложных, ошибочных выводов. Также представлены рекомендации о том, какие факторы следует учитывать при принятии решения о включении пропусков в модель «как есть»

Ключевые слова:

деревья решений, деревья классификации, катего¬риальные переменные, поиск взаимодействий, пропущенные данные, пропущенные значения, статистический эксперимент, CHAID

Биографии авторов

Светлана Васильевна Жучкова, Национальный исследовательский университет «Высшая школа экономики», Москва

Студентка магистратуры факультета компьютерных наук, Национальный исследовательский университет «Высшая школа экономики», Москва

Алексей Николаевич Ротмистров, Национальный исследовательский университет «Высшая школа экономики», Москва

Кандидат социологических наук, доцент кафедры методов сбора и анализа социологической информации, департамент социологии, факультет социальных наук, Национальный исследовательский университет «Высшая школа экономики», Москва

Литература

Rubin D.B. Inference and Missing Data // Biometrika. 1976. Vol. 63. P. 581–592.

Ratner B. Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data. Boca Raton: CRC Press, 2012.

Doove L.L., van Buuren S., Dusseldorp E. Recursive Partitioning for Missing Data Imputation in the Presence of Interaction Effects // Computational Statistics and Data Analysis. 2014. Vol. 72. P. 92–104.

Von Hipple P.T. How to Impute Interactions, Squares, and Other Transformed Variables // Sociological Methodology. 2009. Vol. 39. No. 1. P. 265–291.

Dempster A.P., Rubin D.B. Incomplete Data in Sample Surveys. Vol. 2: Theory and Annotated Bibliography. New York: Academic Press, 1983.

Allison P.D. Missing Data. Thousand Oaks, CA: Sage, 2002.

Rokach L., Maimon O. Decision Trees // Data Mining and Knowledge Dis¬covery Handbook. Boston: Springer, 2010. P. 165–192.

Kenett R., Salini S. Modern Analysis of Customer Surveys: with Applications using R. Chichester: Wiley, 2012.

Kass G.V. An Exploratory Technique for Investigating Large Quantities of Categorical Data // Applied Statistics. 1980. Vol. 29. No. 2. P. 119–127.

Quinlan J.R. Unknown Attribute Values in Induction. Proceedings of the Sixth International Machine Learning Workshop. New York: Morgan Kaufmann Publishers Inc., 1989. P. 164–168.

Gentle J.E., Härdle W.K., Mori Y. Handbook of Computational Statistics: Concepts and Methods. Berlin: Springer, 2012.

Gesser-Edelsburg A., Zemach M., Lotan T., Elias W., Grimberg E. Perceptions, Intentions and Behavioral Norms that Affect Pre-license Driving among Arab Youth in Israel // Accident Analysis & Prevention. 2018. Vol. 111. P. 1–11.

Ritschard G. CHAID and Earlier Supervised Tree Methods. Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences / Ed. J. McArdle, G. Ritschard. London: Routledge. 2013. P. 48–74.

Breiman L. Random Forest. Machine Learning. 2001. Vol. 45. P. 5–32.