Логистическая регрессия с категориальными предикторами и эффектами взаимодействия и CHAID: сравнительный анализ на эмпирическом примере
Аннотация
Статья посвящена методологическому аспекту выявления детерминант политического активизма, а именно вариантам работы с категориальными предикторами, гипотетически объясняющими уровень активизма. Применение логистической регрессии к таким предикторам предполагает их преобразование в фиктивные переменные, что «утяжеляет» модель и создает ряд трудностей в оценке ее качества. «Утяжеление» усугубляется в случае желания исследователя рассмотреть эффекты взаимодействия, поскольку процесс регрессионного моделирования не позволяет учесть степень сходства величин коэффициентов дихотомических предикторов и на основании этого не включать в обработку «лишние» комбинации значений этих предикторов. Авторы статьи обосновывают возможность использования в качестве альтернативы регрессии метод поиска детерминант: CHAID. Цель исследования: сравнение двух указанных методов на основании априорно известных их свойств, обоснование некоторых теоретических преимуществ CHAID над логистической регрессией, параллельное применение этих методов к эмпирическим данным, сравнение полученных результатов. Исследование проведено на данных Европейского социального обследования (European Social Survey – ESS) 2012 г. Зависимой переменной выступил «политический активизм», а набор гипотетических детерминант был составлен из переменных социально-экономического блока панели.
Ключевые слова:
детерминанты активного политического участия, категориальные предикторы, логистическая регрессия, деревья классификации, фиктивные переменные, эффекты взаимодействия
Литература
Толстова Ю. Н. Анализ социологических данных. М.: Научный мир, 2000.
Agresti A., Finlay B. Statistical Methods for the Social Sciences. Pearson/ Prentice Hall: New Jersey, 2009.
Толстова Ю.Н. Измерение в социологии: курс лекций. М.: ИНФРА-М, 1998.
Bollen K.A., Barb K.H. Pearson’s r and coarsely categorized measures // American Sociological Review. 1981. P. 232–239.
Hawkes R.K. Effects of Grouping on Measures of Ordinal Association // Sociological Methodology. 1976. Vol. 7. P. 176–194.
O’Brien R.M. The Use of Pearson’s with Ordinal Data // American Sociological Review. 1979. P. 851–857.
Ротмистров А.Н., Толстова Ю.Н. Проблемы построения нелинейных регрессионных моделей в социологии: номинальные шкалы, синергетические эффекты, поиск эффективной системы предикторов // Математическое моделирование социальных процессов. 2014. № 16. С. 159–178.
Попова П.А., Ротмистров А.Н. Регрессия с категориальными предикторами: критика применения фиктивных переменных и логлинейный анализ как альтернативный подход // Социологический журнал. 2016. №3. С. 8–31
Серая О.В., Дёмин Д.А. Оценивание параметров уравнения регрессии в условиях малой выборки // Восточно-Европейский журнал передовых технологий. 2009. Т. 6. № 4(42).
Agresti A. An Introduction to Categorical Data Analysis. Willey, Hoboken, 2007. Ch.5.5.
Толстова Ю.Н., Шишко И.О. Использование качественного сравнительного анализа для поиска эффективной системы предикторов в логистической регрессии // Математическое моделирование и информатика социальных процессов: сб. трудов. Вып. 18. М.: Экономинформ, МГУ им. Ломоносова, ф-т выч. математики и кибернетики, 2016. С. 222–242.
Loh W. Classification and Regression Tree Methods // Encyclopedia of Statistics in Quality and Reliability / Ed. F. Ruggeri, R. Kenett, F. Faltin. Wiley, 2008. P. 315–323.
Ritschard G. CHAID and Earlier Supervised Tree Methods // Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences / Ed. J. McArdle, G. Ritschard. London: Routledge, 2013. P. 48–74.
Rokach L., Maimon O. Decision Trees // Data Mining and Knowledge Discovery Handbook. Springer. Fovea. La segmentation, 2010.
Holgerssona H., Nordströma L., Öner Ö., Bollen K., Stine R. Dummy Variables vs. Category-wise Models // Journal of Applied Statistics. 2014. Vol. 41. No. 2. P. 233–241.
Horner S.B., Fireman G.D., Wang E. W. The Relation of Student Behavior, Peer Status, Race, and Gender to Decisions about School Discipline Using CHAID Decision Trees and Regression Modeling // Journal of School Psychology 2010. Vol. 48. No. 2. P. 135–161.
Liu Y.Y., Yang M., Ramsay M., Li X. S., Coid J. W. A Comparison of Logistic Regression, Classification and Regression Tree, and Neural Networks Models in Predicting Violent Re-Offending // Journal of Quantitative Criminology. 2011. Vol. 27. No. 4. P. 547–573.
European Social Survey. URL: http://www.europeansocialsurvey.org/
Agresti A., Finlay B. Statistical Methods for the Social Sciences. Pearson/ Prentice Hall: New Jersey, 2009.
Толстова Ю.Н. Измерение в социологии: курс лекций. М.: ИНФРА-М, 1998.
Bollen K.A., Barb K.H. Pearson’s r and coarsely categorized measures // American Sociological Review. 1981. P. 232–239.
Hawkes R.K. Effects of Grouping on Measures of Ordinal Association // Sociological Methodology. 1976. Vol. 7. P. 176–194.
O’Brien R.M. The Use of Pearson’s with Ordinal Data // American Sociological Review. 1979. P. 851–857.
Ротмистров А.Н., Толстова Ю.Н. Проблемы построения нелинейных регрессионных моделей в социологии: номинальные шкалы, синергетические эффекты, поиск эффективной системы предикторов // Математическое моделирование социальных процессов. 2014. № 16. С. 159–178.
Попова П.А., Ротмистров А.Н. Регрессия с категориальными предикторами: критика применения фиктивных переменных и логлинейный анализ как альтернативный подход // Социологический журнал. 2016. №3. С. 8–31
Серая О.В., Дёмин Д.А. Оценивание параметров уравнения регрессии в условиях малой выборки // Восточно-Европейский журнал передовых технологий. 2009. Т. 6. № 4(42).
Agresti A. An Introduction to Categorical Data Analysis. Willey, Hoboken, 2007. Ch.5.5.
Толстова Ю.Н., Шишко И.О. Использование качественного сравнительного анализа для поиска эффективной системы предикторов в логистической регрессии // Математическое моделирование и информатика социальных процессов: сб. трудов. Вып. 18. М.: Экономинформ, МГУ им. Ломоносова, ф-т выч. математики и кибернетики, 2016. С. 222–242.
Loh W. Classification and Regression Tree Methods // Encyclopedia of Statistics in Quality and Reliability / Ed. F. Ruggeri, R. Kenett, F. Faltin. Wiley, 2008. P. 315–323.
Ritschard G. CHAID and Earlier Supervised Tree Methods // Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences / Ed. J. McArdle, G. Ritschard. London: Routledge, 2013. P. 48–74.
Rokach L., Maimon O. Decision Trees // Data Mining and Knowledge Discovery Handbook. Springer. Fovea. La segmentation, 2010.
Holgerssona H., Nordströma L., Öner Ö., Bollen K., Stine R. Dummy Variables vs. Category-wise Models // Journal of Applied Statistics. 2014. Vol. 41. No. 2. P. 233–241.
Horner S.B., Fireman G.D., Wang E. W. The Relation of Student Behavior, Peer Status, Race, and Gender to Decisions about School Discipline Using CHAID Decision Trees and Regression Modeling // Journal of School Psychology 2010. Vol. 48. No. 2. P. 135–161.
Liu Y.Y., Yang M., Ramsay M., Li X. S., Coid J. W. A Comparison of Logistic Regression, Classification and Regression Tree, and Neural Networks Models in Predicting Violent Re-Offending // Journal of Quantitative Criminology. 2011. Vol. 27. No. 4. P. 547–573.
European Social Survey. URL: http://www.europeansocialsurvey.org/