Модель-ориентированный подход к отсутствующим значениям: множественная импутация в многоуровневой регрессии посредством R (на примере анализа опросных данных)

  • Маргарита Сауловна Фабрикант Национальный исследовательский университет «Высшая школа экономики» marharyta.fabrykant@gmail.com

Аннотация

В статье даются обоснование и описание процедуры множественной импутации отсутствующих значений в массивах данных. Описан способ решения проблемы отсутствующих данных с позиций модель-ориентированного подхода в противоположность дизайн-ориентированному. В теоретической части статьи перечислены и обоснованы преимущества множественной импутации перед более простыми способами оперирования отсутствующими значениями – удалением кейсов по списку и попарно и заменой средним. Указаны ограничения множественной импутации и связанные с ними требования, предъявляемые к данным. В эмпирической части статьи на конкретном примере кросс-культурного исследования, посвященного детерминантам гордости страной, проиллюстрирована процедура множественной импутации и представлен готовый к использованию программный код для диагностики данных и проведения множественной импутации посредством программных пакетов R VIM и mice.
Ключевые слова:
пропущенные данные, модель-ориентированный подход, множественная импутация, MCAR, MAR, MNAR, R VIM, R mice

Биография автора

Маргарита Сауловна Фабрикант, Национальный исследовательский университет «Высшая школа экономики»
Научный сотрудник Лаборатории сравнительных исследований массового сознания Экспертного института НИУ ВШЭ

Литература

Lee E.L., Forthofer R.N. Analyzing Complex Survey Data. Beverly Hills: Sage, 2006.



Raftery A.E. Bayesian Model Selection in Social Research // Sociological Methodology. 1995. No. 25. P. 111–164.



Rubin D.B. Multiple Imputation after 18+ years // Journal of the American Statistical Association.1996. No. 91(434). P. 473–489.



King G. et al. Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation // American Political Science Association. 2001. No. 95 (1). P. 49–69.



Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению // Социология: методология, методы и математическое моделирование. 2011. № 33. С. 28–56.



Acuna E., Rodriguez C. The Treatment of Missing Values and Its Effect on Classifier Accuracy // Classification, Clustering, and Data Mining Applications. Berlin; Heidelberg: Springer, 2004. P. 639–647.



Graham J.W. Missing Data Analysis: Making It Work in the Real World // Annual Review of Psychology. 2009. N. 60. P. 549–576.



Raaijmakers Q.A.W. Effectiveness of Different Missing Data Treatments in Surveys with Likert-type Data: Introducing the Relative Mean Substitution Approach // Educational and Psychological Measurement. 1999. No. 59(5). P. 725–748.



Rubin D.B. Multiple Imputation for Nonresponse in Surveys. Vol. 81. New York: John Wiley & Sons, 2004.



Schafer J.L., Olsen M.K. Multiple Imputation for Multivariate Missing-data Problems: A Data Analyst’s Perspective // Multivariate Behavioral Research. 1998. No. 33(4). P. 545–571.



Baraldi A.N., Enders C.K. An Introduction to Modern Missing Data Analyses // Journal of School Psychology. 2010. No. 48(1). P. 5–37.



Koski J. Defectiveness of Weighting Method in Multicriterion Optimization of Structures // Communications in Applied Numerical Methods. 1985. No. 1(6). P. 333–337.



Van Buuren S., Brand J.P., Groothuis-Oudshoorn C.G., Rubin D.B. Fully Conditional Specification in Multivariate Imputation // Journal of Statistical Computation and Simulation. 2006. No. 76(12). P. 1049–1064.



Azur M.J., Stuart E.A., Frangakis C., Leaf P.J. Multiple Imputation by Chained Equations: What Is It and How Does It Work? // International Journal of Methods in Psychiatric Research. 2011. No. 20(1). P. 40–49.



Graham J.W., Olchowski A.E., Gilreath T.D. How Many Imputations Are Really Needed? Some Practical Clarifications of Multiple Imputation Theory // Prevention Science. 2007. No. 8(3). P. 206–213.



Fabrykant M., Magun, V. Grounded and Normative Dimensions of National Pride in Comparative Perspective. Higher School of Economics Research Paper WP BRP, 62, 2015.



Fabrykant M., Magun V. Grounded and Normative Dimensions of National Pride in Comparative Perspective // Dynamics of National Identity: Media and Societal Factors of What We Are / Ed. J. Grimm, L. Huddy, J. Seethaler, P. Schmidt. London; New York: Routledge, 2016. P. 109–138.



Van Buuren S. Flexible Imputation of Missing Data. Boca Raton: CRC Press, 2012.



Honaker J, King G, Blackwell M. Amelia II: A Program for Missing Data // Journal of Statistical Software. 2011. No. 45(7). P. 1–47.
Раздел
ПРАКТИКИ СБОРА И АНАЛИЗА ФОРМАЛИЗОВАННЫХ ДАННЫХ