Подходы к агрегированию результатов множественного заполнения пропусков: сравнительный анализ
Аннотация
Проведен сравнительный анализ эффективности применения правила Рубина и усреднения подставленных значений как подходов к агрегированию результатов множественного заполнения частичных пропусков в зависимости от исследовательской ситуации. При помощи статистического эксперимента оценена эффективность указанных подходов в исследовательских ситуациях, описываемых долей пропусков в массиве, типом шкалы переменных и методом анализа данных, который предполагается использовать после заполнения пропусков: описательная статистика, поиск связи между двумя признаками и множественная линейная регрессия. Для каждой рассмотренной исследовательской ситуации сформулированы рекомендации по выбору подхода к агрегации результатов множественного заполнения пропусков.
Ключевые слова:
пропуски в данных, частичные пропуски, множественное заполнение пропусков, правило Рубина, агрегирование подставленных значений, исследовательская ситуация
Литература
Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению // Социология: методология, методы, математическое моделирование. 2011. № 33. С. 28–56.
Brand J.P.L. Development, Implementation and Evaluation of Multiple Imputation Strategies for the Statistical Analysis of Incomplete Data Sets. Thesis Erasmus University Rotterdam, 1999.
Jin H., Rubin D. Public Schools versus Private Schools: Causal Inference with Partial Compliance // Journal of Educational and Behavioral Statistics. 2009. Vol. 34. No. 1. P. 24– 45.
Зангиева И.К., Толстова Ю.Н. Понятие случайности и проблема пропусков данных в социологии // Математическое моделирование социальных процессов / Под ред. А. Михайлова. М.: Социологический факультет МГУ, 2012. Вып. 14. Гл. 14. С. 146–165.
Rubin D. Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons, 1987.
Rubin D. The Design of a General and Flexible System for Handling Nonresponse in Sample Surveys // The American Statistician. 2004. Vol. 58. No. 4. P. 298–302.
Mitra R., Reiter J.P. A Comparison of Two Methods of Estimating Propensity Scores After Multiple Imputation // Statistical Methods in Medical Research. 2016. Vol. 25. Iss. 1. P. 188–204.
Vink G., van Buuren S. Pooling Multiple Imputations When the Sample Happens to Be the Population [online source] // Cornell University Library. 2014. URL: http://arxiv.org/abs/1409.8542 (date of access: May 3, 2016).
Zhang P. Multiple Imputation: Theory and Method // International Statistical Review. 2003. Vol. 71. No. 3. P. 581-592.
Кутлалиев А.Х. Метод множественного восстановления данных // Социологические методы в современной исследовательской практике: cборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского [Электронный ресурс] / Под ред. О.А. Оберемко. М.: Издательский дом НИУ ВШЭ, 2011. С. 201–208.
Kromrey J.D., Hines C.V. Nonrandomly Missing Data in Multiple Regression: An Empirical Comparison of Common Missing-Data Treatments // Educational and Psychological Measurement. 2003. Vol. 54. P. 573–593.
Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. Тольятти: Кассандра, 2013.
Efron B. Bayesian Inference and the Parametric Bootstrap // The Annals of Applied Statistics. 2012. Vol. 6. No. 4. P. 1971–1997.
Jacoby W., Armstrong D.II Bootstrap Confidence Regions for Multidimensional Scaling Solutions // American Journal of Political Science. 2014. Vol. 58. No. 1. P. 264–278.
Manly B. Randomization, Bootstrap and Monte Carlo Methods in Biology, Third Edition. Chapman and Hall / CRC, 2006.
Зангиева И.К., Тимонина Е.С. Сравнение эффективности алгоритмов заполнения пропусков в данных в зависимости от используемого метода анализа // Мониторинг общественного мнения. 2014. № 1(119). С. 41–55.
Brand J.P.L. Development, Implementation and Evaluation of Multiple Imputation Strategies for the Statistical Analysis of Incomplete Data Sets. Thesis Erasmus University Rotterdam, 1999.
Jin H., Rubin D. Public Schools versus Private Schools: Causal Inference with Partial Compliance // Journal of Educational and Behavioral Statistics. 2009. Vol. 34. No. 1. P. 24– 45.
Зангиева И.К., Толстова Ю.Н. Понятие случайности и проблема пропусков данных в социологии // Математическое моделирование социальных процессов / Под ред. А. Михайлова. М.: Социологический факультет МГУ, 2012. Вып. 14. Гл. 14. С. 146–165.
Rubin D. Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons, 1987.
Rubin D. The Design of a General and Flexible System for Handling Nonresponse in Sample Surveys // The American Statistician. 2004. Vol. 58. No. 4. P. 298–302.
Mitra R., Reiter J.P. A Comparison of Two Methods of Estimating Propensity Scores After Multiple Imputation // Statistical Methods in Medical Research. 2016. Vol. 25. Iss. 1. P. 188–204.
Vink G., van Buuren S. Pooling Multiple Imputations When the Sample Happens to Be the Population [online source] // Cornell University Library. 2014. URL: http://arxiv.org/abs/1409.8542 (date of access: May 3, 2016).
Zhang P. Multiple Imputation: Theory and Method // International Statistical Review. 2003. Vol. 71. No. 3. P. 581-592.
Кутлалиев А.Х. Метод множественного восстановления данных // Социологические методы в современной исследовательской практике: cборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского [Электронный ресурс] / Под ред. О.А. Оберемко. М.: Издательский дом НИУ ВШЭ, 2011. С. 201–208.
Kromrey J.D., Hines C.V. Nonrandomly Missing Data in Multiple Regression: An Empirical Comparison of Common Missing-Data Treatments // Educational and Psychological Measurement. 2003. Vol. 54. P. 573–593.
Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. Тольятти: Кассандра, 2013.
Efron B. Bayesian Inference and the Parametric Bootstrap // The Annals of Applied Statistics. 2012. Vol. 6. No. 4. P. 1971–1997.
Jacoby W., Armstrong D.II Bootstrap Confidence Regions for Multidimensional Scaling Solutions // American Journal of Political Science. 2014. Vol. 58. No. 1. P. 264–278.
Manly B. Randomization, Bootstrap and Monte Carlo Methods in Biology, Third Edition. Chapman and Hall / CRC, 2006.
Зангиева И.К., Тимонина Е.С. Сравнение эффективности алгоритмов заполнения пропусков в данных в зависимости от используемого метода анализа // Мониторинг общественного мнения. 2014. № 1(119). С. 41–55.