Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук
Научная статья
Для цитирования
Жучкова С. В., Ротмистров А. Н. Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук // Социология: методология, методы, математическое моделирование (Социология:4М). 2021. № 50-51. С. 141-183.
Аннотация
Статья посвящена процедуре автоматического извлечения данных с веб-страниц, т.е. скрапингу веб-данных. Рассмотрены виды веб-данных (цифровые следы и прочие веб-данные числовой, текстовой и других модальностей), возможности их использования (скорость сбора данных и, как следствие, сплошной охват, оперативность и др.) и ограничения (ограниченная репрезентативность, трудности организации хранения большого объема данных, отклонения от традиционной последовательности постановки исследования и др.) по сравнению с традиционными методами сбора информации. Описаны пути извлечения веб-данных со статических и динамических веб-страниц посредством интерфейса API, пакета requests, фреймворка selenium. Разобраны минимально необходимые для извлечения веб-данных компетенции, в том числе в программировании на языке Python и ориентировании в коде веб-страниц. Также дана подробная иллюстрация на основе фрагмента сбора данных исследования конкурсов для фрилансеров.
Ключевые слова:
автоматическое извлечение данных, большие данные, веб-данные, веб-скрапинг, вычислительные социальные науки, текстовые данные, API, requests, selenium
Литература
1. Computational Social Science / D. Lazer, A. Pentland, L. Adamic [et al.] // Science. 2009. Vol. 323. No. 5915. P. 721–723. DOI: 10.1016/j.jocs.2010.12.007
2. Bainbridge W.S. The Scientific Research Potential of Virtual Worlds // Science. 2007. Vol. 317. No. 5837. P. 472–476. DOI: 10.1126/science.1146930
3. Watts D.J. A Twenty-first Century Science // Nature. 2007. Vol. 445. No. 7127. P. 489. DOI: 10.1038/445489a
4. More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior / J. DiGrazia, K. McKelvey, J. Bollen, F. Rojas // PLoS ONE. 2013. Vol. 8. No. 11. Art. no. e79449. DOI: 10.1371/journal.pone.0079449
5. Gayo-Avello D. A Meta-Analysis of State-of-the-Art Electoral Prediction From Twitter Data // Social Science Computer Review. 2013. Vol. 31. No. 6. P. 649–679. DOI: 10.1177/0894439313493979
6. Jungherr A. Tweets and Votes, a Special Relationship: the 2009 Federal Elec¬tion in Germany // Proceedings of the 2nd Workshop on Politics, Elections and Data – PLEAD’13. New York, 2013. P. 5–14. DOI: 10.1145/2508436.2508437
7. Beyond Binary Labels: Political Ideology Prediction of Twitter Users / D. Preoţiuc-Pietro, Y. Liu, D. Hopkins, L. Ungar // Proceedings of the 55th Annual Meet¬ing of the Association for Computational Linguistics. 2017. No. 1. P. 729–740. DOI: 10.18653/v1/P17-1068
8. Cross-platform and Cross-interaction Study of User Personality Based on Images on Twitter and Flickr / Z.R. Samani, S.C. Guntuku, M.E. Moghaddam [et al.] // PLoS ONE. 2018. Vol. 13. No. 7. Art. no. e0198660. DOI: 10.1371/journal. pone.0198660
9. Chittaranjan G. Who’s Who with Big-Five: Analyzing and Classifying Personality Traits with Smartphones / G. Chittaranjan, J. Blom, D. Gatica-Perez // 2011 15th Annual International Symposium on Wearable Computers. 2011. P. 29–36. DOI: 10.1109/iswc.2011.29
10. Kosinski M. Private Traits and Attributes are Predictable from Digital Records of Human Behavior / M. Kosinski, D. Stillwell, T. Graepel // Proceedings of the National Academy of Sciences. 2013. Vol. 110. No. 15. P. 5802–5805. DOI: 10.1073/pnas.1218772110
11. Automatic Ppersonality Aassessment through Social Media Language / G. Park, H. Schwartz, J. Eichstaedt [et al.] // Journal of Personality and Social Psychology. 2015. Vol. 108. No. 6. P. 934–952. DOI: 10.1037/pspp0000020
12. Smirnov I. Schools are Segregated by Educational Outcomes in the Digital Space // PLoS ONE. 2019. Vol. 14. No. 5. P. 1–9. DOI: 10.1371/journal.pone.0217142
13. Смирнов В. Новые компетенции социолога в эпоху больших данных // Мониторинг общественного мнения: экономические и социальные перемены. 2015. № 2. С. 44–54. DOI: 10.14515/monitoring.2015.2.04
14. Социальные факторы выбора контрагентов на бирже удаленнойработы: исследование конкурсов с помощью «больших данных» / Д.О. Стребков, А.В. Шевчук, А.А. Лукина [и др.] // Экономическая социология. 2019. Т. 20. № 3. С. 25–65. DOI: 10.17323/1726-3247-2019-3-25-65
15. Golder S.A. Digital Footprints: Opportunities and Challenges for Online Social Research / S.A. Golder, M.W. Macy // Annual Review of Sociology. 2014. Vol. 40. No. 1. P. 129–152. DOI: 10.1146/annurev-soc-071913-043145
16. Distilling Digital Traces: Computational Social Science Approaches to Studying the Internet / H. Wesler, M. Smith, D. Fisher, E. Gleave // The Sage Handbook of Online Research Methods. London: SAGE, 2008. P. 116–40.
17. Hampton K.N. Studying the Digital: Directions and Challenges for Digital Methods // Annual Review of Sociology. 2017. Vol. 43. No. 1. P. 167–188. DOI: 10.1146/annurev-soc-060116-053505
18. Grimmer J. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts / J. Grimmer, B.M. Stewart // Political Analysis. 2013. Vol. 21. No. 3. P. 267–297. DOI: 10.1093/pan/mps028
19. Social Media Analyses for Social Measurement / M.F. Schober, J. Pasek, L. Guggenheim [et al.] // Public Opinion Quarterly. 2016. Vol. 80. No. 1. P. 180–211. DOI: 10.1093/poq/nfv048
20. Social Networking Sites and Our Lives: How People’s Trust, Personal Rela¬tionships, and Civic and Political Involvement are Connected to Their Use of Social Networking Sites and Other Technologies / K.N. Hampton, L.S. Goulet, L. Rainie, K. Purcell. Washington, DC: Pew Research Cent, 2011.
21. A Path to Understanding the Effects of Algorithm Awareness / K. Hamilton, K. Karahalios, C. Sandvig, M. Eslami // Proceedings of the Extended Abstracts of the 32nd Annual ACM Conference on Human Factors in Computing Systems – CHI EA’14. April 26 – May 1, 2014. Toronto, Ontario, Canada. 2014. P. 631–642. DOI: 10.1145/2559206.2578883
22. Rader E. Examining User Surprise as a Symptom of Algorithmic Filtering // International Journal of Human-Computer Studies. 2017. No. 98. P. 72–88. DOI: 10.1016/j.ijhcs.2016.10.005
23. Tourangeau R. The Psychology of Survey Response / R. Tourangeau, L.J. Rips, K. Rasinski. Cambridge: Cambridge Univ. Press, 2000.
24. Lin M. Research Commentary – Too Big to Fail: Large Samples and the p-Value Problem / M. Lin, H.C. Lucas, G. Shmueli // Information Systems Research. 2013. Vol. 24. No. 4. P. 906–917. DOI: 10.1287/isre.2013.0480
25. Tukey J. Exploratory Data Analysis. London: Pearson, 1977.
2. Bainbridge W.S. The Scientific Research Potential of Virtual Worlds // Science. 2007. Vol. 317. No. 5837. P. 472–476. DOI: 10.1126/science.1146930
3. Watts D.J. A Twenty-first Century Science // Nature. 2007. Vol. 445. No. 7127. P. 489. DOI: 10.1038/445489a
4. More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior / J. DiGrazia, K. McKelvey, J. Bollen, F. Rojas // PLoS ONE. 2013. Vol. 8. No. 11. Art. no. e79449. DOI: 10.1371/journal.pone.0079449
5. Gayo-Avello D. A Meta-Analysis of State-of-the-Art Electoral Prediction From Twitter Data // Social Science Computer Review. 2013. Vol. 31. No. 6. P. 649–679. DOI: 10.1177/0894439313493979
6. Jungherr A. Tweets and Votes, a Special Relationship: the 2009 Federal Elec¬tion in Germany // Proceedings of the 2nd Workshop on Politics, Elections and Data – PLEAD’13. New York, 2013. P. 5–14. DOI: 10.1145/2508436.2508437
7. Beyond Binary Labels: Political Ideology Prediction of Twitter Users / D. Preoţiuc-Pietro, Y. Liu, D. Hopkins, L. Ungar // Proceedings of the 55th Annual Meet¬ing of the Association for Computational Linguistics. 2017. No. 1. P. 729–740. DOI: 10.18653/v1/P17-1068
8. Cross-platform and Cross-interaction Study of User Personality Based on Images on Twitter and Flickr / Z.R. Samani, S.C. Guntuku, M.E. Moghaddam [et al.] // PLoS ONE. 2018. Vol. 13. No. 7. Art. no. e0198660. DOI: 10.1371/journal. pone.0198660
9. Chittaranjan G. Who’s Who with Big-Five: Analyzing and Classifying Personality Traits with Smartphones / G. Chittaranjan, J. Blom, D. Gatica-Perez // 2011 15th Annual International Symposium on Wearable Computers. 2011. P. 29–36. DOI: 10.1109/iswc.2011.29
10. Kosinski M. Private Traits and Attributes are Predictable from Digital Records of Human Behavior / M. Kosinski, D. Stillwell, T. Graepel // Proceedings of the National Academy of Sciences. 2013. Vol. 110. No. 15. P. 5802–5805. DOI: 10.1073/pnas.1218772110
11. Automatic Ppersonality Aassessment through Social Media Language / G. Park, H. Schwartz, J. Eichstaedt [et al.] // Journal of Personality and Social Psychology. 2015. Vol. 108. No. 6. P. 934–952. DOI: 10.1037/pspp0000020
12. Smirnov I. Schools are Segregated by Educational Outcomes in the Digital Space // PLoS ONE. 2019. Vol. 14. No. 5. P. 1–9. DOI: 10.1371/journal.pone.0217142
13. Смирнов В. Новые компетенции социолога в эпоху больших данных // Мониторинг общественного мнения: экономические и социальные перемены. 2015. № 2. С. 44–54. DOI: 10.14515/monitoring.2015.2.04
14. Социальные факторы выбора контрагентов на бирже удаленнойработы: исследование конкурсов с помощью «больших данных» / Д.О. Стребков, А.В. Шевчук, А.А. Лукина [и др.] // Экономическая социология. 2019. Т. 20. № 3. С. 25–65. DOI: 10.17323/1726-3247-2019-3-25-65
15. Golder S.A. Digital Footprints: Opportunities and Challenges for Online Social Research / S.A. Golder, M.W. Macy // Annual Review of Sociology. 2014. Vol. 40. No. 1. P. 129–152. DOI: 10.1146/annurev-soc-071913-043145
16. Distilling Digital Traces: Computational Social Science Approaches to Studying the Internet / H. Wesler, M. Smith, D. Fisher, E. Gleave // The Sage Handbook of Online Research Methods. London: SAGE, 2008. P. 116–40.
17. Hampton K.N. Studying the Digital: Directions and Challenges for Digital Methods // Annual Review of Sociology. 2017. Vol. 43. No. 1. P. 167–188. DOI: 10.1146/annurev-soc-060116-053505
18. Grimmer J. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts / J. Grimmer, B.M. Stewart // Political Analysis. 2013. Vol. 21. No. 3. P. 267–297. DOI: 10.1093/pan/mps028
19. Social Media Analyses for Social Measurement / M.F. Schober, J. Pasek, L. Guggenheim [et al.] // Public Opinion Quarterly. 2016. Vol. 80. No. 1. P. 180–211. DOI: 10.1093/poq/nfv048
20. Social Networking Sites and Our Lives: How People’s Trust, Personal Rela¬tionships, and Civic and Political Involvement are Connected to Their Use of Social Networking Sites and Other Technologies / K.N. Hampton, L.S. Goulet, L. Rainie, K. Purcell. Washington, DC: Pew Research Cent, 2011.
21. A Path to Understanding the Effects of Algorithm Awareness / K. Hamilton, K. Karahalios, C. Sandvig, M. Eslami // Proceedings of the Extended Abstracts of the 32nd Annual ACM Conference on Human Factors in Computing Systems – CHI EA’14. April 26 – May 1, 2014. Toronto, Ontario, Canada. 2014. P. 631–642. DOI: 10.1145/2559206.2578883
22. Rader E. Examining User Surprise as a Symptom of Algorithmic Filtering // International Journal of Human-Computer Studies. 2017. No. 98. P. 72–88. DOI: 10.1016/j.ijhcs.2016.10.005
23. Tourangeau R. The Psychology of Survey Response / R. Tourangeau, L.J. Rips, K. Rasinski. Cambridge: Cambridge Univ. Press, 2000.
24. Lin M. Research Commentary – Too Big to Fail: Large Samples and the p-Value Problem / M. Lin, H.C. Lucas, G. Shmueli // Information Systems Research. 2013. Vol. 24. No. 4. P. 906–917. DOI: 10.1287/isre.2013.0480
25. Tukey J. Exploratory Data Analysis. London: Pearson, 1977.
Статья
Поступила: 11.01.2020
Опубликована: 11.04.2021
Форматы цитирования
Другие форматы цитирования:
APA
Жучкова, С. В., & Ротмистров, А. Н. (2021). Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук. Социология: методология, методы, математическое моделирование (Социология:4М), (50-51), 141-183. извлечено от https://soc4m.ru/index.php/soc4m/article/view/7983
Раздел
ОНЛАЙН-ИССЛЕДОВАНИЯ