Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук
Научная статья
Для цитирования
Жучкова С. В., Ротмистров А. Н. Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук // Социология: методология, методы, математическое моделирование (Социология:4М). 2021. № 50-51. С. 141-183.
Статья посвящена процедуре автоматического извлечения данных с веб-страниц, т.е. скрапингу веб-данных. Рассмотрены виды веб-данных (цифровые следы и прочие веб-данные числовой, текстовой и других модальностей), возможности их использования (скорость сбора данных и, как следствие, сплошной охват, оперативность и др.) и ограничения (ограниченная репрезентативность, трудности организации хранения большого объема данных, отклонения от традиционной последовательности постановки исследования и др.) по сравнению с традиционными методами сбора информации. Описаны пути извлечения веб-данных со статических и динамических веб-страниц посредством интерфейса API, пакета requests, фреймворка selenium. Разобраны минимально необходимые для извлечения веб-данных компетенции, в том числе в программировании на языке Python и ориентировании в коде веб-страниц. Также дана подробная иллюстрация на основе фрагмента сбора данных исследования конкурсов для фрилансеров.
Ключевые слова:
автоматическое извлечение данных, большие данные, веб-данные, веб-скрапинг, вычислительные социальные науки, текстовые данные, API, requests, selenium
Поступила: 11.01.2020
Опубликована: 11.04.2021
