Сентимент-анализ как метод исследования информационной повестки и общественного мнения (на примере СМИ и социальных сетей КНР)

Научная статья
  • Мария Сергеевна Анташева Национальный исследовательский университет «Высшая школа экономики», Москва, Россия msantasheva@hse.ru ORCID ID https://orcid.org/0000-0002-5255-8773
    ResearchID HTN-3351-2023
  • Полина Александровна Лобанова Национальный исследовательский университет «Высшая школа экономики», Москва, Россия plobanova@hse.ru ORCID ID https://orcid.org/0000-0002-9878-9390
    ResearchID W-4562-2017
  • Юлия Камаловна Исаева Национальный исследовательский университет «Высшая школа экономики», Москва, Россия yisaeva@hse.ru ORCID ID https://orcid.org/0000-0002-7974-8294
    Elibrary Author_id 993214 SPIN 6151-8711
    ResearchID O-4549-2018
  • Елизавета Алексеевна Сабидаева Национальный исследовательский университет «Высшая школа экономики», Москва, Россия esabidaeva@hse.ru ORCID ID https://orcid.org/0000-0001-9115-2285
  • Анна Сергеевна Пиекалнитс Национальный исследовательский университет «Высшая школа экономики», Москва, Россия apiekalnits@hse.ru ORCID ID https://orcid.org/0000-0003-0585-5350
  • Ирина Владимировна Логинова Национальный исследовательский университет «Высшая школа экономики», Москва, Россия iloginova@hse.ru ORCID ID https://orcid.org/0000-0002-3376-2728
    Elibrary Author_id 963637 SPIN 2221-7707
    ResearchID J-6034-2015
Выражение признательности
Статья подготовлена в рамках гранта, предоставленного Министерством науки и высшего образования Российской Федерации (№ соглашения о предоставлении гранта: 075-15-2022-325).

Аннотация

Информационная повестка, транслируемая китайскими медиаресурсами, является источником актуальных данных о мнении общества в отношении ключевых вопросов социального благосостояния. Вследствие технических особенностей организации китайских веб-сайтов и необходимости привлечения дополнительных ресурсов для автоматической обработки (парсинга) текстов на китайском языке, данная тематика не представлена достаточно широко в отечественных и зарубежных исследованиях. Целью настоящей работы является демонстрация методологии и результатов оценки общественного мнения на примере данных, собранных из китайских СМИ и социальных сетей, на основе обученной модели сентимент-анализа текстовых данных на китайском языке. При помощи ML-модели был проведен сравнительный анализ контента на китайском языке по проблематике развития городской инфраструктуры за период 2020–2022 гг. Результаты представлены в формате диаграмм распределения сентимента на основе данных СМИ и социальных сетей по месяцам за 2-летний период. Выявлено, что уровень сентимента значительно отличается в зависимости от типа источника данных. Определено устойчивое преобладание позитивного сентимента в СМИ и негативного – в социальных сетях, что может объясняться различиями в составе авторов текстов, ограничениями, накладываемыми на публикуемый в источниках контент, а также разными целями использования ресурсов пользователями.
Ключевые слова:
сентимент-анализ, эмоциональная окраска текстов, развитие городской инфраструктуры, общественное мнение, китайский язык, машинное обучение, интеллектуальный анализ данных, социальные сети

Биографии авторов

Мария Сергеевна Анташева, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Эксперт отдела информационно-аналитических систем Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Полина Александровна Лобанова, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Заведующая отделом информационно-аналитических систем Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Юлия Камаловна Исаева, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Ведущий программист отдела разработки интеллектуальных систем Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Елизавета Алексеевна Сабидаева, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Ведущий эксперт отдела информационно-аналитических систем Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Анна Сергеевна Пиекалнитс, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Ведущий эксперт отдела исследований больших данных Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Ирина Владимировна Логинова, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Заведующая отделом исследований больших данных Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний

Литература

Hu Y.S. The impact of increasing returns on knowledge and big data: from Adam Smith and Allyn Young to the age of machine learning and digital platforms // Prometheus. 2020. Vol. 36, No. 1. P. 10–29. DOI: 10.13169/prometheus.36.1.0010.

Henke N., Libarikian A., Wiseman B. Straight talk about big data // McKinsey Quarterly: [сайт]. 28.10.2016. URL: https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/straight-talk-about-big-data (дата обращения: 16.01.2023).

中华人民共和国国家互联网信息办公室。第47次《中国互联网络发展状况统计报告》(全文)[Государственная канцелярия интернет- информации КНР. Сорок седьмой статистический отчет о состоянии развития Интернета в Китае (полный текст)]. 03.02.2021. URL: http://www.cac.gov.cn/2021-02/03/c_1613923423079314.htm (дата обращения: 16.01.2023).

Individuals using the Internet (% of population) // World Bank: [сайт]. 2023. URL: https://data.worldbank.org/indicator/IT.NET.USER.ZS (дата обращения: 22.03.2023).

Liu B. Sentiment analysis: mining opinions, sentiments, and emotions. Cambridge: Cambridge university press, 2015. 381 p. DOI: 10.1017/CBO9781139084789.

Pang B., Lee L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales // Proceedings of ACL. 2005. P. 115–124. DOI: 10.3115/1219840.1219855.

Taboada M. Sentiment Analysis: An Overview from Linguistics // Annual Review of Linguistics. 2016. Vol 2. P. 325–347. DOI: 10.1146/annurev-linguistics-011415-040518. EDN: YAKIFR.

Ohman E. The validity of lexicon-based emotion analysis in interdisciplinary research // Proceedings of the Workshop on Natural Language Processing for Digital Humanities. December 16–19, 2021 / NLP Association of India. Silchar, India, 2021. P. 7–12.

Колмогорова А.В., Калинин АА., Маликова А.В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент- анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. № 1 (29). С. 139–148. DOI: 10.29025/2079-6021-2018-1(29)-139-148. EDN: YRHARM.

Construct validity of six sentiment analysis methods in the text of encounter notes of patients with critical illness / G.E. Weissman, L.H. Ungar, M.O. Harhay [et al.] // Journal of biomedical informatics. 2019. No. 89. P. 114–121. DOI: 10.1016/j.jbi.2018.12.001.

Medical sentiment analysis using social media: towards building a patient assisted system / S. Yadav, A. Ekbal, S. Saha, P. Bhattacharyya // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, May 07–12, 2018. P. 2790–2797. EDN: YZXBDW.

Luis M.D., Juan C.M., Glen M. Social media as a resource for sentiment analysis of Airport Service Quality (ASQ) // Journal of Air Transport Management. 2019. No. 78. P. 106–115. DOI: 10.1016/j.jairtraman.2019.01.004.

Islam M.R., Zibran M.F. Sentiment analysis of software bug related commit messages // Network. 2018. Vol. 740. P. 740.

Twitter sentiment analysis applied to finance: A case study in the retail industry / T.T.P. Souza, O. Kolchyna, P.C. Treleaven, T. Aste // ArXiv. Submitted on 2 Jul 2015 (v. 1), last revised 11 Jul 2015. URL: arXiv preprint arXiv:1507.00784 (дата обращения: 30.09.2024).

Sentibench-a benchmark comparison of state-of-the-practice sentiment analysis methods / F.N. Ribeiro, M. Araújo, P. Gonçalves [et al.] // EPJ Data Science. 2016. Vol. 5, No. 1. P. 1–29. DOI: 10.1140/epjds/s13688-016-0085-1. EDN: RMUGIO.

Van Atteveldt W., Van der Velden M.A., Boukes M. The validity of sentiment analysis: Comparing manual annotation, crowd-coding, dictionary approaches, and machine learning algorithms // Communication Methods and Measures. 2021. No. 15 (2). P. 121–140. DOI: 10.1080/19312458.2020.1869198.

Kasper K.N. Assessing the Validity of Sentiment Analysis Measures through Polychoric Correlation // University of New Mexico. Digital Repository. 2020. URL: https://digitalrepository.unm.edu/math_etds/174 (дата обращения: 30.09.2024).

Pandian A.P. Performance evaluation and comparison using deep learning techniques in sentiment analysis // Journal of Soft Computing Paradigm. 2021. No. 3 (2). P. 123–134. DOI: 10.36548/jscp.2021.2.006.

Happy parents’ tweets: An exploration of Italian Twitter data using sentiment analysis / L. Mencarini, D.I.H. Farias, M. Lai [et al.] // Demographic Research. 2019. Vol. 40. P. 693–724. DOI: 10.4054/DemRes.2019.40.25.

Stieglitz S., Dang-Xuan L. Emotions and information diffusion in social media– sentiment of microblogs and sharing behavior // Journal of management information systems. 2013. Vol. 29, No. 4. P. 217–248. DOI: 10.2753/MIS0742-1222290408.

COVID-19 vaccine sentiment analysis using public opinions on Twitter / P. Chinnasamy, V. Suresh, K. Ramprathap [et al.] // Materials Today: Proceedings. 2022. Vol. 64. P. 448–451. DOI: 10.1016/j.matpr.2022.04.809.

陈凌,宋衍欣。基于公众情绪上下文的LSTM情感分析研究——以台风“利奇马”为例//现代情报 [ Чэнь Лин, Сун Яньсинь. Cентимент-анализ публичных настроений с помощью LSTM на примере тайфуна «Лекима» // Сяньдай Цинбао]. 2020. Т. 40, №6. C. 98–105. DOI: 10.3969/j.issn.1008-0821.2020.06.010.

杨洸。社交媒体网络情感传染及线索影响机制的实证分析//深圳大学学报(人文社科版)[Ян Гуан. Эмпирический анализ эмоционального заражения и механизмов воздействия подсказок в социальных сетях // Вестник Шэньчжэньского университета (гуманитарные и социальные науки)]. 2020. Т. 37, № 6. С. 115–126.

岳宗朴,刘彩,李莹,陆文静。基于微博数据挖掘的“新冠疫情”评论文本分析/天津中医药大学管理学院 [Юэ Цзунпу, Лю Цай, Ли Ин, Лу Вэньцзин. Анализ текстовых комментариев по тематике «Новая коронавирусная инфекция» на основе анализа данных Weibo / Факультет менеджмента Тяньцзиньского университета традиционной китайской медицины]. 2020 (12). С. 48–50.

姚天昉。娄德成。汉语语句主题语义倾向分析方法的研究//中文信息学报 [ Яо Тяньфан, Лоу Дэчэн. Исследование метода анализа тематико- семантической структуры текстов на китайском языке // Китайский журнал о науках об информации]. 2007. № 5. С. 73–79. ISBN: 1003–0077 (2007) 05–0000–00.

知乎第一季度营收同比增长55.4%,月活用户1.016亿//IT之家 [Доход компании Zhihu в первом квартале вырос на 55,4% по сравнению с аналогичным периодом прошлого года, при 101,6 млн ежемесячных активных пользователей // IT Чжи Цзя]. 2022. URL: https://baijiahao.baidu.com/s?id=1733794653563608924 (дата обращения: 01.03.2023).

中央人民政府。粤港澳大湾区:完善联动机制加快跨境医疗合作 [Госсовет КНР. Гуандун, Гонконг, Макао и зона Большого залива: совершенствование механизма связи для ускорения трансграничного медицинского сотрудничества]. 2021. URL: http://www.zlb.gov.cn/2021-08/23/c_1211341836.htm (дата обращения: 09.03.2023).

吉林一医院门口车祸无人救治?院方:医生不能脱岗,护士保安一人一岗//北晚在线 [Автокатастрофа у входа в больницу в Цзилине и никто не пришел на помощь? Комментарий со стороны больницы: Врачи не могут покидать свои рабочие места, медсестры и охранники также находятся на своем посту // Бэйвань цзай сянь]. 2020. URL: https://baijiahao.baidu.com/s?id=1680050105222 894394&wfr=spider&for=pc (дата обращения: 09.03.2023).

2021年黑龙江省计划完成交通运输投资600亿元//人民网 [Провинция Хэйлунцзян планирует реализовать 60 млрд юаней в виде инвестиций в развитие транспорта в 2021 году // Жэньминван]. 2021. URL: http://hlj.people.com.cn/n2/2021/0319/c220024-34631394.html (дата обращения: 09.03.2023).

内蒙古4名“厅官”被开除党籍或公职//新华网 [Четверо «официальных лиц» во Внутренней Монголии были исключены из партии и лишены права занимать государственные должности // Синьхуа]. 2021. URL: http://www.xinhuanet.com/2021-09/10/c_1127850249.htm (дата обращения: 09.03.2023).

我国支持民营和境外资本参与新型基础设施投资运营//新华网 [Китай поддерживает привлечение частного и иностранного капитала для инвестирования в новую инфраструктуру // Синьхуа]. 2021. URL: http://www.xinhuanet.com/2021-09/10/c_1127850249.htm (дата обращения: 09.03.2023).

济南718事件情况是怎样的?//知乎 [Каковы обстоятельства инцидента 718 в Цзинане? // Чжиху]. 2022. URL: https://www.zhihu.com/question/282692759 (дата обращения: 09.03.2023).

Duan Y., Liu L., Wang Z. COVID-19 sentiment and the Chinese stock market: evidence from the official news media and Sina Weibo // Research in International Business and Finance. 2021. Vol. 58. DOI: 10.1016/j.ribaf.2021.101432.

Peng W., Tang L. Health content in Chinese newspapers // Journal of health communication. 2010. Vol. 15, No. 7. P. 695–711. DOI: 10.1080/10810730.2010.514028.

Hassid J. Safety valve or pressure cooker? Blogs in Chinese political life // Journal of Communication. 2012. Vol. 62, No. 2. P. 212–230. DOI: 10.1111/j.1460-2466.2012.01634.x.

Chen D. Review essay: The safety valve analogy in Chinese politics // Journal of East Asian Studies. 2016. Vol. 16, No. 2. P. 281–294. DOI:10.1017/jea.2016.4.

AI Language Models: Technological, Socio-Economic and Policy Considerations // OECD. 2023. Vol. 352. P. 1.
Статья

Поступила: 24.11.2024

Опубликована: 25.11.2024

Раздел
ПРАКТИКИ СБОРА И АНАЛИЗА ФОРМАЛИЗОВАННЫХ ДАННЫХ