Сентимент-анализ как метод исследования информационной повестки и общественного мнения (на примере СМИ и социальных сетей КНР)
Научная статья
Выражение признательности
Статья подготовлена в рамках гранта, предоставленного Министерством науки и высшего образования Российской Федерации (№ соглашения о предоставлении гранта: 075-15-2022-325).
Аннотация
Информационная повестка, транслируемая китайскими медиаресурсами, является источником актуальных данных о мнении общества в отношении ключевых вопросов социального благосостояния. Вследствие технических особенностей организации китайских веб-сайтов и необходимости привлечения дополнительных ресурсов для автоматической обработки (парсинга) текстов на китайском языке, данная тематика не представлена достаточно широко в отечественных и зарубежных исследованиях. Целью настоящей работы является демонстрация методологии и результатов оценки общественного мнения на примере данных, собранных из китайских СМИ и социальных сетей, на основе обученной модели сентимент-анализа текстовых данных на китайском языке. При помощи ML-модели был проведен сравнительный анализ контента на китайском языке по проблематике развития городской инфраструктуры за период 2020–2022 гг. Результаты представлены в формате диаграмм распределения сентимента на основе данных СМИ и социальных сетей по месяцам за 2-летний период. Выявлено, что уровень сентимента значительно отличается в зависимости от типа источника данных. Определено устойчивое преобладание позитивного сентимента в СМИ и негативного – в социальных сетях, что может объясняться различиями в составе авторов текстов, ограничениями, накладываемыми на публикуемый в источниках контент, а также разными целями использования ресурсов пользователями.
Ключевые слова:
сентимент-анализ, эмоциональная окраска текстов, развитие городской инфраструктуры, общественное мнение, китайский язык, машинное обучение, интеллектуальный анализ данных, социальные сети
Литература
Hu Y.S. The impact of increasing returns on knowledge and big data: from Adam Smith and Allyn Young to the age of machine learning and digital platforms // Prometheus. 2020. Vol. 36, No. 1. P. 10–29. DOI: 10.13169/prometheus.36.1.0010.
Henke N., Libarikian A., Wiseman B. Straight talk about big data // McKinsey Quarterly: [сайт]. 28.10.2016. URL: https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/straight-talk-about-big-data (дата обращения: 16.01.2023).
中华人民共和国国家互联网信息办公室。第47次《中国互联网络发展状况统计报告》(全文)[Государственная канцелярия интернет- информации КНР. Сорок седьмой статистический отчет о состоянии развития Интернета в Китае (полный текст)]. 03.02.2021. URL: http://www.cac.gov.cn/2021-02/03/c_1613923423079314.htm (дата обращения: 16.01.2023).
Individuals using the Internet (% of population) // World Bank: [сайт]. 2023. URL: https://data.worldbank.org/indicator/IT.NET.USER.ZS (дата обращения: 22.03.2023).
Liu B. Sentiment analysis: mining opinions, sentiments, and emotions. Cambridge: Cambridge university press, 2015. 381 p. DOI: 10.1017/CBO9781139084789.
Pang B., Lee L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales // Proceedings of ACL. 2005. P. 115–124. DOI: 10.3115/1219840.1219855.
Taboada M. Sentiment Analysis: An Overview from Linguistics // Annual Review of Linguistics. 2016. Vol 2. P. 325–347. DOI: 10.1146/annurev-linguistics-011415-040518. EDN: YAKIFR.
Ohman E. The validity of lexicon-based emotion analysis in interdisciplinary research // Proceedings of the Workshop on Natural Language Processing for Digital Humanities. December 16–19, 2021 / NLP Association of India. Silchar, India, 2021. P. 7–12.
Колмогорова А.В., Калинин АА., Маликова А.В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент- анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. № 1 (29). С. 139–148. DOI: 10.29025/2079-6021-2018-1(29)-139-148. EDN: YRHARM.
Construct validity of six sentiment analysis methods in the text of encounter notes of patients with critical illness / G.E. Weissman, L.H. Ungar, M.O. Harhay [et al.] // Journal of biomedical informatics. 2019. No. 89. P. 114–121. DOI: 10.1016/j.jbi.2018.12.001.
Medical sentiment analysis using social media: towards building a patient assisted system / S. Yadav, A. Ekbal, S. Saha, P. Bhattacharyya // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, May 07–12, 2018. P. 2790–2797. EDN: YZXBDW.
Luis M.D., Juan C.M., Glen M. Social media as a resource for sentiment analysis of Airport Service Quality (ASQ) // Journal of Air Transport Management. 2019. No. 78. P. 106–115. DOI: 10.1016/j.jairtraman.2019.01.004.
Islam M.R., Zibran M.F. Sentiment analysis of software bug related commit messages // Network. 2018. Vol. 740. P. 740.
Twitter sentiment analysis applied to finance: A case study in the retail industry / T.T.P. Souza, O. Kolchyna, P.C. Treleaven, T. Aste // ArXiv. Submitted on 2 Jul 2015 (v. 1), last revised 11 Jul 2015. URL: arXiv preprint arXiv:1507.00784 (дата обращения: 30.09.2024).
Sentibench-a benchmark comparison of state-of-the-practice sentiment analysis methods / F.N. Ribeiro, M. Araújo, P. Gonçalves [et al.] // EPJ Data Science. 2016. Vol. 5, No. 1. P. 1–29. DOI: 10.1140/epjds/s13688-016-0085-1. EDN: RMUGIO.
Van Atteveldt W., Van der Velden M.A., Boukes M. The validity of sentiment analysis: Comparing manual annotation, crowd-coding, dictionary approaches, and machine learning algorithms // Communication Methods and Measures. 2021. No. 15 (2). P. 121–140. DOI: 10.1080/19312458.2020.1869198.
Kasper K.N. Assessing the Validity of Sentiment Analysis Measures through Polychoric Correlation // University of New Mexico. Digital Repository. 2020. URL: https://digitalrepository.unm.edu/math_etds/174 (дата обращения: 30.09.2024).
Pandian A.P. Performance evaluation and comparison using deep learning techniques in sentiment analysis // Journal of Soft Computing Paradigm. 2021. No. 3 (2). P. 123–134. DOI: 10.36548/jscp.2021.2.006.
Happy parents’ tweets: An exploration of Italian Twitter data using sentiment analysis / L. Mencarini, D.I.H. Farias, M. Lai [et al.] // Demographic Research. 2019. Vol. 40. P. 693–724. DOI: 10.4054/DemRes.2019.40.25.
Stieglitz S., Dang-Xuan L. Emotions and information diffusion in social media– sentiment of microblogs and sharing behavior // Journal of management information systems. 2013. Vol. 29, No. 4. P. 217–248. DOI: 10.2753/MIS0742-1222290408.
COVID-19 vaccine sentiment analysis using public opinions on Twitter / P. Chinnasamy, V. Suresh, K. Ramprathap [et al.] // Materials Today: Proceedings. 2022. Vol. 64. P. 448–451. DOI: 10.1016/j.matpr.2022.04.809.
陈凌,宋衍欣。基于公众情绪上下文的LSTM情感分析研究——以台风“利奇马”为例//现代情报 [ Чэнь Лин, Сун Яньсинь. Cентимент-анализ публичных настроений с помощью LSTM на примере тайфуна «Лекима» // Сяньдай Цинбао]. 2020. Т. 40, №6. C. 98–105. DOI: 10.3969/j.issn.1008-0821.2020.06.010.
杨洸。社交媒体网络情感传染及线索影响机制的实证分析//深圳大学学报(人文社科版)[Ян Гуан. Эмпирический анализ эмоционального заражения и механизмов воздействия подсказок в социальных сетях // Вестник Шэньчжэньского университета (гуманитарные и социальные науки)]. 2020. Т. 37, № 6. С. 115–126.
岳宗朴,刘彩,李莹,陆文静。基于微博数据挖掘的“新冠疫情”评论文本分析/天津中医药大学管理学院 [Юэ Цзунпу, Лю Цай, Ли Ин, Лу Вэньцзин. Анализ текстовых комментариев по тематике «Новая коронавирусная инфекция» на основе анализа данных Weibo / Факультет менеджмента Тяньцзиньского университета традиционной китайской медицины]. 2020 (12). С. 48–50.
姚天昉。娄德成。汉语语句主题语义倾向分析方法的研究//中文信息学报 [ Яо Тяньфан, Лоу Дэчэн. Исследование метода анализа тематико- семантической структуры текстов на китайском языке // Китайский журнал о науках об информации]. 2007. № 5. С. 73–79. ISBN: 1003–0077 (2007) 05–0000–00.
知乎第一季度营收同比增长55.4%,月活用户1.016亿//IT之家 [Доход компании Zhihu в первом квартале вырос на 55,4% по сравнению с аналогичным периодом прошлого года, при 101,6 млн ежемесячных активных пользователей // IT Чжи Цзя]. 2022. URL: https://baijiahao.baidu.com/s?id=1733794653563608924 (дата обращения: 01.03.2023).
中央人民政府。粤港澳大湾区:完善联动机制加快跨境医疗合作 [Госсовет КНР. Гуандун, Гонконг, Макао и зона Большого залива: совершенствование механизма связи для ускорения трансграничного медицинского сотрудничества]. 2021. URL: http://www.zlb.gov.cn/2021-08/23/c_1211341836.htm (дата обращения: 09.03.2023).
吉林一医院门口车祸无人救治?院方:医生不能脱岗,护士保安一人一岗//北晚在线 [Автокатастрофа у входа в больницу в Цзилине и никто не пришел на помощь? Комментарий со стороны больницы: Врачи не могут покидать свои рабочие места, медсестры и охранники также находятся на своем посту // Бэйвань цзай сянь]. 2020. URL: https://baijiahao.baidu.com/s?id=1680050105222 894394&wfr=spider&for=pc (дата обращения: 09.03.2023).
2021年黑龙江省计划完成交通运输投资600亿元//人民网 [Провинция Хэйлунцзян планирует реализовать 60 млрд юаней в виде инвестиций в развитие транспорта в 2021 году // Жэньминван]. 2021. URL: http://hlj.people.com.cn/n2/2021/0319/c220024-34631394.html (дата обращения: 09.03.2023).
内蒙古4名“厅官”被开除党籍或公职//新华网 [Четверо «официальных лиц» во Внутренней Монголии были исключены из партии и лишены права занимать государственные должности // Синьхуа]. 2021. URL: http://www.xinhuanet.com/2021-09/10/c_1127850249.htm (дата обращения: 09.03.2023).
我国支持民营和境外资本参与新型基础设施投资运营//新华网 [Китай поддерживает привлечение частного и иностранного капитала для инвестирования в новую инфраструктуру // Синьхуа]. 2021. URL: http://www.xinhuanet.com/2021-09/10/c_1127850249.htm (дата обращения: 09.03.2023).
济南718事件情况是怎样的?//知乎 [Каковы обстоятельства инцидента 718 в Цзинане? // Чжиху]. 2022. URL: https://www.zhihu.com/question/282692759 (дата обращения: 09.03.2023).
Duan Y., Liu L., Wang Z. COVID-19 sentiment and the Chinese stock market: evidence from the official news media and Sina Weibo // Research in International Business and Finance. 2021. Vol. 58. DOI: 10.1016/j.ribaf.2021.101432.
Peng W., Tang L. Health content in Chinese newspapers // Journal of health communication. 2010. Vol. 15, No. 7. P. 695–711. DOI: 10.1080/10810730.2010.514028.
Hassid J. Safety valve or pressure cooker? Blogs in Chinese political life // Journal of Communication. 2012. Vol. 62, No. 2. P. 212–230. DOI: 10.1111/j.1460-2466.2012.01634.x.
Chen D. Review essay: The safety valve analogy in Chinese politics // Journal of East Asian Studies. 2016. Vol. 16, No. 2. P. 281–294. DOI:10.1017/jea.2016.4.
AI Language Models: Technological, Socio-Economic and Policy Considerations // OECD. 2023. Vol. 352. P. 1.
Henke N., Libarikian A., Wiseman B. Straight talk about big data // McKinsey Quarterly: [сайт]. 28.10.2016. URL: https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/straight-talk-about-big-data (дата обращения: 16.01.2023).
中华人民共和国国家互联网信息办公室。第47次《中国互联网络发展状况统计报告》(全文)[Государственная канцелярия интернет- информации КНР. Сорок седьмой статистический отчет о состоянии развития Интернета в Китае (полный текст)]. 03.02.2021. URL: http://www.cac.gov.cn/2021-02/03/c_1613923423079314.htm (дата обращения: 16.01.2023).
Individuals using the Internet (% of population) // World Bank: [сайт]. 2023. URL: https://data.worldbank.org/indicator/IT.NET.USER.ZS (дата обращения: 22.03.2023).
Liu B. Sentiment analysis: mining opinions, sentiments, and emotions. Cambridge: Cambridge university press, 2015. 381 p. DOI: 10.1017/CBO9781139084789.
Pang B., Lee L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales // Proceedings of ACL. 2005. P. 115–124. DOI: 10.3115/1219840.1219855.
Taboada M. Sentiment Analysis: An Overview from Linguistics // Annual Review of Linguistics. 2016. Vol 2. P. 325–347. DOI: 10.1146/annurev-linguistics-011415-040518. EDN: YAKIFR.
Ohman E. The validity of lexicon-based emotion analysis in interdisciplinary research // Proceedings of the Workshop on Natural Language Processing for Digital Humanities. December 16–19, 2021 / NLP Association of India. Silchar, India, 2021. P. 7–12.
Колмогорова А.В., Калинин АА., Маликова А.В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент- анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. № 1 (29). С. 139–148. DOI: 10.29025/2079-6021-2018-1(29)-139-148. EDN: YRHARM.
Construct validity of six sentiment analysis methods in the text of encounter notes of patients with critical illness / G.E. Weissman, L.H. Ungar, M.O. Harhay [et al.] // Journal of biomedical informatics. 2019. No. 89. P. 114–121. DOI: 10.1016/j.jbi.2018.12.001.
Medical sentiment analysis using social media: towards building a patient assisted system / S. Yadav, A. Ekbal, S. Saha, P. Bhattacharyya // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, May 07–12, 2018. P. 2790–2797. EDN: YZXBDW.
Luis M.D., Juan C.M., Glen M. Social media as a resource for sentiment analysis of Airport Service Quality (ASQ) // Journal of Air Transport Management. 2019. No. 78. P. 106–115. DOI: 10.1016/j.jairtraman.2019.01.004.
Islam M.R., Zibran M.F. Sentiment analysis of software bug related commit messages // Network. 2018. Vol. 740. P. 740.
Twitter sentiment analysis applied to finance: A case study in the retail industry / T.T.P. Souza, O. Kolchyna, P.C. Treleaven, T. Aste // ArXiv. Submitted on 2 Jul 2015 (v. 1), last revised 11 Jul 2015. URL: arXiv preprint arXiv:1507.00784 (дата обращения: 30.09.2024).
Sentibench-a benchmark comparison of state-of-the-practice sentiment analysis methods / F.N. Ribeiro, M. Araújo, P. Gonçalves [et al.] // EPJ Data Science. 2016. Vol. 5, No. 1. P. 1–29. DOI: 10.1140/epjds/s13688-016-0085-1. EDN: RMUGIO.
Van Atteveldt W., Van der Velden M.A., Boukes M. The validity of sentiment analysis: Comparing manual annotation, crowd-coding, dictionary approaches, and machine learning algorithms // Communication Methods and Measures. 2021. No. 15 (2). P. 121–140. DOI: 10.1080/19312458.2020.1869198.
Kasper K.N. Assessing the Validity of Sentiment Analysis Measures through Polychoric Correlation // University of New Mexico. Digital Repository. 2020. URL: https://digitalrepository.unm.edu/math_etds/174 (дата обращения: 30.09.2024).
Pandian A.P. Performance evaluation and comparison using deep learning techniques in sentiment analysis // Journal of Soft Computing Paradigm. 2021. No. 3 (2). P. 123–134. DOI: 10.36548/jscp.2021.2.006.
Happy parents’ tweets: An exploration of Italian Twitter data using sentiment analysis / L. Mencarini, D.I.H. Farias, M. Lai [et al.] // Demographic Research. 2019. Vol. 40. P. 693–724. DOI: 10.4054/DemRes.2019.40.25.
Stieglitz S., Dang-Xuan L. Emotions and information diffusion in social media– sentiment of microblogs and sharing behavior // Journal of management information systems. 2013. Vol. 29, No. 4. P. 217–248. DOI: 10.2753/MIS0742-1222290408.
COVID-19 vaccine sentiment analysis using public opinions on Twitter / P. Chinnasamy, V. Suresh, K. Ramprathap [et al.] // Materials Today: Proceedings. 2022. Vol. 64. P. 448–451. DOI: 10.1016/j.matpr.2022.04.809.
陈凌,宋衍欣。基于公众情绪上下文的LSTM情感分析研究——以台风“利奇马”为例//现代情报 [ Чэнь Лин, Сун Яньсинь. Cентимент-анализ публичных настроений с помощью LSTM на примере тайфуна «Лекима» // Сяньдай Цинбао]. 2020. Т. 40, №6. C. 98–105. DOI: 10.3969/j.issn.1008-0821.2020.06.010.
杨洸。社交媒体网络情感传染及线索影响机制的实证分析//深圳大学学报(人文社科版)[Ян Гуан. Эмпирический анализ эмоционального заражения и механизмов воздействия подсказок в социальных сетях // Вестник Шэньчжэньского университета (гуманитарные и социальные науки)]. 2020. Т. 37, № 6. С. 115–126.
岳宗朴,刘彩,李莹,陆文静。基于微博数据挖掘的“新冠疫情”评论文本分析/天津中医药大学管理学院 [Юэ Цзунпу, Лю Цай, Ли Ин, Лу Вэньцзин. Анализ текстовых комментариев по тематике «Новая коронавирусная инфекция» на основе анализа данных Weibo / Факультет менеджмента Тяньцзиньского университета традиционной китайской медицины]. 2020 (12). С. 48–50.
姚天昉。娄德成。汉语语句主题语义倾向分析方法的研究//中文信息学报 [ Яо Тяньфан, Лоу Дэчэн. Исследование метода анализа тематико- семантической структуры текстов на китайском языке // Китайский журнал о науках об информации]. 2007. № 5. С. 73–79. ISBN: 1003–0077 (2007) 05–0000–00.
知乎第一季度营收同比增长55.4%,月活用户1.016亿//IT之家 [Доход компании Zhihu в первом квартале вырос на 55,4% по сравнению с аналогичным периодом прошлого года, при 101,6 млн ежемесячных активных пользователей // IT Чжи Цзя]. 2022. URL: https://baijiahao.baidu.com/s?id=1733794653563608924 (дата обращения: 01.03.2023).
中央人民政府。粤港澳大湾区:完善联动机制加快跨境医疗合作 [Госсовет КНР. Гуандун, Гонконг, Макао и зона Большого залива: совершенствование механизма связи для ускорения трансграничного медицинского сотрудничества]. 2021. URL: http://www.zlb.gov.cn/2021-08/23/c_1211341836.htm (дата обращения: 09.03.2023).
吉林一医院门口车祸无人救治?院方:医生不能脱岗,护士保安一人一岗//北晚在线 [Автокатастрофа у входа в больницу в Цзилине и никто не пришел на помощь? Комментарий со стороны больницы: Врачи не могут покидать свои рабочие места, медсестры и охранники также находятся на своем посту // Бэйвань цзай сянь]. 2020. URL: https://baijiahao.baidu.com/s?id=1680050105222 894394&wfr=spider&for=pc (дата обращения: 09.03.2023).
2021年黑龙江省计划完成交通运输投资600亿元//人民网 [Провинция Хэйлунцзян планирует реализовать 60 млрд юаней в виде инвестиций в развитие транспорта в 2021 году // Жэньминван]. 2021. URL: http://hlj.people.com.cn/n2/2021/0319/c220024-34631394.html (дата обращения: 09.03.2023).
内蒙古4名“厅官”被开除党籍或公职//新华网 [Четверо «официальных лиц» во Внутренней Монголии были исключены из партии и лишены права занимать государственные должности // Синьхуа]. 2021. URL: http://www.xinhuanet.com/2021-09/10/c_1127850249.htm (дата обращения: 09.03.2023).
我国支持民营和境外资本参与新型基础设施投资运营//新华网 [Китай поддерживает привлечение частного и иностранного капитала для инвестирования в новую инфраструктуру // Синьхуа]. 2021. URL: http://www.xinhuanet.com/2021-09/10/c_1127850249.htm (дата обращения: 09.03.2023).
济南718事件情况是怎样的?//知乎 [Каковы обстоятельства инцидента 718 в Цзинане? // Чжиху]. 2022. URL: https://www.zhihu.com/question/282692759 (дата обращения: 09.03.2023).
Duan Y., Liu L., Wang Z. COVID-19 sentiment and the Chinese stock market: evidence from the official news media and Sina Weibo // Research in International Business and Finance. 2021. Vol. 58. DOI: 10.1016/j.ribaf.2021.101432.
Peng W., Tang L. Health content in Chinese newspapers // Journal of health communication. 2010. Vol. 15, No. 7. P. 695–711. DOI: 10.1080/10810730.2010.514028.
Hassid J. Safety valve or pressure cooker? Blogs in Chinese political life // Journal of Communication. 2012. Vol. 62, No. 2. P. 212–230. DOI: 10.1111/j.1460-2466.2012.01634.x.
Chen D. Review essay: The safety valve analogy in Chinese politics // Journal of East Asian Studies. 2016. Vol. 16, No. 2. P. 281–294. DOI:10.1017/jea.2016.4.
AI Language Models: Technological, Socio-Economic and Policy Considerations // OECD. 2023. Vol. 352. P. 1.
Статья
Поступила: 24.11.2024
Опубликована: 25.11.2024
Выпуск
Раздел
ПРАКТИКИ СБОРА И АНАЛИЗА ФОРМАЛИЗОВАННЫХ ДАННЫХ