Метод сентиментального аналізу вебфоруму за допомогою нейронної мережі
Loading...
Date
2024-12-16
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Національний авіаційний університет
Abstract
Сентиментальний аналіз тексту, або аналіз тональності, є однією з ключових технологій обробки природної мови (NLP), яка дозволяє визначати емоційне забарвлення текстових даних. Ця технологія відіграє важливу роль у сучасному цифровому світі, оскільки кількість текстових даних, створених користувачами в інтернеті, зростає з кожним днем. Соціальні мережі, форуми, блоги та інші платформи генерують величезну кількість даних, які можуть бути використані для вивчення громадської думки, моніторингу популярності брендів або аналізу реакцій на ті чи інші події. Мета кваліфікаційної роботи – дослідження методології проведення комплексного аналізу громадської думки на прикладі персонажів серіалу «The Boys» користувачами Reddit шляхом проведення сентиментального аналізу коментарів. Об'єкт дослідження – процес аналізу тональності текстових даних у соціальних мережах. Предмет дослідження – сентиментальний аналіз коментарів користувачів субреддіту r/TheBoys щодо персонажів серіалу. Методи дослідження – мова програмування Python, платформа Google Colab, бібліотека Pandas, модель машинного навчання TweetNLP. Практичне значення отриманих результатів – результати кваліфікаційної роботи рекомендується використовувати для аналізу громадського сприйняття будь-яких сутностей в мережі Інтернет, для маркетингових та соціальних досліджень. Наукова новизна отриманих результатів – Наукова новизна магістерської роботи полягає в розробці і застосуванні комплексного підходу до аналізу тональності текстових даних, що поєднує сучасні методи обробки природної мови з урахуванням специфіки коротких текстів із соціальних мереж. Запропонована методологія включає створення словників альтернативних імен персонажів, що дозволяє фільтрувати коментарі для проведення точного аналізу, виключаючи вплив згадок інших героїв. Це дозволяє виявляти тональність текстів, спрямовану виключно на обраного персонажа/сутність. Використання нейронних мереж для аналізу тональності відкриває нові можливості для автоматизації та підвищення точності цього процесу. На відміну від традиційних методів, які базуються на лексичних словниках або правилах, нейронні мережі здатні самостійно навчатися складним закономірностям у даних, що дозволяє враховувати контекст та уникати багатьох типових помилок. Зокрема, моделі, створені для роботи з короткими текстами, такими як твіти чи коментарі, вже демонструють високу ефективність і використовуються в багатьох сферах. Сентиментальний аналіз має широке застосування в різних галузях, таких як маркетинг, медіа, політика та інші. Його застосування дозволяє компаніям та організаціям отримувати цінну інформацію, що допомагає у прийнятті стратегічних рішень. Маркетинг: У сфері маркетингу сентиментальний аналіз дозволяє компаніям оцінювати ставлення споживачів до своїх продуктів чи брендів. Наприклад, аналіз відгуків клієнтів або обговорень у соціальних мережах може допомогти виявити сильні та слабкі сторони продуктів, визначити задоволеність клієнтів та швидко реагувати на негативні відгуки. Це сприяє покращенню продукції, підвищенню рівня обслуговування та загальному задоволенню клієнтів. Медіа: У медіа-індустрії сентиментальний аналіз допомагає редакторам та журналістам розуміти реакції аудиторії на різні матеріали. Наприклад, оцінка настроїв у коментарях до новин або відгуках на телевізійні шоу дозволяє коригувати контент, роблячи його більш привабливим для глядачів. Це також допомагає у прийнятті рішень щодо того, які теми висвітлювати більше, а які — менше. Політика: У політичній сфері сентиментальний аналіз використовується для моніторингу громадської думки щодо політичних фігур, партій чи політичних рішень. Аналіз коментарів у соціальних мережах, блогах та форумах допомагає політикам та аналітикам розуміти настрої виборців, прогнозувати результати виборів та коригувати передвиборчі стратегії. Дана робота присвячена проведенню сентиментального аналізу коментарів з субреддіту r/TheBoys, популярної платформи, де користувачі активно обговорюють події серіалу та його персонажів. Головною метою роботи є дослідження сприйняття кожного окремого персонажа серіалу користувачами. Для досягнення цієї мети було обрано сучасні технології, включаючи мову програмування Python, інструмент Google Colab, бібліотеку Pandas для роботи з даними та модель TweetNLP, спеціалізовану на аналізі текстів у соціальних мережах. Вибір субреддіту r/TheBoys як джерела даних обумовлений його активністю та тематичністю. Reddit є однією з найбільших соціальних платформ, яка об’єднує аудиторію за інтересами. Зокрема, користувачі цього субреддіту часто обговорюють сюжетні лінії, розвиток персонажів, їхні вчинки та інші аспекти серіалу, що робить його ідеальним місцем для збору релевантних даних. Процес аналізу включає декілька ключових етапів: збір даних, їх попередню обробку, створення словників альтернативних імен персонажів, відбір даних, які стосуються окремих героїв, і, власне, аналіз тональності. Google Colab є ключовим інструментом у цьому проєкті, оскільки забезпечує хмарне середовище для виконання Python-коду з підтримкою GPU та TPU. Він дозволяє зручно працювати з даними через інтеграцію з Google Drive, а також надає інтуїтивно зрозумілий інтерфейс для організації роботи у вигляді блокнотів із текстовими поясненнями та візуалізаціями. Python обрано за його гнучкість та широкий вибір бібліотек для обробки даних і машинного навчання. Вбудовані інструменти забезпечують обробку великих обсягів даних, їх структурування, аналіз і візуалізацію. Бібліотека Pandas є ключовим інструментом для роботи з табличними даними. Вона дозволяє структурувати коментарі у вигляді датафреймів, де кожен запис містить важливу інформацію: текст коментаря, ідентифікатор користувача, дату публікації, а також мітки тональності після аналізу. Pandas забезпечує широкий функціонал для фільтрації, сортування, групування даних, а також для виконання складних обчислень, таких як визначення частоти згадувань персонажів чи оцінка динаміки настроїв протягом певного періоду. Для аналізу тональності використовується модель TweetNLP, оптимізована для коротких текстів із соціальних мереж. Завдяки трансформерам ця модель враховує контекст, сленг і специфіку текстів, забезпечуючи точну класифікацію коментарів за тональністю. Усі ці інструменти працюють у поєднанні для автоматизації аналізу та отримання глибоких і точних результатів. Результати роботи дозволять оцінити, як сприймаються окремі персонажі серіалу аудиторією, які з них викликають найбільше позитивних чи негативних емоцій, а також які аспекти сюжету викликають найбільший резонанс.
Description
Робота публікується згідно наказу Ректора НАУ від 27.05.2021 р. №311/од «Про розміщення кваліфікаційних робіт здобувачів вищої освіти в репозиторії університету» Керівник проекту: доцент, кандидат технічних наук, Сергій Водоп’янов.
Keywords
дипломна робота, сентиментальний аналіз, обробка природної мови, Python, Machine Learning, Reddit, TweetNLP, аналіз даних
Citation
Шилкін Д. В. - Метод сентиментального аналізу вебфоруму за допомогою нейронної мережі. - Дипломна робота на здобуття ступеня магістра спеціальності «Комп’ютерні науки», “«Інформаційні технології проектування». - Київ, 2024. – 89 с.