Please use this identifier to cite or link to this item:
https://er.nau.edu.ua/handle/NAU/53138
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Сакура, Валентин Ігорович | - |
dc.date.accessioned | 2021-11-02T09:32:02Z | - |
dc.date.available | 2021-11-02T09:32:02Z | - |
dc.date.issued | 2021-07 | - |
dc.identifier.uri | https://er.nau.edu.ua/handle/NAU/53138 | - |
dc.description | Робота публікується згідно наказу Ректора НАУ від 27.05.2021 р. №311/од "Про розміщення кваліфікаційних робіт здобувачів вищої освіти в репозиторії університету". Керівник проекту: Артамонов Є.Б. | uk_UA |
dc.description.abstract | Частотний аналіз є одним з порівняно простих методів обробки тексту на природній мові (NLP). Його результатом є список слів, найбільш часто зустрічаються в тексті. Частотний аналіз також дозволяє отримати уявлення про тематику і основні поняття тексту. Для проведення частотного аналізу і визначення тематики тексту рекомендується виконати очистку тексту від знаків пунктуації, зайвих символів пробілів і цифр. Зробити це можна різними способами - за допомогою вбудованих функцій роботи з рядками, за допомогою регулярних виразів, за допомогою операцій обробки списків або іншим способом. Набір спеціальних символів, які будуть видалені з тексту може бути розширено. Необхідно проаналізувати вихідний текст і виявити символи, які слід видалити. Додамо до знаків пунктуації символи розриву рядків, табуляції та інші символи, які зустрічаються в нашому вихідному тексті (наприклад, символ з кодом \ xa0): Для видалення символів використовуємо поелементну обробку рядка - розділимо вихідну рядок text на символи, залишимо тільки символи, що не входять в набір spec_chars і знову об'єднаємо список символів в рядок. Токенізація тексту Для подальшої обробки очищений текст необхідно розбити на складові частини - токени. В аналізі тексту на природній мові застосовується розбивка на символи, слова і пропозиції. Процес розбиття називається токенізація. Для нашої задачі частотного аналізу необхідно розбити текст на слова. Для цього можна використовувати готовий метод бібліотеки NLTK: Підрахунок статистики зустрічальності слів в тексті Для підрахунку статистики розподілу частот слів в тексті застосовується клас FreqDist (frequency distributions): Спроба вивести змінну fdist відобразить словник, що містить маркери і їх частоти - кількість разів, які ці слова зустрічаються в тексті: Частота розподілу слів тексті може бути візуалізувати за допомогою графіка. Клас FreqDist містить вбудований метод plot для побудови такого графіка. Необхідно вказати кількість токенов, частоти яких будуть показані на графіку. З параметром cumulative = False графік ілюструєзакон Ціпфа: Якщо все слова досить довгого тексту впорядкувати по спадаючій частоти їх використання, то частота n-го слова в такому списку опиниться приблизно обернено пропорційній його порядковому номеру n. | uk_UA |
dc.language.iso | uk | uk_UA |
dc.subject | дипломна робота | uk_UA |
dc.subject | програмний код | uk_UA |
dc.subject | дослідження | uk_UA |
dc.subject | програмний проект | uk_UA |
dc.subject | аналіз тексту | uk_UA |
dc.subject | автоматична обробка тексту | uk_UA |
dc.title | Програмна система для аналізу контенту web-сайтів | uk_UA |
dc.type | Working Paper | uk_UA |
Appears in Collections: | Кваліфікаційні роботи здобувачів вищої освіти ОПП Системне програмування |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ФККПІ_2021_123бак_Сакура_ВІ^.pdf | 1.04 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.