Програмна система аналізу документів для автоматизації пошуку даних з використанням RAG

No Thumbnail Available
Date
2024-12-16
Journal Title
Journal ISSN
Volume Title
Publisher
Національний авіаційний університет
Abstract
У сучасному світі, де інформація стала ключовим ресурсом, розвиток інформаційних технологій і програмної інженерії досяг такого рівня, що традиційні підходи до обробки даних вже не відповідають сучасним викликам. Щодня у світі генеруються величезні обсяги текстової інформації: це корпоративні документи, наукові статті, юридичні угоди, фінансові звіти, технічна документація, медичні записи тощо. Вирішення задач ефективного управління цими даними вимагає нових підходів та інструментів, які поєднують сучасні технології автоматизації та аналізу інформації. Одним із найбільш перспективних напрямків є розробка систем, що базуються на підході Retrieval-Augmented Generation (RAG). Ця методологія є унікальною комбінацією пошукових алгоритмів і генеративних моделей штучного інтелекту. Використання RAG дає можливість не лише витягувати з документів необхідні дані, але й генерувати нові тексти на основі отриманої інформації, що суттєво розширює функціональність традиційних пошукових систем. Система аналізу документів на основі RAG є особливо актуальною для вирішення завдань, пов’язаних із обробкою великих масивів інформації. Зростання цифровізації у бізнесі, науці, освіті, медицині та державному управлінні супроводжується зростанням попиту на інструменти, що можуть забезпечувати швидкий доступ до структурованих даних. У бізнес-середовищі це дозволяє підприємствам скоротити час на аналіз інформації, що є ключовим для прийняття управлінських рішень. Зокрема, компанії з великим обсягом вхідної документації можуть інтегрувати RAG-системи у свої робочі процеси для автоматизації рутинних завдань, таких як пошук релевантних записів, перевірка відповідності даних чи підготовка звітів. Наукові організації також виграють від використання таких систем. Наприклад, дослідники, які працюють із сотнями наукових статей або архівними документами, можуть значно прискорити свої роботи завдяки автоматизованому пошуку відповідної інформації. У медичній сфері системи RAG можуть допомогти у швидкому аналізі медичних записів, пошуку діагностичної інформації чи створенні рекомендацій на основі медичних протоколів. Крім того, системи аналізу документів з використанням RAG можуть бути корисними у державному секторі. Наприклад, державні установи, які працюють із великими обсягами юридичних, фінансових чи адміністративних документів, можуть використовувати ці системи для автоматизації обробки запитів громадян, підготовки аналітичних звітів чи перевірки відповідності документів законодавчим нормам. Унікальність підходу RAG полягає в тому, що він поєднує дві ключові функції: витягування даних (retrieval) і генерацію нового контенту (generation). Традиційні пошукові системи здатні знаходити інформацію, але не завжди забезпечують її релевантність або можливість адаптації до конкретного контексту. Генеративні моделі, у свою чергу, можуть створювати текст, але без доступу до зовнішніх баз даних вони обмежені лише внутрішніми знаннями моделі. RAG інтегрує ці підходи, дозволяючи використовувати силу сучасних пошукових алгоритмів разом із генеративними можливостями моделей штучного інтелекту. З технічної точки зору, RAG-системи використовують сучасні алгоритми обробки природної мови (NLP), які базуються на трансформерних архітектурах, таких як GPT чи BERT. Ці моделі здатні працювати з неструктурованими даними, такими як тексти, що робить їх універсальними для аналізу документів. Водночас, інтеграція баз даних і пошукових систем дозволяє забезпечити точний доступ до необхідної інформації у великих масивах даних. Використання технологій штучного інтелекту дозволяє системам RAG самонавчатися, тобто покращувати свою продуктивність з часом на основі нових даних, що поступають. Розробка системи аналізу документів з використанням RAG є надзвичайно перспективною областю, яка об’єднує новітні досягнення штучного інтелекту, машинного навчання та програмної інженерії для створення ефективних рішень, що відповідають викликам сучасного світу. Актуальність теми веб-застосунку для аналізу документів та автоматизація пошуку даних з використанням RAG користуються значним зростанням попиту на дані технології у IT галузі. Система аналізу документів та автоматизація пошуку даних з використанням RAG (Retrieval-Augmented Generation) є актуальною на сьогоднішній день через зростання обсягів інформації та документів, що вимагають швидкої і точної обробки. В умовах, коли бізнес і наука щодня генерують величезні масиви текстової інформації, автоматизація аналізу документів стає необхідною для підвищення ефективності процесів. Традиційні методи обробки не завжди здатні швидко й точно знаходити релевантну інформацію, що може призводити до втрати часу та ресурсів. Використання RAG дозволяє не тільки автоматично витягати потрібні дані, але й генерувати новий контент на основі вже існуючих даних, що є суттєвою перевагою в умовах швидко мінливого світу. Крім того, система сприяє покращенню якості пошукових результатів, оскільки поєднує можливості штучного інтелекту та сучасних методів машинного навчання для оптимізації роботи з текстовими даними. Це рішення дозволяє значно скоротити час на аналіз великого обсягу документів і забезпечує більш точні відповіді на запити користувачів. Також, автоматизація пошуку важливих даних мінімізує людський фактор, що знижує ймовірність помилок при роботі з інформацією. В контексті бізнесу це означає скорочення витрат і підвищення продуктивності, а в наукових дослідженнях — прискорення відкриття та досягнення нових результатів. RAG-системи є також корисними для державних установ, де важливо швидко обробляти великі обсяги юридичної та фінансової документації. Рішення на основі RAG допомагають ефективно організовувати інформацію та забезпечувати доступ до релевантних даних у потрібний час.
Description
Робота публікується згідно наказу Ректора НАУ від 27.05.2021 р. №311/од «Про розміщення кваліфікаційних робіт здобувачів вищої освіти в репозиторії університету» Керівник проекту: доцент, кандидат технічних наук, Вікторія Сидоренко.
Keywords
дипломна робота, система, аналіз, автоматизаця пошуку даних, RAG, Фреймворк, фронтенд, бекенд, модель, інтерфейс, Django, FlaskI, REST API
Citation
Піцик Д. В. - Програмна система аналізу документів для автоматизації пошуку даних з використанням RAG. - Дипломна робота на здобуття ступеня магістра спеціальності «Комп’ютерні науки», “«Інформаційні технології проектування». - Київ, 2024. – 91 с.