Корзина (0)
Ваша корзина пустует и скучает ;)

Исследование статистической модели текстовых данных на основе онтологического подхода и подтверждение ее применимости

ID номер GIS067
Вид Материалы к диссертации Магистра
Написана в 2019
Наполнение 100 страниц, 46 рисунков, 2 таблицы, 25 источников, 4 приложения

Содержание

Введение 5
Актуальность работы 5
1. Обзор предметной области и постановка задачи 8
1.1. Моделирование текстовых данных 8
1.1.1. Векторное представление текстов 9
1.1.2. Модель на основе N-грамм 10
1.2. Классификация методов реферирования 11
1.3. Статистические методы 13
1.3.1.Симметричное реферирование 13
1.3.2. TextRank 14
1.4. Индикаторный метод 16
1.5. Позиционный метод 18
1.6. Анализ методов построения системы реферирования. Постановка задачи 21
2. Теоретический анализ 23
2.1. Базовая модель 23
2.2. Метод решения задачи 23
2.3. Онтологический подход 24
2.3.1. Общая информация об онтологии 24
2.3.2. Применение онтологии к задаче реферирования 26
3. Используемые алгоритмы и анализ предложенной модели 27
3.1. Предварительная обработка текстов 27
3.1.1. Графематический анализ текста 27
3.1.2. Удаление стоп-слов 28
3.2. Морфологический анализ 28
3.2.1. Стемминг 28
3.2.2. Частеречная разметка текста 29
3.3. Понижение размерности признаков 30
3.4. Онтологический анализ 31
3.5. Статистический алгоритм реферирования текстовых данных 34
3.6. Модифицированный алгоритм реферирования тестовых данных 35
3.7. Анализ сложности получения модели текста 38
3.8. Оценка качества реферирования текстов 39
4. Программная реализация и оценка эффективности системы реферирования текстов 41
4.1. Архитектура системы 41
4.1.1. Модуль предварительной обработки текста 42
4.1.2. Модуль создания модели текста 43
4.1.3. Модуль построения рефератов 48
4.1.4. Модуль сравнения рефератов 50
4.2. Описание системы 52
4.2.1. Пользовательский интерфейс 52
4.2.2. Руководство пользователя 56
4.2.3. Условия эксплуатации 64
4.3. Описание экспериментов по оценке качества реферирования 65
Выводы 72
Заключение 73
Список литературы 74
Приложение А 75
Приложение Б 76
Приложение В 77
Приложение Г 79

Введение

В настоящее время человек постоянно сталкивается с проблемой обработки огромного количества информации, поступающей из различных источников. Рост объемов электронной информации носит экспоненциальный характер, что делает проблему острее с каждым годом. Автоматическая обработка естественных текстов занимает важное место в аналитико-синтетической работе, поскольку позволяет экономить временные и кадровые ресурсы.

Одним из актуальных направлений является автоматическое реферирование текстов. Развитие программных и аппаратных средств для реализации алгоритмов реферирования и повышение качества самих алгоритмов поднимают данную область на высокий уровень и позволяют использовать ее методы во многих отраслях человеческой деятельности. Решение этой задачи позволит увеличить эффективность работы поисковых систем, систематизировать рабочую документацию предприятия для управления документооборотом, структурировать и уменьшить объем веб-сайтов за счет размещения рефератов, защитить авторские права.

Для обработки больших объемов текстовой информации наиболее подходят методы экстрагирования – извлечения предложений из исходного текста без изменения их структуры. Данные методы отличаются простотой реализации и высокой скоростью работы, поскольку используют статистическую информацию о тексте. Первые работы в этом направлении появились еще в 60х годах прошлого века, однако значительного прогресса не наблюдается, поскольку число статистически важных параметров текста ограниченно. Поэтому необходимо привлечение знаний и алгоритмов из других направлений обработки естественного текста для нахождения дополнительной информации о структуре текста. Исследования в области поиска алгоритмов продолжаются, таким образом, проблема обработки большого количества информации является актуальной с точки зрения развития методик реферирования текстов.

Объект и предмет исследования

Объектом исследования являются тексты различной природы, в частности, тексты новостных электронных изданий и их характеристики.

Предмет исследования - модели, основанные на количественных статистических характеристиках текста, и методы реферирования текстовых данных с использованием этих моделей.

Целью работы является исследование статистической модели текстовых данных на основе онтологического подхода и экспериментальное подтверждение ее применимости для решения задачи автомати­зированного реферирования текстовых данных различной природы.

Задачи исследования

Для достижения поставленной цели были поставлены следующие задачи:

1. анализ существующих моделей и методов, применяемых для реферирования текстов;

2. исследование онтологического подхода с обоснованием возможности его применения при построении рефератов текстовых документов;

3. разработка методики реферирования текстов на основе рассмотренных подходов;

4. экспериментальная проверка эффективности разработанной методики

Методы исследования

Для решения поставленных задач применялись методы системного анализа, теории информации и методы статистической обработки экспериментальных данных.

Научная новизна

Предложена модель текста в виде статистических характеристик текстовых данных на основе онтологического подхода, с помощью которой могут быть описаны тексты различной природы.

Достоверность и обоснованность результатов исследования обеспечены корректным использованием современного математического аппарата, использованием результатов исследований в области автоматической обработки текстов, в частности, автомати­зированного реферирования текстовых данных, и подтверждены результатами экспериментальных исследований на примере конкретных текстов.

Практическая значимость работы

Полученные теоретические и практические результаты в ходе написания выпускной квалификационной работы наглядно отражают важность этапа текстового моделирования в задаче автомати­зированного реферирования. Реализован алгоритм построения модели текста на основе онтологического подхода, применимый к произвольным текстовым данным. Показана применимость данного подхода для решения задачи реферирования текстов.

Заключение

В результате проведённого исследования, были выполнены все поставленные задачи:

1. доказана актуальность применения алгоритмов реферирования для решения задачи автоматической обработки текстовых данных;

2. был обоснован выбор статистического алгоритма реферирования;

3. была предложена модель представления текстовых данных с учетом онтологии;

4. построен статистический алгоритм реферирования на базе предложенной модели;

5. была произведена оценка сложности разработанного алгоритма;

6. выполнена программная реализация модифицированного статистического алгоритма;

7. произведено тестирование работы программы на реальных данных;

8. по результатам экспериментов был выполнен сравнительный анализ разработанного алгоритма на основе онтологического подхода и алгоритмов, не учитывающих онтологию.

Перспективным является использование разработанного статистического алгоритма в совокупности с позиционными и индикаторными методами реферирования текстов. Это позволит наряду со статистическим данными получить дополнительную информацию о структуре документа и учитывать вспомогательные лексические единицы при обработке текстовых данных на естественном языке.


Скачать работу на данную тему

Зачем покупать готовую работу?

В связи с тем, что авторы ITdiplom выполняют работы с использованием актуальной иностранной и русскоязычной литературы, собственных многолетних наработок, а также данных с официальных статистических ресурсов, готовые материалы не теряют своей актуальности и на сегодняшний день
Уникальность таких готовых работ на момент повторного приобретения по системе «Антиплагиат» варьируется в диапазоне 75-95%. При этом на протяжении учебного семестра/полугодия каждая работа реализуется единственный раз одному клиенту во избежание повторений при сдаче
Такие материалы с легкостью можно использовать как основополагающие для выполнения собственных работ

Цена готовой ВКР/НИР, дипломной работы или магистерской диссертации

Купить подобный готовый материал можно от 4.000 руб.
В стоимость включены:
- Готовый материал с уникальностью в диапазоне 75-95%
- Презентация и речь
- Корректировка до 10 страниц по замечаниям руководителя
- Репетиторские услуги вплоть до защиты
- Программный продукт (по запросу)

Как узнать точную цену готовой работы

Возможность продажи, точная стоимость конкретной работы и доп. информация предоставляются по запросу:
- Онлайн чат "Бесплатная консультация"
- Мессенджеры 8 (900) 299-30-57
- Запрос на почту zakaz@itdiplom.ru
В запросе необходимо указать ID номер или тему работы

Категории

Скачать презентацию к представленной выше работе

Скачать дипломную работу, представленную выше

Выбрать или купить другие готовые дипломные работы по схожей тематике

Заказать дипломную работу по схожей тематике или оценить стоимость можно при помощи формы Узнать стоимость моей работы.

Воспользуйтесь формой запроса точной стоимости готовых работ, указав ID номера или темы интересующих работ

В стоимость данной работы включены:

- Готовый материал с уникальностью в диапазоне 75-95%
- Презентация и речь, подготовка к защите
- Корректировка до 10 страниц по замечаниям руководителя
- Репетиторские услуги вплоть до защиты
- Программное обеспечение (зависит от темы - наличие по запросу)