Студенческий сайт КФУ - ex ТНУ » Учебный раздел » Учебные файлы »Информатика

Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»

Тип: реферат
Категория: Информатика
Скачать
Купить
Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ» Г.В. Дорохина, В.А. АкчуринВведениеОбработку естественно-языковых текстов (ЕЯТ) относят к области искусственного интеллекта. Технологии обработки ЕЯТ нашли своё применение в системах машинного перевода, поисковых системах в сети Интернет, роботах-автоответчиках [1] и т.д.Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа русскоязычных текстов являются достаточно развитыми – результаты их оценки представлены в [2], [3].К настоящему времени ИПИИ разработаны модуль декларативного морфологического анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологического анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов -около 3 млн словоформ, синтезированных по словарю А. А. Зализняка [6].Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грамматических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используемых в модуле, а также многочисленные процедуры пополнения и корректировки , ной базы, в ходе совершенствования её наполнения.Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные таты морфологического анализа. Так как словарная база РДМА_ИПИИ явля-источником для наполнения базы данных модуля морфологического анализа без ооваря, ошибки в ней впоследствии распространятся и на результаты бессловарного логического анализа.В связи с этим актуальной является разработка методик проверки словарных наличие некорректных МИ и методики корректировки словарной'базы.Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации.Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи:- генерация правил выявления некорректных значений МИ на основе теоретических данных и классификация видов ошибок;- разработка рекомендаций по коррекции словарной базы.Правила выявления некорректных значений МИДля анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значений МИ составило 1359.На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обязательных и недопустимых грамматических категорий для частей речи. В этой таблице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «О».Пустые ячейки таблицы на пересечении столбца и строки указывают на то, что грамматическая категория не является обязательной для всех словоформ данной части речи, в то же время парадигма слов данной части речи содержит хотя бы одну словоформу, которой присуща указанная грамматическая категория. В табл. 2 представлены правила определения некорректных значений МИ для случаев, соответствующих пустым ячейкам табл. 1.Таблица 1 – Обязательные и недопустимые категории для частей речи Для последующей ссылки на правила данной таблицы необходимо каждому из них присвоить некоторый идентификатор.Правилам табл. 1 присвоим двойной номер. Первая часть будет обозначать часть речи, к которой применяется правило, вторая – номер морфологической категории. Таким образом, правило, запрещающее ненулевое значение категории «Падеж» у глаголов,будем обозначать П5.1.Таблица 2 – Правила определения некорректных значений МИ В табл. 2 знаки равенство нулю («=0») значения некоторой грамматической категории обозначает, что эта категория не определена в анализируемой МИ, а неравенство нулю («^0») говорит об определенности категории в анализируемой МИ. Ссылки на правила табл. 2 будем делать по их порядковому номеру (4-й столбец). Например, П28.С применением описанных выше правил (табл. 1,2) проведена проверка словарной базы РДМА_ИПИИ на наличие некорректных МИ. В результате было выявлено 211 значений МИ и около 44 500 словоформ, требующих корректировки.Корректировка словарной базы РДМА_ИПИИВнесение автоматических изменений в словарную базу может явиться источником новых ошибок. В связи с этим идеология модуля РДМА_ИПИИ требует проверки человеком запланированных изменений.Так как количество записей, отнесённых к ошибочным, исчисляется десятками тысяч, необходимо автоматизировать процесс классификации некорректных МИ и формирования рекомендаций по корректировке словарной базы. При этом будем использовать следующую методику.1. Упорядочим таблицу некорректных МИ по убыванию количества словоформ с данной МИ. Назовём её Исходной таблицей МИ. Таблицу словоформ с ошибочными МИ назовём Таблицей словоформ.2. Скопируем эту таблицу в таблицу, которую назовём Остатком некорректных МИ.3. Выберем из таблиц 1, 2 правило, согласно которому . первый элемент Остатка некорректных МИ является некорректным.4. Из Исходной таблицы выберем все записи, удовлетворяющие выбранному правилу. Сформулируем рекомендации по коррекции ошибки. Из Таблицы словоформ выберем все записи с данной ошибкой и убедимся, что применение рекомендации по коррекции ошибки устранит ошибку и не приведёт к появлению новых.5. Добавим правило к Множеству применённых правил.6. Сформируем Остаток некорректных МИ путём выбора из Исходной таблицы запи- 1 сей, которые не удовлетворяют ни одному из Множества применённых правил.7. Если Остаток некорректных МИ не пуст и для его первого элемента количество словоформ с данной МИ больше порогового, перейти на шаг 3.Таблица 3 – Корректировка словарной базы Результаты применения данной методики отражены в табл. 3, где также указан порядок применения правил и рекомендации по исправлению ошибок. Данные рекомендации позволяют исправить выявленные ошибки.ВыводыНаучная новизна данной работы состоит в следующем.1. На основе теоретических сведений сгенерированы правила выявления некорректных значений морфологической информации.2. Разработана методика корректировки словарной базы модуля морфологического анализа.Практическая значимость работы состоит в применимости сгенерированных правил и методики для выявления, анализа и исправления ошибок в МИ словарных баз систем обработки русскоязычных текстов на морфологическом уровне.Список литературы1. Антонов А. Диалог 2 роботов о всякой ерунде [Электронный ресурс] / Антонов А. – Режим доступа: http://www.roboter.ru/news/arch_spri_08/dialog_08_04_l8.htm2. Оценка методов автоматического анализа текста: морфологические парсеры русского языка [Электронный ресурс] / О. Ляшевская, И. Астафьева, А. Бонч-Осмоловская [и др.] // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной Международной конференции «Диалог» (Бекасово, 26 – 30 мая 2010 г.). – Вып. 9 (16). – М.: РГГУ, 2010. – Режим доступа: http://ru-eval.ru/Dialog2010.pdf...
Другие файлы:

Технологический процесс ремонта и регулировки модуля кадровой развертки "МК-41"
Разработка технологического процесса ремонтных работ для модуля кадровой развертки МК-41. Конструкция и электрическая принципиальная схема модуля. Выб...

Разработка алгоритма работы синтаксического анализатора текста, а также базы данных синтаксических правил русского языка
Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая ме...

Методы и приемы словарной работы на уроках русского языка в начальной школе.
Анализ и описание различных приемов словарной работы на уроках русского языка в начальной школе. Проблема организации словарной работы Методика словар...

Интерфейсный модуль RS2-4.5x
Разработка модуля для решения задач управления и обмена информацией с удаленными объектами. Принцип работы интерфейсного модуля RS2-4.5x и разработка...

Понятие морфологического уровня языка. Единица морфологического уровня
Средства формирования, выражения и сообщения мысли. Понятие уровня языка и единицы образующей уровень. Иерархия лингвистических уровней. Понятия морфе...