Удк 007. 5: 519. 216. 3 Опыт применения методов интеллектуального анализа данных в компаративистских и типологических исследованиях

Тип: реферат
Категория: Остальные рефераты

Скачать

Купить

УДК 007.5:519.216.3ОПЫТ ПРИМЕНЕНИЯ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В КОМПАРАТИВИСТСКИХ И ТИПОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ(на материале созданной в ИЯ РАН БД “ЯЗЫКИ МИРА”)*В.Н.Поляков 1, А.А.Савельев2, В.Д.Соловьев2 В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета R. Обоснована адекватность применяемого аппарата для типологических и компаративистских исследований. Введение На протяжении многих лет в ИЯ РАН ведется разработка уникального информационного ресурса – БД «Языки Мира». Разработка концепции базы данных была начата практически одновременно с реализацией проекта по созданию энциклопедии «Языки мира», осуществляемого под руководством члена-корреспондента РАН В.Н.Ярцевой. В качестве основного средства формализации была разработана так называемая «модель реферата», представляющая собой универсальную схему описания языка, где языковые явления и категории представлены в жестко заданной форме. За время выполнения этого проекта было создано три версии программного обеспечения (для DOS, для Windows и для Web). При этом информационное содержание БД сохранило в целом первоначально заложенную концепцию.В настоящее время работы над БД ведутся в рамках Российского научно-образовательного центра по лингвистике им. Бодуэна де Куртенэ при Казанском государственном университете. База данных размещена в Интернете по адресу: www.dblang.ru и доступна в тестовом режиме.По состоянию на 26.03.06 БД «Языки Мира» характеризуется следующими количественными параметрами: количество языков: 315 языков Евразии, количество признаков: 3821, формат представления данных: бинарный, общий размер информационного пространства БД составляет свыше 1,2 млн. бинарных состояний. Эта база данных является уникальной по объему и широте охвата языков. Как правило, типологические базы данных содержат описания языков по очень ограниченному списку параметров, относящихся к определенной сфере языка, часто даже по одному единственному параметру. Единственной, кроме нашей, базой данных, содержащей широкое описания языков является The World Atlas of Language Structures, созданная под руководством Бернара Комри (Лейпциг) и др. Однако и в ней языки описаны всего по 131 признаку. В последующих разделах статьи будут описаны результаты первых статистических исследований, выполненных с использованием БД “Языки мира”.1. Структура базы данных БД содержит описание следующих языковым семьям и группам языков: Австронезийские – 1 яз., Алтайские - 74 яз., Аустроазиатские – 2 яз., Афразийские – 9 яз., Кавказские – 39 яз., Индоевропейские - 145 яз., Китайско-тибетские – 2 яз., Палеоазиатские –17 яз., Уральские – 15 яз., Хуррито-урартские – 2 яз., Эламодравидские – 1 яз., Языки-изоляты – 7 яз. (айнский, бурушаски, гуннов, нивхский, шумерский, юкагирский).При кодировке признаков было принято следующее решение – использовать двоичную логику, либо язык обладает данным признаком, либо нет. Этот подход ориентирован на дальнейшие статистические исследования языков. Он радикально отличается от принятого в The World Atlas of Language Structures. Рассмотрим этот вопрос на примере падежей. The World Atlas of Language Structures содержит единственный признак, относящийся к падежам – ‘падежный синкретизм’. Под синкретизмом понимается возможность выражения одним падежом нескольких значений. По этому параметру любой язык может принять одно из следующих 4 значений: ‘нет падежей’, ‘только ядерные падежи’, ‘ядерные и неядерные падежи’, ‘нет синкретизма’. В нашей базе данных информация о падежах представлена в 103 признаках. Для каждого из существующих в языках мира падежей и возможных синкретических комбинаций введен отдельный параметр. Это хорошо характеризует степень подробности описания языков в нашей базе данных.2. Первый этап статистических исследований Одной из задач анализа всей совокупности языков является внешнее представление их взаимосвязей, основанное на наборах признаков. Наиболее распространенным методом такого сопоставления является вычисление некоторой меры сходства или различия. Результаты сопоставления, представленные в виде матриц сходства, в свою очередь служат исходными данными для выявления структуры, образуемой языками как объектами пространства признаков. Под структурой здесь понимается в первую очередь выявление и представление близости языков и наличие градиентов – постепенных переходов от одних языков к другим в пространстве признаков, которые могут содержать важную информацию для их сопоставительного анализа. Интересно, что использование двоичных признаков для описания языков с точки зрения возникающих при этом задач имеет сходство с исследованием видового состава растительных сообществ с использованием флористических списков. В этом случае аналогом площадки описания является язык, а аналогом списка присутствующих видов – список имеющихся у него признаков. Для каждого языка доля присутствующих признаков составляет лишь небольшую часть от всей совокупности признаков, также как и доля видов растений, встретившихся на данной площадке, составляет лишь небольшую часть от всех возможных видов. Одним из авторов подобные методы активно применялись при анализе растительных сообществ [Савельев, 2004]. Существует аналогия между языками и описаниями растительных сообществ, а так же общие проблему с вычислением мер сходства: относительно небольшое количество признаков (со значением ‘true’) у каждого языка, разная степень информативности признаков, которая может быть обусловлена как их слишком большой распространенностью, так и уникальностью, разная степень подробности описания для различных языков, и т. д., которые создают дополнительные трудности при их сопоставлении. Кроме того, априорно неизвестно какую информацию несет каждый конкретный совпадающий признак в паре языков: информацию о непосредственном генетическом родстве этой пары, информацию о дальнем родстве (имеют общего родственника), или информацию о контактах между языками и заимствовании. Для преодоления этих трудностей были предложены различные меры сходства, в том числе ориентированные на использование именно двоичных признаков. Кроме того, для выявления и представления структуры объектов в пространстве признаков здесь разработаны и используются различн...

Другие файлы:

Количественные методы в исторических исследованиях
Пособие состоит из трех разделов. В первом характеризуются общие проблемы применения количественных методов в исторических исследованиях; во втором из...

Базы данных. Интеллектуальная обработка информации
В книге "Интеллектуальная обработка данных" рассмотрены вопросы организации информационных систем различного назначения, методы интеллектуального анал...

Методы многомерного анализа социологической информации
Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуальног...

Оперативный и интеллектуальный анализ данных
Курс ориентирован на изучение методов и приобретение практических навыков анализа данных: организации хранилищ данных, оперативного (OLAP) и интеллект...

Комплекс интеллектуального анализа данных
Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стацион...