Студенческий сайт КФУ - ex ТНУ » Учебный раздел » Учебные файлы »ПРОГРАММИРОВАНИЕ

Методы извлечения знаний

Тип: аттестационная работа
Категория: ПРОГРАММИРОВАНИЕ
Скачать
Купить
Понятие информационных систем и принципы их проектирования. Изучение различных методов извлечения знаний, построение оптимальной информационной системы Data Mining, позволяющей разбивать набор данных, представленных реляционными базами данных на кластеры.
Краткое сожержание материала:

1

ВВЕДЕНИЕ

Наступивший XXI век станет этапным для проникновения новых информационных технологий и создаваемых на их основе высокопроизводительных компьютерных систем во все сферы человеческой деятельности - управление, производство, науку, образование и т.д. Конструируемые посредством этих технологий интеллектуальные компьютерные системы призваны усилить мыслительные способности человека, помочь ему находить эффективные решения так называемых плохо формализованных и слабоструктурированных задач, характеризующихся наличием различного типа неопределенностей и огромными поисковыми пространствами. Сложность таких задач усиливается зачастую необходимостью их решения в очень ограниченных временных рамках, например, при управлении сложными техническими объектами в аномальных режимах или при оперативном разрешении конфликтных (кризисных) ситуаций. Наибольшей эффективности современные интеллектуальные системы достигают при реализации их как интегрируемых систем, объединяющих различные модели и методы представления и оперирования знаниями, а также механизмы приобретения (извлечения) знаний из различных источников.

Понятие «управление знаниями» родилось в середине 1990-х годов в крупных корпорациях, где проблемы обработки информации приобрели критический характер. Постепенно пришло понимание того, что знания -- это фундаментальный ресурс, базирующийся на практическом опыте специалистов и на данных, существующих на конкретном предприятии. Компании, которые осознали ценность «знания» и наладили управление им, способны лучше использовать свои традиционные ресурсы, комбинировать их особыми способами, обеспечивая большую выгоду для потребителей, чем конкуренты[16].

Знания неявно стали одним из главных источников капитала. Цена акций может во много раз превышать их покрытие материальными активами компании-эмитента. Это особенно заметно в случае компаний так называемой новой экономики. Например, для акций компании Oracle соотношение цена/активы (рыночная капитализация, деленная на активы компании за вычетом долгов) составляет 17 к 1. Поэтому многие ведущие компании уже имеют в своем составе специального сотрудника -- chief knowledge officer, -- ответственного за создание инфраструктуры и культуры совместного использования знаний. Главная задача специалистов такого рода -- вычленять, систематизировать и тиражировать интеллектуальный капитал внутри корпораций. Знания при этом воспринимаются как ресурс, а обеспечение ими налаживается по принципу just-in-time (точно вовремя), используемому при снабжении материальными ресурсами производственного процесса. Однако применяются эти знания не столько в производственных, сколько в управленческих процессах, предполагающих принятие стратегических и оперативных решений [17].

Тема извлечения знаний привлекает внимание учёных как в Европе, так и во всём мире. Изучением данной темы занимаются У. Файяд, Г. Пятетский-Шапиро, Т. Гаврилова, Л. Григорьев, П. Смит, Дж. Сейферт, В. Фроли, Ц. Матеус, Е. Монк, Б. Вагнер, С.Хааг и др.

Data Mining переводится как «добыча» или «раскопка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных [5].

До начала 90-х годов не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой. Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками. Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания - они решали главным образом свои частные проблемы обработки небольших локальных баз данных.

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Специфика современных требований к такой переработке следующие:

§ данные имеют неограниченный объем;

§ данные являются разнородными (количественными, качественными, текстовыми);

§ результаты должны быть конкретны и понятны;

§ инструменты для обработки сырых данных должны быть просты в использовании.

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина - концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для «грубого» разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

Целью магистерской работы является изучение различных методов извлечения знаний, построение оптимальной системы Data Mining, позволяющей разбивать набор данных, представленных реляционными базами данных на кластеры.

Новизна магистерской работы заключается в том, что существующие системы кластеризации данных обладают недостатками: одни медленно работают с большими объёмами данных, однако дают качественную кластеризацию на маленьких наборах объектов, другие показывают хорошие результаты по скорости обработки данных, но при этом страдает качество. Таким образом, построение эффективной системы разбиения данных на кластеры является весьма актуальной задачей, ещё не до конца исследованной.

Использование баз данных (БД) и информационных систем(ИС) становится неотъемлемой составляющей деловой деятельности современного человека и функционирования преуспевающих организаций. В связи с этим большую актуальность приобретает освоение принципов построения и эффективного применения соответствующих технологий и программных продуктов: систем управления базами данных(СУБД), САSЕ-систем автоматизации проектирования, средств администрирования и зашиты БД и других.

Информационная система - взаимосвязанные данные, содержащие все сведения о хозяйственной или иной деятельности предприятия. Такая система позволяет облегчить труд человека, повысить качество и достоверность обрабатываемой информации. Основу ИС составляют хранящиеся в ней данные. Хранящиеся в ИС данные должны быть легко доступны, чтобы предоставлять достоверную информацию в определенное время, конкретному лицу, в определенном месте и с ограниченными затратами.

Ценность информации в современном мире очень высока. В основе решения многих задач лежит обработка информации. С развитием экономики и ростом численности населения возрастает и объем взаимосвязанных данных, необходимых для решения коммерческих и административных задач. Для облегчения обработки информации создается ИС. Такая система в первую очередь призвана облегчить труд человека, но для этого она должна как можно лучше соответствовать очень сложной модели реального мира. Автоматизированными называют ИС, в которых применяют технические средства, в частности ЭВМ.

Ядром ИС являются хранимые в ней данные, которые должны быть легко доступны в том виде, в каком они нужны для конкретной производственной деятельности предприятия. ИС обязаны предоставлять достоверную информацию в определенное время, определенному лицу, в определенном месте и с ограниченными затратами.

Объектом называется элемент ИС, о котором хранится информация. Объект может быть реальным (например, человек, какой-либо предмет или населенный пункт) и абстрактным (например, событие, счет покупателя или изучаемый студентами курс). Каждый объект обладает определенным набором свойств, которые запоминаются в ИС.

БД представляет собой совокупность специальным образом организованных данных, которые находятся в памяти вычислительной системы и отображают состояние объектов и их взаимосвязей в рассматриваемой предметной области. БД обеспечивают надежное хранение информации в структурированном виде и своевременный доступ к ней. Практически любая современная организация нуждается в БД, удовлетворяющей те или иные потребности по хранению, управлению и администрированию данных.

1 ПОСТАНОВКА ЗАДАЧИ

В основу проектирования БД должны быть положены представления конечных пользователей конкретной организации - концептуальные требования к системе. Именно конечны...

Другие файлы:

Методы извлечения и очистки родия
Изучение особенностей процесса извлечения родия и очистки его от неблагородных и благородных примесей. Обобщение химических, физических свойств, а так...

Методы получения, представления и обработки знаний с НЕ-факторами
В монографии рассматриваются три последовательных процесса работы со знаниями — получение, представление и обработка, причём акцент сделан на так назы...

Технологии извлечения вольфрама
Сущность технологий извлечения металлов из лома карбидов металлов, полученных путем спекания. Анализ достоинств и недостатков твердых металлокерамичес...

Сущность метода "мозговой атаки"
При разработке корпоративных систем управления знаниями самое узкое место - не программный аспект, как думают многие, а задача извлечения, формулирова...

Оценка знаний учащихся
Критерии оценки знаний и умений учащихся. Методы контроля и самоконтроля. Методы усвоения знаний, умений и навыков в соответствии с требованиями прогр...