Разработка программных средств конвертирования HTML-текстов в семантические сети
Московский Государственный Университет Путей сообщения(МИИТ)Кафедра АСУКурсовой проект«Разработка программных средств конвертирования HTML текстов в семантическую сеть»Выполнила: Студентка 5-го курса группы УИС-511 Болотова Е.А.Проверил: Саркисян Р.Е.Москва 2001Содержание:Что такое семантическая сеть …………………………..3Основные сведения о языке HTML …………………….3 1.Введение ………………………………………….3 2.Сруктура HTML-документа ……………………..4Что такое фреймы ……………………………………….7Возможности представления знаний на базе языка HTML ……………………………………………...8TextAnalyst 2.0 – персональная система автоматического анализа текста ………………………..14Принцип работы HTML-конвертора …………………...17Список использованных источников …………………..21Что такое семантическая сетьСемантическая сеть – структура для представления знаний в виде ориентированного графа, в котором вершины – это понятия, а дуги - отношения. Термин семантическая означает "смысловая", а сама семантика – это наука, устанавливающая отношения между символами и объектами, которые они обозначают, что есть наука, определяющая смысл знаков.Самые первые семантические сети были разработаны в качестве языка-посредника для систем машинного перевода. Однако последние версии семантических сетей стали более мощными и гибкими и составляют конкуренцию логическому программированию, фреймовым системам и другим языкам представления.На сегодняшний день существует множество вариантов семантических сетей. Их терминология и структура различаются, но существуют сходства, присущие всем семантическим сетям:Узлы семантических сетей представляют собой концепты предметов, событий, состоянийразличные узлы одного концепта относятся к различным значениям, если они не помечены как относящиеся к одному концептудуги семантических сетей создают отношения между узлами-концептами (пометки над дугами указывают на тип отношения)некоторые отношения между концептами представляют собой лингвистические падежи, такие как агент, объект, реципиент и инструмент (другие означают временные, пространственные, логические отношения и отношения между отдельными предложениямиконцепты организованы по уровням в соответствии со степенью обобщенности так, как, например, сущность, живое существо, животное, плотоядное.Несмотря на некоторые различия, сети удобны для чтения и обработки компьютером, а также достаточно мощны, чтобы представить семантику естественного языка.Наиболее часто в семантических сетях используются следующие отношения:связь типа "часть-целое" ("класс-подкласс", "множество-подмножество" и т.п.)функциональные связи, определяемые обычно глаголами "производит", "принадлежит" и т.п.)количественные ("больше", "меньше", "равно" и т.п.)пространственные ("близко от", "далеко от" и т.п.)временные ("раньше", "позже" и т.п.)логические связи ("и", "или" и т.п.)лингвистические связи и т.д.Основные сведения о языке HTMLВведениеВсе стандартные броузеры для сети Интернет используют способы представления текстов, основанные на языке HTML. HTML (Hyper Text Markup Language) – это язык разметки гипертекста. Этот язык «понимают» все компьютеры, он довольно прост, но при этом имеет достаточные выразительные средства для удобного описания разных типов документов. Язык позволяет хранить текст в «чистом» виде (не кодируя его), что делает возможным просмотр HTML скриптов с помощью обычных текстовых редакторов. Этот язык предоставляет авторам Интернет - публикаций средства:представления документов, включающих заголовки, тексты, таблицы, списки, «картинки» и т.п. элементы;осуществления навигации по отдельным документам и множеству документов путем использования гиперссылок;конструирования диалоговых форм для взаимодействия с удаленными сервисами, доступными в сети;включения в документы вычисляемых форм (spread-sheets), видео и звука, равно как и разнообразных приложений.Первая версия языка HTML была разработана Т. Бернерс-Ли из Европейского Центра ядерных исследований (CERN). В дальнейшем язык претерпел существенные изменения. К середине 90-х годов произошла стандартизация его версий, которая стала курироваться международными организациями. В настоящее время наиболее развитой является версия языка HTML 4.0, в которой представлены новые возможности аппаратуры и требования производителей программного обеспечения броузеров, а также пожелания Интернет – авторов.2. Структура HTML-документаВ HTML – файле находится символьная информация. Часть ее – это данные, составляющие содержимое документа, а другая часть – HTML – теги, языковые конструкции, используемые для разметки документа и управляющие его отображением. Для выделения тегов в тексте HTML – документа эти...