Студенческий сайт КФУ - ex ТНУ » Учебный раздел » Учебные файлы »ПРОГРАММИРОВАНИЕ

Обработка речевых сигналов

Тип: дипломная работа
Категория: ПРОГРАММИРОВАНИЕ
Скачать
Купить
Проектирование системы голосового управления в автоматизированных жилых комплексах. Распознавание и порождение (синтез) речи компьютером. Синтез устной речи. Технология поиска ключевых слов. Нейросетевое сравнение на основе простых персептронов.
Краткое сожержание материала:

Размещено на

Введение

Современное здание, независимо от своего типа - жилой ли это дом, офисный или торговый центр, или же спортивное сооружение - представляет сложный объект с точки зрения управления. Поддержание в здании нормальных жизненных условий, обеспечение его безопасности и защищенности от внештатных ситуаций обеспечивают множество технологических систем, каждая из которых характеризуется большим набором параметров и сигналов управления. Все в совокупности они образуют то, что называется системой жизнеобеспечения здания. Умный дом, а другими словами интеллектуальное здание, - это автоматизированная система управления домом или офисом, которая отвечает за обеспечение работы инженерных систем, систем безопасности.

Интеллектуальная система управления обеспечивает централизованный контроль и управление при нештатных ситуациях и авариях. Каждый пользователь получает возможность в рамках общей среды обитания задавать параметры собственной, индивидуальной среды.

Однако, как же управлять самой системой? В связи с успехами развития вычислительной техники и новых информационных технологий в последнее десятилетие определилась тенденция к нарастанию сложности систем управления, а также всех прочих видов человеко-машинных систем. Важной является возможность взаимодействия человека с машиной на языке, максимально приближенном к естественному языку человека, поскольку общение на естественном языке позволяет организовать эффективное и удобное взаимодействие оператора с системой. В настоящее время сфера внедрения систем распознавания речи существенно расширяется, захватывая различные отрасли производственной, административной и бытовой деятельности.

1 Разработка и анализ технического задания

1.1 Описание предметной области

По мере развития компьютерных систем становится все более очевидным, что использование этих систем намного расширится, если станет возможным использование человеческой речи при работе непосредственно с компьютером, и в частности станет возможным управление машиной обычным голосом в реальном времени, а также ввод и вывод информации в виде обычной человеческой речи.

Голосовое управление основано на технологии распознавания речи: система получает информацию о колебаниях воздуха через микрофон, сравнивает полученные данные с командами, которые записаны в системе и, в случае совпадения, выполняет предписанное действие.

Существующие технологии распознавания речи не имеют пока достаточных возможностей для их широкого использования, но на данном этапе исследований проводится интенсивный поиск возможностей употребления коротких многозначных слов (процедур) для облегчения понимания. Распознавание речи в настоящее время нашло реальное применение в жизни, пожалуй, только в тех случаях, когда используемый словарь сокращен до 10 знаков, например при обработке номеров кредитных карт и прочих кодов доступа в базирующихся на компьютерах системах, обрабатывающих передаваемые по телефону данные. Так что насущная задача - распознавание по крайней мере 20 тысяч слов естественного языка - остается пока недостижимой. Эти возможности пока недоступны для широкого коммерческого использования. Однако ряд компаний своими силами пытается использовать уже существующие в данной области науки знания. Сейчас повсеместному распространению голосового управления мешает недостаточная вычислительная мощность процессоров и проблема наличия посторонних (внешних) шумов.

1.2 Цель и назначение разработки

Целью данного дипломного проекта является проектирование системы голосового управления в автоматизированных жилых комплексах.

В поисках решения данной задачи в работе проводится разработка программного обеспечения для систем распознавания речевых команд.

Для достижения поставленной цели в работе решены следующие основные задачи:

- Исследованы алгоритмы обучения нейронных сетей.

- Разработаны методы, направленные на дальнейшее повышение эффективности и качества работы данного алгоритма в контексте рассматриваемой задачи.

В настоящее время работы по распознаванию речи не только не потеряли актуальности, но и развиваются широким фронтом, находя для себя множество областей для практического применения. Сейчас можно выделить 4 сравнительно изолированных направления в области развития речевых технологий:

1) Распознавание речи - т.е. преобразование речевого акустического сигнала в машинную цепочку символов и слов. Эти системы могут быть охарактеризованы по ряду параметров. Прежде всего это объём словаря: малые объёмы до 20 слов, большие - тысячи и десятки тысяч. Количество дикторов: от одного до произвольного. Стиль произнесения: от изолированных команд до слитной речи и от чтения до спонтанной речи. Коэффициент ветвления, т.е. величина, определяющая количество гипотез на каждом шаге распознавания: от малых величин (10<15) до больших (100>200). Отношение сигнал/шум от больших (>30 дБ) до низких (<10 дБ). Качество каналов связи: от высококачественного микрофона до телефонного канала. Качество работы систем распознавания речи обычно характеризуется надёжностью распознавания слов, или, что то же самое, процентом ошибок.

2) Определение индивидуальности говорящего. Эти системы делятся на два класса: верификация говорящего (т.е. подтверждение его личности) и идентификация говорящего (т.е. определение его личности из заранее ограниченного числа людей). Оба эти класса далее могут быть разделены на тексто - зависимые и тексто - независимые. Основной характеристический параметр - объём парольной фразы. Два других (как и в распознавании речи): отношение сигнал/шум и качество канала связи. Качество работы систем верификации/идентификации говорящего характеризуется двумя величинами: вероятностью не опознания «своего» диктора и вероятностью принятия «чужого» диктора за своего.

3) Синтез речи. Практически существует два класса:

- Воспроизведение записанного в той или иной форме ограниченного числа сообщений;

- Синтез речи по тексту. Синтезаторы характеризуются по следующим параметрам: разборчивость (словесная или слоговая), естественность звучания, помехоустойчивость.

4) Компрессия речи. Основной (и единственный) классификационный признак этих систем, это степень компрессии: от низкой (32-16 кбит/сек) до высокой (1200-2400 кбит/сек и ниже). Качество работы систем компрессии речи характеризуется, прежде всего, разборчивостью компрессированной речи. Дополнительными характеристиками очень важными в ряде приложений являются узнаваемость голоса говорящего и возможность определения стрессового уровня говорящего.

В данной работе рассматриваются системы первой группы - системы распознавания речи и их частный случай - системы распознавания речевых команд, т.е. распознавание изолированных слов, а не слитной речи.

1.3 Разработка технического задания

В результате разработки подсистемы распознавания речи и учитывая требования, которые должны быть предъявлены к разрабатываемой подсистеме, ставится задача:

1) Разработать структурную схему подсистемы идентификации пользователя с помощью системы голосового управления, отражающую состав технических средств, программного, математического, информационного и методического обеспечений, применяемых при распознавании речи;

2) Разработать схему работы системы, реализующую собой последовательность действий при процессе разработки системы голосового управления в автоматизированных жилых комплексах;

3) Разработать математическое обеспечение проектируемого программного обеспечения, а также алгоритмы применения математического обеспечения и задач оптимизации;

4) Разработать структуру информационного обеспечения подсистемы распознавания речи, а также программу контроля и управления информационными потоками в виде комплекса баз данных;

5) Разработать программное обеспечение системы для реализации диалога ЭВМ и пользователя. К ПО системы предъявляются следующие требования:

- удобство пользования входным языком системы, этот язык необходимо оформить в виде "меню" и "заполнение бланков"; диалог с пользователем вести в виде "меню" и "заполнение бланка";

- соответствие современным стандартам организации диалога.

6) обеспечить правильное взаимодействие всех подсистем системы.

1.4 Анализ требований технического задания

К разрабатываемой информационной системе заказчик предъявляет ряд требований. Требования к ИС основывались на информации, которую она должна хранить, обрабатывать и анализировать. Эти данные являлись исходным материалом для исследования области применения ИС.

Приступая к планированию работ по проектированию и созданию информационной системы, необходимо подобрать программные средства, с помощью которых будет разрабатываться (проектироваться, моделироваться) и настраиваться информационная система. Выбор программных средств так же должен зависеть и от того, на какой платформе (операционной системе) будет работать заказчик.

Таким образом, выбор программных средств для создания данной информационной системы должен соответствовать ряду факторов:

1) операционная система - это платформа, на которой будет размещена информационная система;

2) аппаратное обеспечение - это ПК, на котором будет установлена, настроена ИС и БД;

Следовательно, необходимо учесть все факторы и созд...

Другие файлы:

Цифровая обработка речевых сигналов
Рассматриваются вопросы цифровой обработки речевых сигналов всистемах передачи информации и управления ЭВМ голосом. Излагаютсяпроблемы цифрового предс...

Модуль сжатия речевых сигналов цифровой АТС
Методы обработки и передачи речевых сигналов. Сокращение избыточности речевого сигнала как одна из проблем ресурсосберегающего развития телефонных сет...

Компьютерные технологии распознавания речевых сигналов
В книге представлено спектрально-временное описание речевых сигналов как функций многих переменных. Приведено решение задач нахождения параметров част...

Распознавание речевых сигналов по их структурным свойствам
Книга является первой попыткой систематического рассмотрения теоретических и практических вопросов использования структурных свойств речевых сигналов...

Анализ, распознавание и интерпретация речевых сигналов
В монографии рассматриваются вопросы автоматического анализа, распознавания, смысловой интерпретации, синтеза и компрессированной передачи речевых сиг...