Студенческий сайт КФУ - ex ТНУ » Учебный раздел » Учебные файлы »ПРОГРАММИРОВАНИЕ

Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ

Тип: дипломная работа
Категория: ПРОГРАММИРОВАНИЕ
Скачать
Купить
Строение артикуляционного аппарата человека с точки зрения возможности распознавания речи по артикуляции. Комплекс параметров артикуляции на основе контура внутренней области губ. Реализация модуля распознавания фонем русской речи по изображениям губ.
Краткое сожержание материала:

Размещено на

Размещено на

Оглавление

1. Введение

2. Распознавание речи по губам

2.1 Строение артикуляционного аппарата с точки зрения возможности распознавания речи по артикуляции.

3. Перечень фонем русской речи

3.1 Классификация звуков русского языка

3.2 Особенности визуализации произносимых фонем.

3.3 Задача считывания речи с губ.

4. Разработка алгоритма распознавания фонем русской речи

4.1 Обзор

4.1.1 Гибкие контурные модели

4.1.2 Представление контуров губ в виде векторов признаков

4.1.3 Исследование поверхности для применения к чтению по губам.

4.2 Комплекс параметров артикуляции на основе контура внутренней области губ

4.3 Алгоритм выделения внутренней области губ и аппроксимации области эллипсом

4.4 Описание исследования распознавания фонем

5. Разработка биотехнической системы

5.1 Качество изображения

5.2 Требования к условиям регистрации изображения

5.2.1 Требования к геометрическим размерам лица на изображении

5.2.2 Требования к положению головы

5.3 Требования к характеристикам изображения лица

5.3.1 Требования к контрасту изображения

5.3.2 Требования к разрешению изображения

5.3.3 Требования к частоте кадров видеоизображения

5.4 Разработка структурно-функциональной схемы системы и схемы БТС. Формирование требований к подсистемам

5.5 Реализация модуля распознавания фонем русской речи по изображениям губ

6. Список использованной литературы

1

1. Введение

Развитие компьютерной техники ведет к усовершенствованию интерфейсов между человеком и компьютером. Один из важнейших способов человеческой коммуникации - речь, поэтому надежный ввод речевой информации является важным направлением усовершенствования человеко-машинных интерфейсов. Существующие системы распознавания речи, основанные на звуке, недостаточно надежны, так как их точность резко ухудшается при искажении звуковой информации шумами различной природы, например, в аэропортах, метро. При некоторых болезнях речевого аппарата, когда «пропадает голос». Кроме того, при наличии нескольких говорящих система распознавания речи сталкивается с проблемой идентификации говорящего в данный момент. Поэтому целесообразно одновременное использование видеоинформации, то есть чтения по губам, что также является важной частью человеческого восприятия речи. Разрабатываемая мультимодальная система распознавания речи так же может активно использоваться для решения экспертно-криминалистических задач, таких как сопоставление видеоизображения и аудио-сигнала, что достаточно часто необходимо при получении достоверной информации. И в случаях отсутствия приемника аудио-сигнала в системах видеонаблюдения. Создание системы распознающей все виземы русской речи является актуальной задачей. В рамках данной работы предполагается разработать систему распознавания визем по видеоизображению, в первую очередь используемых слабослышащими при чтении по губам. Целью квалификационной работы является разработка биотехнической системы для распознавания фонем русской речи по изображениям губ.

Для этого необходимо реализовать следующие задачи:

- Определить характерные особенности фонем русского языка;

- Разработать алгоритм вычисления параметров артикуляции;

- Провести исследование по распознаванию фонем.

2. Распознавание речи по губам

2.1 Строение артикуляционного аппарата с точки зрения возможности распознавания речи по артикуляции

Для исследования возможности распознавания речи по артикуляции рассмотрим строение речевого аппарата с точки зрения данной задачи.

Артикуляционный аппарат или речевой тракт человека содержит три основных компонента, обеспечивающих образование членораздельной речи:

- дыхательные органы, работа которых во время речепроизводства создает необходимые аэродинамические условия;

- гортань и голосовые связки, поведение которых определяет характер произносимого звука (гласный, сонант, звонкий согласный, глухой согласный) и мелодику высказывания в целом;

- надгортанные полости -- полость глотки, ротовая полость, полость носа.

При описании артикуляции самое большое внимание обычно уделяют конфигурациям надгортанных полостей. Именно движения в этой части речевого тракта и называют артикуляторными.

Рисунок 1 - Речевой тракт человека

С точки зрения речеобразования, каждый звук может быть описан уникальной комбинацией нескольких основных состояний артикуляционной системы - параметрами артикуляции:

- Наличие или отсутствие вокализованности (работы голосовых связок);

- Положение языка;

- Параметры раскрытия рта (ширина, высота);

- Округление и вытянутость губ.

При решении задачи - создание системы распознавания русской речи по артикуляции, необходимо учитывать только видимые параметры артикуляции.

Как показали исследования, для русской речи практически полностью скрытой остаётся динамика движения тела, кончика и боковинок языка, нёбной занавески, голосовых связок. Обозрению доступны лишь движения губ и нижней челюсти. Наиболее чётко они проявляются при образовании гласных (Рисунок 2), а также губных согласных (Рисунок 3). Не столь сильное различие, однако, достаточно заметное, наблюдается между твёрдыми и мягкими согласными, а также между заднеязычными и другими негубными согласными (Рисунок 3).

«А»

«Э»

«И»

«Ы»

«О»

«У»

Рисунок 2- Виземы гласных фонем [Ошибка!Источник ссылки не найден.]

Тип фонемы

Губные

Переднеязычные

Заднеязычные

Твёрдые

Мягкие

Рисунок 3 - Виземы групп согласных фонем [Ошибка!Источник ссылки не найден.]

Наиболее яркие различия в виземах связаны с изображениями губ говорящего (Рисунок 414). При этом проявляются три характерных координаты движения губ:

- степень растягивания - координата X (наибольшее значение у гласной «И»),

- степень раскрытия - координата Y (наибольшее значение у гласной «А»),

- степень выпячивания - координата Z (наибольшее значение у гласной «У»).

Рисунок 41 - Изображение губ, характерное для гласных фонем [Ошибка!Источник ссылки не найден.]

3.

3. Перечень фонем русской речи

3.1 Классификация звуков русского языка

Минимальная единица звукового строя языка называется фонемой. В русском языке имеется 42 фонемы: 6 гласных (а, и, о, у, ы, э) и 36 согласных (б, б', в, в', г, г', д, д', ж, з, з', э(й), к, к', л, л', м', м, н, н', п, п', р, р', с, с', т, т', ф, ф', х, х', ц, ч, ш, щ).

Классификация звуков по отсутствию или наличию преграды в ротовой полости:

гласные - [а], [э], [и], [ы], [о], [у];

согласные - все остальные.

Классификация звуков по участию в артикуляции мягкого нёба:

носовые - [м], [м`], [н], [н`];

ротовые - все остальные.

Классификация звуков по работе голосовых складок:

гласные - [а], [э], [и], [ы], [о], [у];

сонорные (в образовании звука практически не участвует шум, они не имеют пары среди глухих согласных, т.е. являются непарными по глухости/звонкости) - [й], [м], [м`], [н], [н`], [л], [л`], [р], [р`];

звонкие (в образовании звука участвуют голосовые связки) - [в], [в`], [з], [з`], [ж], [б], [б`], [д], [д`], [г], [г`];

глухие (в образовании звука не участвуют голосовые связки) - [ф], [ф`], [с], [с`], [ш], [п], [п`], [т], [т`], [к], [к`], [х], [х`], [ч], [щ].

Классификация согласных звуков по степени напряжения средней части спинки языка:

мягкие (качество согласных, обусловленное наличием дополнительной средненёбной (йотовой) артикуляции, которая соединяется с основной артикуляцией согласных, что резко повышает характерный тон и шум) - [й], [щ], [ч], [т`], [д`], [н`], [б`], [в`], [г`], [с`], [р`];

...
Другие файлы:

Исследование характеристик системы распознавания формы микрообъектов
Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания...

Автоматическая обработка разговорной русской речи
В монографии очерчен круг проблем, связанных с особенностями автоматического анализа разговорной русской речи в интерактивных диалоговых системах. Опи...

Методы автоматического распознавания речи. Том 2
Описываются конкретные системы распознавания речи с помощью ЭВМ...

«Разработка алгоритма распознавания фонем русского языка с использованием вейвлет анализа и метода опорных векторов»

Разработка системы распознавания образов
Выбор типа и структуры нейронной сети. Подбор метода распознавания, структурная схема сети Хопфилда. Обучение системы распознавания образов. Особеннос...