Студенческий сайт КФУ - ex ТНУ » Учебный раздел » Учебные файлы »ПРОГРАММИРОВАНИЕ

Программный комплекс для вычисления характеристик строя, представляющих локальную структуру

Тип: дипломная работа
Категория: ПРОГРАММИРОВАНИЕ
Скачать
Купить
Методы косвенного анализа структуры знаковых последовательностей на основе состава. Анализ строя цепей событий. Выравнивание аминокислотных и нуклеотидных последовательностей. Обоснование выбора средств разработки. Программные средства разработки.
Краткое сожержание материала:

Размещено на

Размещено на

Введение

Исследование биологических текстов является одной из актуальнейших задач современного естествознания. При этом под биологическими текстами понимаются символьные модели нуклеотидных и аминокислотных последовательностей. Процесс перевода последовательности нуклеотидов, составляющих ДНК, в символьную последовательность называется процессом секвенирования. При этом предполагается, что исследование таких, доступных моделей, как символьные позволит судить о реальном объекте. Одной из последних диссертаций на соискание степени доктора физико-математических наук, в которых объектом исследования является нуклеотидная последовательность, является диссертация Садовского М.Г. [1]. В ней отмечается, что: «символьные последовательности являются классическим объектом математики, а также встречаются как предмет изучения во многих прикладных задачах - от теоретического программирования и теории управления до биологии и лингвистики». Кроме того в данной работе утверждается, что обработка информации в природе происходит малыми порциями, и этим объясняется переход от рассмотрения объекта в целом к рассмотрению ансамбля его фрагментов.

Изучение функциональных, химических, физико-химических и прочих свойств нуклеиновых кислот активно ведется специалистами в различных областях, и одним из важных направлений является изучение нуклеиновых кислот как символьных последовательностей. В настоящей работе предполагается исследовать свойства нуклеиновых кислот, которые определяются взаимным расположением нуклеотидов друг относительно друга в одной изучаемой молекуле; никакие другие факторы - физико-химическое окружение, особенности состава нуклеотидов и т.п. - не рассматриваются.

Отметим, что все исследования, объектом которых является символьная модель, не имеют возможности рассматривать функциональные, химические, физико-химические и другие свойства реального объекта. Исследователь изучает, в большинстве случаев с использованием вероятностного подхода, свойства символьной последовательности как таковой. При этом полагается, что определенные свойства реального объекта отображаются в свойства символьной последовательности.

В данной работе используется системный подход к изучению символьных последовательностей. Полагается, что символьные последовательности являются целостно-завершенными объектами и их следует рассматривать целиком. Переход от рассмотрения совокупности фрагментов последовательности к рассмотрению её как таковой дает возможность исследовать её строй, как особое свойство последовательности, имеющую корреляцию с физико-химическими, биологическими и другими свойствами, определенными взаимным расположением элементов [2, стр. 16].

Следует отметить, что рассмотрение полных геномов и отдельных генов, с точки зрения системного подхода, позволяет ставить задачу по выявлению «естественных» элементов, из которых состоит данная система. Другая важная проблема, имеющая общую значимость для любых прикладных исследований, предметом которых являются те или иные символьные последовательности, состоит в сравнении двух (или нескольких) символьных последовательностей. Дело в том, что символьные последовательности относятся к такому классу объектов, для которых определение расстояния между ними возможно, однако оно очень «бедно»: очень часто формально введённое расстояние никак не отражает близость или, наоборот, существенные различия свойств, приписываемых исследователем изучаемым символьным последовательностям. Здесь имеет смысл рассматривать меру близости двух (или нескольких) последовательностей, и для её построения информационные и статистические методы являются весьма универсальными и продуктивными.

В частности в настоящее время актуальной является проблема исследования локальной структуры (интроны, экзоны, границы генов) нуклеотидных последовательностей. Разработанный А.С. Гуменюком аппарат анализа строя знаковых последовательностей позволяет в отличие от общепринятых в биоинформатике статистических методов, учитывать также взаимное расположение.

Очевидно использование характеристик строя (описывающих целую генетическую последовательность) также и для анализа локальной структуры такой цепи, путем просмотра её окном разного размера в форме блоков или L-грамм, с последующим применением разнообразных методов анализа функций и числовых последовательностей.

Цель данной работы состоит в разработке программного комплекса и исследовании с его помощью символьных последовательностей. В программной комплексе возможны разбиения знаковой последовательности на блоки, L-граммы, L-граммы с фиксированной привязкой к началу цепочки. Также возможно вычисление спектра по Фурье и вывод графиков разбитых знаковых последовательностей.

Структура и объем работы. Работа состоит из введения, шести разделов, заключения, библиографии, включающей 35 наименований, приложения, содержащего исходный код разработанной программы. Основное содержание работы составляет 73 стр., 55 рисунка.

1. Обзор и анализ методов и программных средств обработки знаковых последовательностей

Методы анализа знаковых последовательностей можно разделить на два класса: анализирующие состав знаковых цепей и косвенно учитывающие взаимное расположение элементов цепи. В данной же работе предлагается использовать подход непосредственно учитывающий взаимное расположение элементов и называемый непосредственным анализом строя цепи. Рассмотрим некоторые методы из каждой группы.

1.1 Методы косвенного анализа структуры знаковых последовательностей на основе состава

Энтропия и информация

В работе [1] представлен обзор работ посвященных исследованию энтропийных свойств нуклеотидных последовательностей. «Изучению информационного содержания символьных последовательностей посвящено большое количество работ. Достаточно велик и поток работ, в которых изучаются информационные, либо энтропийные характеристики символьных последовательностей в связи с их приложениями к задачам молекулярной генетики, молекулярной биологии и биоинформатики. Говоря об энтропийных (или, шире, о статистических) свойствах символьных последовательностей, следует иметь в виду, что в этом случае всякую конечную последовательность следует рассматривать как элемент бесконечно длинной символьной последовательности, реализующей все возможные комбинации символов (слов) любой заданной длины. Обычно при исследовании статистических свойств символьных последовательностей не возникает путаницы, связанной с этим обстоятельством, однако следует иметь в виду, что статистические свойства могут рассматриваться лишь в связи с анализом всего ансамбля символьных последовательностей.

Если рассматривать эксперимент с n возможными исходами, имеющими вероятности осуществления рп i = 1, 2,…, n, то информация, которую приносит сообщение о том, что реализовался определенный (i-ый) исход полагается равной .

Энтропия S характеризует неопределенность в исходе эксперимента в целом, по определению , т.е. величина S тем больше, чем меньше априорная возможность предсказания исхода эксперимента. S максимальна, если нет исходов более вероятных, чем другие для случая, то есть р, = 1/n и Smax = log2 n [33].

Если рассматривать случай символьных последовательностей, то их можно интерпретировать с двух точек зрения. Первая состоит в том, что каждый из символов считается результатом эксперимента по выбору символа. Определив вероятности выпадения символов в эксперименте (), можно вычислить I и S, приходящиеся на одну позицию текста по указанным выше формулам. Вторая рассматривает текст в целом как результат эксперимента по генерации текста из N символов. Это позволяет ввести величины IN и SN, характеризующие информацию и энтропию «сложного» эксперимента, включающего N «простых» в случае независимости «простых» экспериментов , так как . В том случае, если в рассматриваемой символьной последовательности символы зависимы друг от друга, то информация на один символ (и, соответственно, энтропия) уменьшаются. Степень уменьшения информации либо энтропии существенно зависят от того, насколько неслучайны, зависимы символы, стоящие в различных местах в рассматриваемой последовательности, при этом явный вид такого рода зависимости известен далеко не всегда. Один из путей анализа статистических свойств такого рода неслучайных символьных последовательностей связан с модельными представлениями. Например, если символьная последовательность представляется Марковской цепью первого порядка с известными переходными вероятностями то энтропия приходящаяся на один символ есть

Возможны и иные модели неслучайности (упорядоченности) символьных последовательностей; для некоторых из них также можно получить явные формулы энтропии (либо информации), приходящейся на один символ.

1.2 Анализ строя цепей событий

Псевдовектор строя цепи

Основы аппарата анализа строя цепи представлены А.С. Гуменюком в работе [3]. Рассмотрим множество знаковых последовательностей конечной длины. Выделим подмножество кортежей с одинаковыми наборами чисел вхождения символов собственных алфавитов. Так как имеется ввиду неоднократное вхождение некоторых компонентов, то все множество кортежей, составленных на основе конкретного алфавита - это комбинации типа «перестановки с повторениями», каждая из которых отличаетс...

Другие файлы:

Программирование и исследование алгоритмов вычисления определенных интегралов
Методы и алгоритмы вычисления определенных интегралов: метод трапеций и метод Симпсона (метод парабол). Оформление функции вычисления заданного опреде...

Программный комплекс решения задачи многокритериального линейного программирования
Оптимизационная задача линейного программирования. Виды задач линейного программирования. Принятие решений на основе количественной информации об отно...

Типовой программный комплекс бухгалтерского учета и отчетности сельскохозяйственной организации "НИВА-СХП"
Программный комплекс бухгалтерского учета. Учет основных средств и нематериальных активов сельскохозяйственной организации "НИВА-СХП". Учет производст...

Программный комплекс управления сайтом с использованием "Kohana Framework"
Разработка структурной схемы и интерфейса программного комплекса управления сайтом. Выбор языка программирования. Принципы тестирования программы. Раз...

Программный комплекс CREDO