Студенческий сайт КФУ - ex ТНУ » Учебный раздел » Учебные файлы »Химия

Разработка универсального набора функций, позволяющих описывать свойства молекул

Тип: дипломная работа
Категория: Химия
Скачать
Купить
Методы 3D QSAR/QSPR. Концепция непрерывных молекулярных полей. Визуализация молекулярных полей, полей регрессионных коэффициентов. Построение моделей 3D QSAR/QSPR на основе функций принадлежности точки атомным типам. Оценка качества 3D-QSAR/QSPR моделей.
Краткое сожержание материала:

Размещено на

1. Литературный обзор

1.1 Методология исследования количественных соотношений «cтруктура-свойство» / «cтруктура-активность»

Методы компьютерного прогнозирования свойств химических соединений на основе поиска количественных (QSAR, Quantitative Structure Activity Relationships, количественные соотношения «структура-активность»; QSPR, Quantitative Structure Property Relationships, количественные соотношения «структура-свойство») соотношений «структура - активность» / «структура-свойство» применяются при конструировании веществ с заранее заданными свойствами и прогнозировании свойств новых соединений. Применение этих методов позволяет сократить время и затраты экспериментальных процедур по синтезу и тестированию свойств новых соединений. В последние 20 лет в связи ростом числа новых материалов, разрабатываемых для нужд микроэлектроники, экологии, медицины, фармацевтики и др., востребованность методов QSAR/QSPR в самых разных областях науки и техники значительно возросла. Эти методы активно развиваются, и спектр объектов их применения расширяется, особенно в области прогнозирования свойств материалов и супрамолекулярных систем. Так, например, на сегодняшний день 29% публикаций в области QSPR материалов посвящено исследованию полимеров, 19% - катализаторам, 16% - наноматериалам, 12%, 10% и 2%, соответственно, суперкритическому СО2, ионным жидкостям и керамике [1].

Методологии QSAR/QSPR и применению методов на её основе посвящено значительное число монографий, обзоров и работ [1-8]. Методология QSAR/QSPR основана на предположении, что изменения структуры молекулы влияет на изменение макроскопических свойств вещества. Связь между молекулярной структурой и макроскопическими свойствами (например, биологической активностью или физико-химическими свойствами) рассчитывают в виде функциональной зависимости с помощью статистического аппарата методов машинного обучения. Простейшая схема методологии QSAR/QSPR представлена на Рис. 1.

Рис. 1. Схема методологии QSAR/QSPR

На основе набора структур соединений с известными значениями исследуемого свойства / активности формируют базу данных. Далее с использованием соединений обучающей выборки строят функциональную зависимость (модель) между значениями свойства и набором молекулярных дескрипторов, кодирующих определённую информацию о структуре молекулы. В QSPR материалов в качестве входной информации также могут использовать характеристики, описывающие внешние условия и исходные компоненты для синтеза [1]. Прогнозирующую способность модели оценивают с помощью соединений контрольной (тестовой) выборки. После того, как модель построена и доказана её прогнозирующая способность, она может быть использована для прогноза свойств (активности) новых соединений, для которых свойства (активность) не известны из экспериментальных данных. Способы разбиения базы данных на обучающую и контрольную выборки описаны в обзоре [8].

Классификация методов QSAR/QSPR. В обзоре [3] методы QSAR/QSPR классифицируют исходя из размерности описания структуры молекул или способа представления дескрипторов:

• 1D QSAR - поиск соотношений между активностью / свойством и общими молекулярными характеристиками: pKa, logP и др. [10-14];

• 2D QSAR - построение корреляций на основе 2D (топологических) характеристик структуры, например, индексов связности, 2D фармакофоров и др. [15-18]. Эти методы имеют ограничения при конструировании новых молекул, т. к. не учитывают характеристик их пространственной структуры;

• 3D QSAR - построение корреляций на основе 3D геометрии молекул с использованием потенциалов молекулярных полей в качестве дескрипторов [1-7,19];

• 4D QSAR - в рамках 3D QSAR используют дополнительную информацию о конформациях ансамбля лигандов [20];

• 5D QSAR - в рамках 4D QSAR используют дополнительную информацию об изменении конформации лиганда при связывании с белком (induced-fit model) [21];

• 6D QSAR - в рамках 5D QSAR используют дополнительную информацию об эффекте растворителя [22].

Методы статистического анализа данных. Для построения QSAR/QSPR моделей используются различные методы машинного обучения. Их целью является нахождение зависимости между входными значениями (дескрипторами) и зависимыми параметрами (свойство, активность). Многие из этих методов рассмотрены в обзоре [8].

Авторы [3] дифференцируют методы QSAR/QSPR по типам методов статистического анализа, используемых для построения моделей - линейные и нелинейные.

Классическими линейными методами статистического анализа, традиционно используемым для целей QSAR/QSPR, являются множественная линейная регрессия (Multiple Linear Regression, MLR), метод частичных наименьших квадратов (Partial Least Squares, PLS), регрессия на главных компонентах (Principal Components Regression, PCR), гребневая регрессия (Ridge Regression, RR) [23].

К нелинейным методам относят искусственные нейронные сети (ANN) [24-25], метод ближайших соседей (kNN) [26] и ряд других.

В последнее время в области QSAR/QSPR активно применяются ядерные методы машинного обучения [27], которые имеют большие перспективы в прогнозировании свойств химических соединений и материалов. Эти методы приспособлены для работы с математическим аппаратом ядер и позволяют представить произвольную нелинейную функцию в виде линейной комбинации нелинейных ядер. К ним относят машину опорных векторов (Support Vector Machine, SVM) [28], ядерную гребневую регрессию (Kernel Ridge Regression, KRR) [29], ядерные частичные наименьшие квадраты (Kernel Partial Least Squares, K-PLS) [30] и ряд других методов.

Дескрипторы. На сегодняшний день разработано и описано более 5000 различных дескрипторов [8,31,32] для представления тех или иных свойств молекул и, соответственно программное обеспечение для их расчёта (DRAGON [33], CODESSA [34] и др.). В обзоре [1] приведена следующая классификация типов дескрипторов:

· Конституционные (характеризуют относительное число атомов различного типа);

· Топологические [35]. В их основе лежит представление молекулы в виде молекулярного графа. Топологические дескрипторы подразделяют на топоструктурные, содержащие информацию о смежности и топологических расстояниях между атомами, и топохимические, которые, кроме этого, указывают на элементную принадлежность атомов и гибридизацию. Среди топологических дескрипторов особую роль играют фрагментные дескрипторы, которые показывают наличие или отсутствие тех или иных фрагментов в структуре молекулы [36]).

· Физико-химические (характеризующие растворимость, дипольные моменты, формальный заряд, липофильность и т.д.);

· Квантово-химические (характеризуют частичный заряд на атомах, поляризуемость, энергии орбиталей, и др. параметры, рассчитываемые с помощью полуэмпирических методов, методом функционала плотности и другими квантово-химическими методами);

· Структурно-геометрические (характеризующие пространственную геометрию, форму и площадь поверхности молекулы, расстояние между функциональными группами);

· Дескрипторы молекулярных полей, которые рассчитывают как энергии взаимодействия между атомами молекулы и пробными атомами, находящимися в узлах воображаемой трехмерной решетки, построенной вокруг молекулы.

Важным элементом методов QSAR/QSPR является представление химических структур в стандартных обменных форматах, которые обеспечивают возможность их хранения в базах данных и работы с ними с помощью широкого набора существующих компьютерных программ [2,4]. Для преобразования файловых форматов разработаны специальные программы (ChemAxon, OpenBabel, Avogadro и др.).

1.2 Методы 3D QSAR/QSPR

Несмотря на то, что по сравнению с подходами 3D QSАR/QSPR классические методы 2D QSАR/QSPR более просты и лучше приспособлены для анализа больших массивов данных, они имеют ограничения при конструировании новых соединений и, особенно, супрамолекулярных систем. В частности, они 1) не позволяют учитывать особенности пространственного строения молекул, и как следствие, различать стереоизомеры, 2) не позволяют детально описывать межмолекулярные взаимодействия лиганд-мишень, 3) в рамках этих методов невозможна наглядная интерпретация результатов путем рассмотрения пространственного строения комплексов лиганд-мишень.

Поскольку практически все свойства химических соединений, обусловленные образованием межмолекулярных комплексов, зависят от их пространственного строения, в настоящее время методы 3D QSAR являются ведущими при поиске новых биологически активных соединений, в частности, при создании лекарственных препаратов, а методы 3D QSPR представляют перспективный инструментарий для компьютерного прогнозирования свойств соединений и супрамолекулярных комплексов при конструировании новых материалов. Методам 3D QSAR и их применению для прогнозирования биологической активности соединений посвящено множество монографий и обзоров [1-7,38].

1.2.1 Методы 3D QSAR

К стандартными методам 3D QSAR можно отнести подходы, в основе которых лежит предположение о том, что биологическая активность лигандов обусловлена нековалентным взаимодействием с биологическими мишенями посредством молекулярных полей. В рамках этих методов для описания таких полей вычисляют энергию взаимодействия между атома...

Другие файлы:

Основные свойства функции
Понятие числовых функций с областью определения, аргумент и области их значений, свойства и графическое выражение. Определение четных и нечетных функц...

Разработка универсального источника бесперебойного питания
Изучение устройства и принципа работы источников бесперебойного питания (ИБП). Разработка универсального ИБП с возможностью его использования в любой...

Разработка универсального шестиканального термометра
Разработка прибора для измерения температуры, передающего параметры через последовательный интерфейс RS-232. Создание принципиальной и электрической с...

Protein Engineering and Design
В книги освещены различные направления в методиках проектирования молекул белков, анализа функций белков, проектирования взаимодействий молекул белков...

Разработка электронного приложения "Инспектор процессов и потоков"
Разработка программного кода. Анализ набора функций, необходимых для реализации приложения. Создание компонента Timer. Получение списка имен процессов...