Разработка универсального набора функций, позволяющих описывать свойства молекул
Краткое сожержание материала:
Размещено на
1. Литературный обзор
1.1 Методология исследования количественных соотношений «cтруктура-свойство» / «cтруктура-активность»
Методы компьютерного прогнозирования свойств химических соединений на основе поиска количественных (QSAR, Quantitative Structure Activity Relationships, количественные соотношения «структура-активность»; QSPR, Quantitative Structure Property Relationships, количественные соотношения «структура-свойство») соотношений «структура - активность» / «структура-свойство» применяются при конструировании веществ с заранее заданными свойствами и прогнозировании свойств новых соединений. Применение этих методов позволяет сократить время и затраты экспериментальных процедур по синтезу и тестированию свойств новых соединений. В последние 20 лет в связи ростом числа новых материалов, разрабатываемых для нужд микроэлектроники, экологии, медицины, фармацевтики и др., востребованность методов QSAR/QSPR в самых разных областях науки и техники значительно возросла. Эти методы активно развиваются, и спектр объектов их применения расширяется, особенно в области прогнозирования свойств материалов и супрамолекулярных систем. Так, например, на сегодняшний день 29% публикаций в области QSPR материалов посвящено исследованию полимеров, 19% - катализаторам, 16% - наноматериалам, 12%, 10% и 2%, соответственно, суперкритическому СО2, ионным жидкостям и керамике [1].
Методологии QSAR/QSPR и применению методов на её основе посвящено значительное число монографий, обзоров и работ [1-8]. Методология QSAR/QSPR основана на предположении, что изменения структуры молекулы влияет на изменение макроскопических свойств вещества. Связь между молекулярной структурой и макроскопическими свойствами (например, биологической активностью или физико-химическими свойствами) рассчитывают в виде функциональной зависимости с помощью статистического аппарата методов машинного обучения. Простейшая схема методологии QSAR/QSPR представлена на Рис. 1.
Рис. 1. Схема методологии QSAR/QSPR
На основе набора структур соединений с известными значениями исследуемого свойства / активности формируют базу данных. Далее с использованием соединений обучающей выборки строят функциональную зависимость (модель) между значениями свойства и набором молекулярных дескрипторов, кодирующих определённую информацию о структуре молекулы. В QSPR материалов в качестве входной информации также могут использовать характеристики, описывающие внешние условия и исходные компоненты для синтеза [1]. Прогнозирующую способность модели оценивают с помощью соединений контрольной (тестовой) выборки. После того, как модель построена и доказана её прогнозирующая способность, она может быть использована для прогноза свойств (активности) новых соединений, для которых свойства (активность) не известны из экспериментальных данных. Способы разбиения базы данных на обучающую и контрольную выборки описаны в обзоре [8].
Классификация методов QSAR/QSPR. В обзоре [3] методы QSAR/QSPR классифицируют исходя из размерности описания структуры молекул или способа представления дескрипторов:
• 1D QSAR - поиск соотношений между активностью / свойством и общими молекулярными характеристиками: pKa, logP и др. [10-14];
• 2D QSAR - построение корреляций на основе 2D (топологических) характеристик структуры, например, индексов связности, 2D фармакофоров и др. [15-18]. Эти методы имеют ограничения при конструировании новых молекул, т. к. не учитывают характеристик их пространственной структуры;
• 3D QSAR - построение корреляций на основе 3D геометрии молекул с использованием потенциалов молекулярных полей в качестве дескрипторов [1-7,19];
• 4D QSAR - в рамках 3D QSAR используют дополнительную информацию о конформациях ансамбля лигандов [20];
• 5D QSAR - в рамках 4D QSAR используют дополнительную информацию об изменении конформации лиганда при связывании с белком (induced-fit model) [21];
• 6D QSAR - в рамках 5D QSAR используют дополнительную информацию об эффекте растворителя [22].
Методы статистического анализа данных. Для построения QSAR/QSPR моделей используются различные методы машинного обучения. Их целью является нахождение зависимости между входными значениями (дескрипторами) и зависимыми параметрами (свойство, активность). Многие из этих методов рассмотрены в обзоре [8].
Авторы [3] дифференцируют методы QSAR/QSPR по типам методов статистического анализа, используемых для построения моделей - линейные и нелинейные.
Классическими линейными методами статистического анализа, традиционно используемым для целей QSAR/QSPR, являются множественная линейная регрессия (Multiple Linear Regression, MLR), метод частичных наименьших квадратов (Partial Least Squares, PLS), регрессия на главных компонентах (Principal Components Regression, PCR), гребневая регрессия (Ridge Regression, RR) [23].
К нелинейным методам относят искусственные нейронные сети (ANN) [24-25], метод ближайших соседей (kNN) [26] и ряд других.
В последнее время в области QSAR/QSPR активно применяются ядерные методы машинного обучения [27], которые имеют большие перспективы в прогнозировании свойств химических соединений и материалов. Эти методы приспособлены для работы с математическим аппаратом ядер и позволяют представить произвольную нелинейную функцию в виде линейной комбинации нелинейных ядер. К ним относят машину опорных векторов (Support Vector Machine, SVM) [28], ядерную гребневую регрессию (Kernel Ridge Regression, KRR) [29], ядерные частичные наименьшие квадраты (Kernel Partial Least Squares, K-PLS) [30] и ряд других методов.
Дескрипторы. На сегодняшний день разработано и описано более 5000 различных дескрипторов [8,31,32] для представления тех или иных свойств молекул и, соответственно программное обеспечение для их расчёта (DRAGON [33], CODESSA [34] и др.). В обзоре [1] приведена следующая классификация типов дескрипторов:
· Конституционные (характеризуют относительное число атомов различного типа);
· Топологические [35]. В их основе лежит представление молекулы в виде молекулярного графа. Топологические дескрипторы подразделяют на топоструктурные, содержащие информацию о смежности и топологических расстояниях между атомами, и топохимические, которые, кроме этого, указывают на элементную принадлежность атомов и гибридизацию. Среди топологических дескрипторов особую роль играют фрагментные дескрипторы, которые показывают наличие или отсутствие тех или иных фрагментов в структуре молекулы [36]).
· Физико-химические (характеризующие растворимость, дипольные моменты, формальный заряд, липофильность и т.д.);
· Квантово-химические (характеризуют частичный заряд на атомах, поляризуемость, энергии орбиталей, и др. параметры, рассчитываемые с помощью полуэмпирических методов, методом функционала плотности и другими квантово-химическими методами);
· Структурно-геометрические (характеризующие пространственную геометрию, форму и площадь поверхности молекулы, расстояние между функциональными группами);
· Дескрипторы молекулярных полей, которые рассчитывают как энергии взаимодействия между атомами молекулы и пробными атомами, находящимися в узлах воображаемой трехмерной решетки, построенной вокруг молекулы.
Важным элементом методов QSAR/QSPR является представление химических структур в стандартных обменных форматах, которые обеспечивают возможность их хранения в базах данных и работы с ними с помощью широкого набора существующих компьютерных программ [2,4]. Для преобразования файловых форматов разработаны специальные программы (ChemAxon, OpenBabel, Avogadro и др.).
1.2 Методы 3D QSAR/QSPR
Несмотря на то, что по сравнению с подходами 3D QSАR/QSPR классические методы 2D QSАR/QSPR более просты и лучше приспособлены для анализа больших массивов данных, они имеют ограничения при конструировании новых соединений и, особенно, супрамолекулярных систем. В частности, они 1) не позволяют учитывать особенности пространственного строения молекул, и как следствие, различать стереоизомеры, 2) не позволяют детально описывать межмолекулярные взаимодействия лиганд-мишень, 3) в рамках этих методов невозможна наглядная интерпретация результатов путем рассмотрения пространственного строения комплексов лиганд-мишень.
Поскольку практически все свойства химических соединений, обусловленные образованием межмолекулярных комплексов, зависят от их пространственного строения, в настоящее время методы 3D QSAR являются ведущими при поиске новых биологически активных соединений, в частности, при создании лекарственных препаратов, а методы 3D QSPR представляют перспективный инструментарий для компьютерного прогнозирования свойств соединений и супрамолекулярных комплексов при конструировании новых материалов. Методам 3D QSAR и их применению для прогнозирования биологической активности соединений посвящено множество монографий и обзоров [1-7,38].
1.2.1 Методы 3D QSAR
К стандартными методам 3D QSAR можно отнести подходы, в основе которых лежит предположение о том, что биологическая активность лигандов обусловлена нековалентным взаимодействием с биологическими мишенями посредством молекулярных полей. В рамках этих методов для описания таких полей вычисляют энергию взаимодействия между атома...
Основные свойства функции
Понятие числовых функций с областью определения, аргумент и области их значений, свойства и графическое выражение. Определение четных и нечетных функц...
Разработка универсального источника бесперебойного питания
Изучение устройства и принципа работы источников бесперебойного питания (ИБП). Разработка универсального ИБП с возможностью его использования в любой...
Разработка универсального шестиканального термометра
Разработка прибора для измерения температуры, передающего параметры через последовательный интерфейс RS-232. Создание принципиальной и электрической с...
Protein Engineering and Design
В книги освещены различные направления в методиках проектирования молекул белков, анализа функций белков, проектирования взаимодействий молекул белков...
Разработка электронного приложения "Инспектор процессов и потоков"
Разработка программного кода. Анализ набора функций, необходимых для реализации приложения. Создание компонента Timer. Получение списка имен процессов...