Главная -> Публикации ->

 

Саратиков А.С., Ахмеджанов Р.Р., Бакибаев А.А., Хлебников А.И.*, Новожеева Т.П., Быстрицкий Е.Л. Регуляторы ферментативных систем детоксикации среди азотсодержащих соединений. – Томск, 2002

 

К разделу 3.1

3.2. Математические основы метода «фронтальных многоугольников»

Основное содержание раздела опубликовано в работах:

Хлебников А.И.  Метод фронтальных многоугольников: новый подход к анализу взаимосвязи структура – биологическая активность // Хим.-фарм. журн. - 1994. - № 11. - С. 32-35.

Хлебников А.И. Алгоритм установления локального подобия молекул // Журн. структур. химии. - 1995. - Т. 36. - С. 1083-1087.

Хлебников А.И.  Метод фронтальных многоугольников для конформационно нежестких молекул. Взаимосвязь структура – активность в ряду триазинов Бейкера – ингибиторов дигидрофолатредуктазы // Хим.-фарм. журн. - 1997. - № 3. - С. 41-48.

 

         Одной из проблем установления 3D-QSAR является поиск ориентации молекулы лиганда относительно рецептора, обеспечивающей их наибольшее структурное соответствие. Трудность определения такой ориентации связана, во-первых, с большими размерами молекул и, во-вторых, с конформационной лабильностью как лиганда, так и рецептора. В методе ФМ существенно преодолеваются оба эти препятствия на пути к построению 3D-QSAR.

         Взаимодействие больших молекул с рецептором, приводящее к появлению биологической активности, может происходить за счёт сравнительно малого множества U из нескольких периферийных атомов, для которого трудоемкость установления структурного соответствия достаточно низка. Необходимо рассматривать ограниченный набор таких множеств f = {U1, U2, ¼, UN}, т.к. при отсутствии ограничений их количество N равно 2k, если имеются k периферийных атомов. Способ рационального выбора множеств Ui и создания последовательности моделей рецептора описан в работе [216].        

Каждой молекуле сопоставим граф G, в котором вершинами обозначаются атомы, а ребрами – валентные связи, причем кратность ребра равна 1 независимо от кратности связи.

         Определение 1. Атом называется периферийным, если ему в графе G соответствует вершина степени 1 или 2. Множество таких вершин обозначим через .

         Определение 2. Ребро графа G называется скелетным, если соответствующая ему связь соединяет атомы, не являющиеся периферийными.

         В дальнейшем под графом G будем понимать его укладку в R3, которая отображает конформацию исследуемой молекулы; V – множество образов вершин графа в этой укладке. Тогда UÍV – множество точек, совпадающих с центрами нескольких периферийных атомов. Для UÎf можно найти радиус-вектор центра тяжести

 ,                                                       (1)

где  =(xj1, xj2, xj3) – радиус-вектор j-й вершины, принадлежащей U.

Рассмотрим матрицу:

.                         (2)

Известно, что единичные собственные векторы  (i=1, 2, 3) матрицы A образуют базис факторных осей, а собственные значения li являются дисперсиями координат точек из U в этом базисе. Нормируем собственные значения: . Плоскость s(U), проходящая через центр тяжести перпендикулярно собственному вектору с наименьшим значением , аппроксимирует расположение атомов в пространстве. Обозначим через M(U) наибольший выпуклый многоугольник, вершинами которого являются ортогональные проекции точек из U на плоскость s(U). Пусть ½hX½ – расстояние от точки X до s(U), PX  – проекция X на s(U).

         Определение 3. Множество  называется внешним, если в графе G не существует скелетного ребра r, удовлетворяющего при некотором e>0 одному из следующих условий: а) r пересекается с M(U) и ½hA½>e, ½hB½>e для вершин A и B, инцидентных r,  б) ½hA½>e, ½hB½£e, PBÎM(U).

Следовательно, внешним является множество периферийных атомов, находящихся «с одной стороны» молекулы, т.к. соответствующий многоугольник M(U) не пересекается со скелетными связями (условие а) и находится вдали от их концов (условие б). Однако допускается расположение скелетных связей в плоскости многоугольника или с небольшими отклонениями от неё, когда½hA½£e и ½hB½£e. Например, для молекулы бензола M(U) представляет собой правильный шестиугольник с вершинами на атомах водорода, которые образуют множество . Связям C=C соответствуют скелетные ребра графа G. Поскольку они лежат в плоскости многоугольника, множество U является внешним.

         Определение 4. Многоугольник M(U) называется фронтальным, если U – максимальное относительно включения внешнее множество графа G, такое, что  и .

Значения  - относительные дисперсии координат в базисе , ,  (см. выше). Если  достигает 1, то мы имеем одномерный случай: точки из U расположены вдоль одной факторной оси. При  точки разбросаны в R3 хаотично, дисперсии по трем факторным осям примерно одинаковы. Вероятно, для анализа структурного соответствия наиболее интересен приблизительно двухмерный случай, когда атомы внешнего множества образуют своеобразную грань на периферии молекулы. Это достигается, если  и  не слишком велики. Значения e, Kf  и Kc можно рассматривать как параметры метода. Очевидно, что должны выполняться неравенства: .

         Теперь пусть в f входят только те Ui, которым соответствуют фронтальные многоугольники. Согласно основной гипотезе обсуждаемого подхода, информация о расположении и характеристиках атомов вблизи одного или нескольких ФМ определяет комплементарность лиганда рецептору. Поэтому в дальнейшем вместо структуры всей молекулы анализируется только «активный слой» в окрестности каждого ФМ. Эту окрестность определим как область G(U):

,                           (3)

где M(U) – фронтальный многоугольник; L, S – параметры.

В области G(U) могут находиться некоторые атомы, причем не только периферийные. Обозначим через D(U) множество проекций (отпечаток) атомов активного слоя на плоскость s(U):

.                                    (4)

         Каждая проекция PX описывается набором величин: hX, aX1, aX2, ¼, aXz. Последовательность значений aXi характеризует атом, являющийся прообразом вершины X графа G. В неё могут входить заряд, ван-дер-ваальсов радиус и другие величины. Высота проекции hX вычисляется по уравнению:

 ,                                           (5)

где   – единичная нормаль к s(U) (один из собственных векторов матрицы A);  – радиус-вектор точки X. Нормаль  определена с точностью до знака. Направление её выберем согласно условию (6), чтобы она образовывала тупые углы с большинством векторов , направленных от периферийных атомов вдоль химических связей:

 ,                                                       (6)

где  Y – вершина графа G, смежная с X;  m – количество вершин, смежных со всеми XÎU;  Kb – параметр.

         Условие (6) невыполнимо при любой из двух ориентаций нормали, если ½J½£Kb. Такой ФМ считается двусторонним, т.е. порождающим два отпечатка с нормалями  и .

         Итак, на плоскостях ФМ создаются отпечатки «активного слоя», в которых закодирована геометрия молекулы вместе с природой её атомов. Получить представление о строении рецептора можно путем поиска общих элементов структуры в рядах отпечатков разных молекул. Исследуемые соединения должны относиться к одной серии с определённым видом биологической активности. Для решения задачи об общих элементах структуры построим конечную последовательность моделей рецептора (mi). Эти модели будем называть мультиплетами, заимствуя термин из теории гетерогенного катализа А.А.Баландина [218], где возникают близкие по сути проблемы. В качестве мультиплетов целесообразно выбрать отпечатки какой-либо молекулы серии, например самой активной и (или) наиболее конформационно жёсткой. Проекции на этих отпечатках назовем центрами активности (ЦА) рецептора. Для остальных молекул серии найдем оптимальные наложения (ОПН) каждого из отпечатков n на каждый из мультиплетов m. Наложение считается оптимальным, если не менее определённого количества N0 проекций отнесены к ЦА (первое требование) и характеристики проекций hX, aXi близки к соответствующим характеристикам ЦА (второе требование). При поиске наложения отпечаток и мультиплет располагаются в некоторой плоскости g так, чтобы нормали  были направлены по одну сторону от g. Проекция P(n) считается отнесенной к ближайшему ЦА P(m), если выполняется неравенство:

,                                                      (7)

где  R – радиус области отнесения.

         Близость характеристик проекций и ЦА оценим взвешенной суммой квадратов:

,                 (8)

где  wr, wh, wi – весовые коэффициенты.

         Суммирование проводится по всем проекциям X отпечатка n и ЦА мультиплета m, между которыми имеются отнесения. Выражение (8) не учитывает количество отнесений n0, поэтому в качестве критерия оптимальности наложения выберем величину . При a=1 функция  является обычным средневзвешенным квадратом, а при a>1 она учитывает также специфичность наложения, возрастающую с увеличением n0. Второе требование оптимальности можно теперь записать в виде:

,                                                               (9)

где  K0 – граничное значение критерия.

         Для достижения как можно большего количества отнесений необходимо перемещать отпечаток по мультиплету в плоскости g. Это перемещение раскладывается на три вида движений: параллельный перенос вдоль двух неколлинеарных осей и вращение вдоль оси, перпендикулярной g, поэтому задача может быть решена перебором на трёхмерной сетке. Но значительно эффективнее выглядит комбинаторный алгоритм, описанный в работе [217] и позволяющий найти последовательность ОПН для данной пары отпечаток – мультиплет за время, пропорциональное , где nn и nm – соответственно количество проекций в отпечатке и ЦА в мультиплете.

         Анализируя массив ОПН, найденный для различных молекул с определённым видом биологической активности, можно обнаружить мультиплеты, принимающие наибольшее участие в наложениях, и получить представление о структуре фрагментов рецептора. Построение QSAR по массиву ОПН выполнено в работе [219], хотя в исходном варианте [216] метод ФМ не учитывал внутреннее движение молекул.

         Одной из проблем при использовании принципа «ключ–замок» и методов 3D-QSAR-анализа является учет конформационной лабильности молекул. Действительно, если говорить о методе ФМ, то сколько-нибудь заметные изменения геометрической структуры приводят к искажению отпечатков, появлению новых ФМ и т.д. Поэтому в первоначальном виде метод был непригоден для гибких молекул, имеющих многоэкстремальные поверхности потенциальной энергии.

         Предложена модификация метода ФМ [220], направленная на решение проблемы конформационной лабильности. Кроме того, эта модификация намечает пути использования метода для de novo дизайна лекарственных веществ. Рассмотрим внесённые усовершенствования.

         Проблема лабильности полностью отсутствует для жёстких молекул, а также в классических подходах, когда подобие лигандов устанавливается на основе дескрипторов, получаемых из структурной формулы, или физико-химических свойств соединений. В методе ФМ можно представить молекулу в виде набора связанных между собой жёстких фрагментов и при поиске ОПН не принимать во внимание отпечатки, построенные с участием атомов из разных фрагментов. Геометрия оставшихся отпечатков не зависит от внутреннего вращения, но теряется значительная доля структурной информации, заключенная в межфрагментных отпечатках, хотя они наиболее подвержены искажениям. Эти потери можно восполнить, если каждому атому X, посредством которого данный фрагмент соединяется с другой частью молекулы, приписать некоторые свойства (дескрипторы), характеризующие эту часть, и включить их в последовательность (aXi). Указанная модификация метода ФМ объединяет признаки «классических» дескрипторных подходов, а также идеологию, основанную на гипотезе локального подобия [216, 217] и используемую здесь только для жёстких молекулярных фрагментов, к которым она наиболее применима.

Рис. 45. Пример разбиения молекулы на жёсткие фрагменты (Ф1–Ф3) и лабильный фрагмент (Ф4). Граничные атомы отмечены звездочкой.

         В качестве иллюстрации рассмотрим молекулу, состоящую из трёх жёстких фрагментов Ф1–Ф3, два из которых соединены лабильной углеводородной цепью Ф4 (рис. 45). Последовательности (aXi) для граничных атомов, находящихся в местах соединения фрагментов, должны содержать дополнительные сведения о соседних частях молекулы. Тогда атому азота следует приписать свойства (дескрипторы) заместителя Ф4-Ф2-Ф3, третичному и четвертичному углеродам адамантанового ядра – свойства заместителей Ф3 и Ф4-Ф1 соответственно, а ипсо-углероду м-хлорфенильного кольца присвоить дескрипторы цепочки Ф2-Ф4-Ф1. Подходящими характеристиками могут быть, например, липофильность и рефракция, для которых разработаны аддитивные схемы расчёта по атомным и групповым инкрементам [210, 221], успешно используемые в молекулярном моделировании. Применение модифицированного метода ФМ к соединению, изображённому на рис. 45, основано на построении отпечатков отдельно от каждого из фрагментов Ф1–Ф3 как от жёстких субмолекул. Проекции граничных атомов будут содержать сведения об окружении фрагментов в отдельных членах последовательностей (aXi), а соответствующие члены для остальных атомов принимаются равными нулю. Лабильный фрагмент Ф4 не служит источником отпечатков, и его свойства учитываются только на уровне дескрипторов. Локальное описание структуры не дает ясного представления о конформации гибкой молекулы при связывании с рецептором. Однако последний в методе ФМ моделируется набором мультиплетов, т.е. тоже описывается локально, и решение задачи о комплементарности в этом приближении не требует строгого знания геометрии лиганда. Тем не менее, общая пространственная организация молекулы учитывается посредством характеристик заместителей. Например, рефракция боковых цепей коррелирует с их размером.

         В связи с модификацией метода [220] были изменены некоторые определения, сделанные выше. Во-первых, периферийными нужно считать не только атомы, которым в молекулярном графе G соответствуют вершины степени 1 или 2, но и граничные атомы. Это обеспечивает вхождение их проекций в большее число отпечатков и, следовательно, более полный учет сведений об окружении фрагментов. Во-вторых, множество  вершин графа G, соответствующих периферийным атомам, должно быть разбито на подмножества  так, чтобы в  входили только вершины l-го фрагмента. Фронтальные многоугольники M(U) порождаются множествами , если l-й фрагмент является жёстким и U – максимальное относительно включения подмножество , удовлетворяющее определениям 3, 4. В остальном методология построения отпечатков и нахождения оптимальных наложений, сформулированная выше, остается прежней.

         Результатом поиска ОПН является таблица (матрица отнесений V), состоящая из N строк и K столбцов, где N – число исследуемых соединений, K – общее количество ЦА во всех мультиплетах. На пересечении j-й строки и k-го столбца матрицы содержится число проекций Vjk, отнесённых к k-му ЦА в наложениях j-й молекулы. Матрица отнесений служит основой для построения QSAR, но обычно используемый для этих целей метод наименьших квадратов неприменим к N´K матрицам при K>N. В таких случаях требуется снижение размерности пространства регрессоров путем нахождения в нём базиса малой размерности. Проекции многомерных векторов, характеризующих объекты наблюдения, на этот базис должны сохранять в себе основную долю информации, заключенной в первоначальном массиве данных. Нахождение координатных осей нового базиса (скрытых переменных) может выполняться методом главных компонент [222] или родственным ему методом парциальных наименьших квадратов (ПНК) [222, 223]. Последний находит широкое применение в различных областях как удобный способ построения математических моделей, лишенный отдельных недостатков пошагового регрессионного анализа [224].

         C помощью метода ПНК строятся линейные модели вида (10):

,                                                     (10)

где – вычисленная биологическая активность; – регрессионный коэффициент перед скрытой переменной Zh.

Выбор количества скрытых переменных H проводится, во-первых, по величине сохраняемой информации, рассчитываемой как доля дисперсии исходных координат, остающаяся в новом базисе. Во-вторых, для выбора H выполняется процедура скользящего контроля, т.е. поочередное отбрасывание одного соединения серии и предсказание его биологической активности по модели, построенной на основе остальных соединений. Таким образом, регрессионная модель (10) характеризуется среднеквадратичной неточностью Scv, получаемой при скользящем контроле, долей сохраняемой информации P, дисперсией адекватности S2 и множественным коэффициентом корреляции R. Вместо среднеквадратичного отклонения Scv для оценки качества прогноза активности при скользящем контроле в публикациях по QSAR применяют также величину  [207, 214, 225, 226]:

  ,                                                    (11)

где  – дисперсия значений биологической активности внутри исследуемой серии веществ.

         Важное достоинство метода ФМ связано с тем, что фрагменты могут быть «строительными блоками» новых лигандов и для химика ассоциируются с определёнными типами синтонов. Множество ОПН и коэффициенты ah позволяют оценить вклад каждого жёсткого фрагмента в возникновение биологического эффекта. Хотя регрессоры Zh не имеют ясного физического смысла, они являются линейными комбинациями (12) первоначальных регрессоров Xk:

 ,                                        (12)

 где bkh – коэффициент, отражающий вклад величины Xk в скрытую переменную Zh;  – среднее значение Xk для молекул серии.

Роль Xk играет количество отнесений к k-му ЦА, т.е. элемент соответствующего столбца матрицы V. Коэффициенты bkh определяются в методе ПНК наряду с остальными характеристиками линейных моделей и делают возможным переход от базиса скрытых переменных к первоначальному многомерному базису [222]. Тогда уравнение (10) приводится к виду (13), где коэффициенты Ak имеют однозначную интерпретацию и отражают степень влияния каждого ЦА на биологическую активность:

          .        (13)

Теперь вклад i-го ОПН j-го лиганда в сумму (13) можно выразить уравнением (14):

    ,                                              (14)

где n0i – количество отнесений в i-м ОПН; Nt – количество отнесений во всех ОПН j-го лиганда; xki – количество отнесений к k-му ЦА в i-м ОПН.

Суммируя wi по наложениям, построенным с участием l-го фрагмента j-го лиганда, получим вес этого фрагмента Wjl. Значения Wjl  обладают свойством аддитивности, т.е. выполняется условие:

.                                              (15)

Нахождение весов Wjl  представляет собой попытку разложить биологический эффект соединения на эффекты структурных единиц, образующих его молекулу. Такого рода инкременты весьма полезны для целенаправленного дизайна соединений с заданными свойствами.

 

К разделу 3.3

  

Рейтинг@Mail.ru