Главная -> Публикации ->

 

Саратиков А.С., Ахмеджанов Р.Р., Бакибаев А.А., Хлебников А.И.*, Новожеева Т.П., Быстрицкий Е.Л. Регуляторы ферментативных систем детоксикации среди азотсодержащих соединений. – Томск, 2002

 

К разделу 3.3

Г л а в а  4

КОНСТРУИРОВАНИЕ НОВЫХ СУБСТРАТОВ ЦИТОХРОМА Р-450

 

4.1. Алгоритм оптимального построения химических структур из молекулярных фрагментов

Основное содержание раздела опубликовано в работе:

Хлебников А.И.  Алгоритм оптимального построения химических структур из молекулярных фрагментов // Журн. структур. химии. - 1998. - Т. 39, № 4. - С. 698-707.

 

         Существует несколько современных подходов к дизайну новых соединений, обладающих желаемыми характеристиками (обычно биологическими или физико-химическими). Один из них основан на описании молекул топологическими индексами или их наборами с последующей генерацией химических структур, имеющих в определённом смысле оптимальные значения индексов [237, 238, 239]. Принципиальным ограничением применимости этого подхода является отсутствие взаимно однозначного соответствия между молекулярными графами (МГ) и их инвариантами, поэтому для дизайна новых соединений по результатам изучения взаимосвязи «структура – свойство» часто требуются дополнительные предположения о типе МГ [237]. Другой путь заключается в поиске подходящих химических структур среди молекул, зарегистрированных в обширных базах данных [240, 241, 242, 243, 244]. Поиск может осуществляться как по топологическим [240, 241], так и по трёхмерным признакам [242, 243, 244], причем результаты его существенно зависят от размеров и целевой ориентации базы данных. Если известно пространственное строение биологической мишени (рецептора), конструирование молекулы (лиганда), комплементарной рецептору, достигается путем оптимального построения МГ из отдельных атомов или фрагментов с использованием трёхмерной модели рецептора в качестве шаблона [245, 246, 247, 248, 249]. Однако в настоящее время известна пространственная структура лишь отдельных биологических мишеней, что затрудняет широкое применение этого подхода.

         При целенаправленном конструировании новых веществ наибольший интерес обычно представляют разнородные соединения, заметно отличающиеся по строению от известных веществ, обладающих заданным свойством. С другой стороны, молекулы, близкие по свойствам, часто содержат одинаковые структурные фрагменты. По-видимому, для близости свойств химических соединений фундаментальное значение имеет определённый порядок сочленения похожих фрагментов в их МГ, важный для процессов молекулярного распознавания. Исходя из вышесказанного, перспективен подход к созданию новых соединений по результатам изучения взаимосвязи «структура – свойство», основанный на оптимальном построении новых молекул из фрагментов, первоначально содержавшихся в известных соединениях с заданным свойством. Допустим, что мерой сходства фрагментов являются характеристики, близкие между собой для химически разнородных структур и важные с точки зрения молекулярного распознавания (например, липофильность и молярный объём [250]). Тогда, имея достаточно широкий набор фрагментов, можно сконструировать соединения, сходные по этим характеристикам, но разнообразные по химической природе. В целевых молекулах окружение каждого фрагмента должно быть близко к таковому в известных веществах, т.е. оптимизацию структуры следует проводить на локальном уровне. Нами разработан и апробирован соответствующий алгоритм конструирования [251].

Каждому из исследуемых соединений сопоставим молекулярный граф G. Множество атомов (вершин графа G) разобьем на L непересекающихся подмножеств, которые порождают в G подграфы фрагментов Gl (l=). Разбиение выполним таким образом, чтобы химическим связям, соединяющим атомы разных фрагментов, соответствовали некоторые ребра rlm, принадлежащие множеству мостов графа G [252]. Вершины, инцидентные ребрам rlm, и соответствующие им атомы будем называть граничными. При описании алгоритма конструирования можно принимать во внимание только множества Fl, состоящие из граничных вершин vli (i=) подграфов Gl, и мосты rlm, представив химическое соединение в виде гиперграфа H, ребрами которого являются Fl и rlm (подробнее о гиперграфах см. [252, 253]). Если граничный атом l-го фрагмента соединен одновременно с k соседними фрагментами, то пусть ему соответствуют k вершин ребра Fl, инцидентных одному мосту rlm каждая. Молекулярный гиперграф (МГГ) не содержит циклов, и все его вершины имеют степень 2 (см. пример на рисунке 58). Множество вершин VH и множество ребер EH гиперграфа H=(VH, EH) определяются следующим образом: , где RH есть (L–1)-элементное множество, состоящее из мостов rlm={vli,vmj}. Ребра Fl – образы подграфов Gl – для простоты тоже будем называть фрагментами.

Рис. 58. Представление химической структуры молекулярным гиперграфом на примере 3-метил-3-фенил-5-(2-хлорвинил)циклогексанона. Молекулярные фрагменты G1, G2, ..., G5 отображаются в множества F1, F2, ..., F5, которые вместе с мостами r12, r14, r15, r23 образуют множество ребер EH гиперграфа. Четвертичный атом углерода из фрагмента G1 имеет два заместителя (фрагменты G4 и G5). Этому атому соответствуют две вершины (v12 и v13) ребра F1.

 

         Рассмотрим последовательность функций dk(H(l)) (k=), ставящих в соответствие однореберному гиперграфу H(l)=(Fl,{Fl}) набор из K дескрипторов (свойств) l-го молекулярного фрагмента. Допустим, что каждое свойство является аддитивным, т.е. для любого подгиперграфа , содержащегося в H, выполняется условие (1):

                                   (1)

При этом дескрипторы ребер rlm принимаются равными нулю. Каждой вершине vli поставим в соответствие K действительных меток , где – не содержащая vli связная компонента гиперграфа, полученного из H удалением моста rlm, инцидентного vli. Например, для МГГ на рисунке 58 в состав  входят следующие множества ребер: EH¢11={F2, F3, r23}, EH¢13={F5}, EH¢31={F1, F2, F4, F5, r12, r14, r15} и т.д. Таким образом, метка gk(vli) представляет собой k-е свойство заместителя у одного из граничных атомов l-го фрагмента. Состав заместителя отражается подгиперграфом . Значения gk(vli) определяются один раз для фрагментов в составе исходных химических соединений и используются затем при вычислении критерия оптимальности (2) новых структур, получаемых из этих фрагментов.

,          (2)

где  – подгиперграфы, содержащиеся в новом гиперграфе H;

        wk – весовые коэффициенты дескрипторов.

Задача конструирования молекул сводится к построению гиперграфов H, имеющих невысокие значения S(H), из конечного набора ребер Ft (t=). В этом случае новые соединения окажутся близки к исходным в смысле окружения фрагментов. Кроме того, подобие свойств, описываемых функциями dk(H), будет иметь место и для молекул в целом ввиду аддитивности этих свойств.

         Соединяя фрагменты Fl мостами rlm, на промежуточных этапах решения мы получим «незавершенные» гиперграфы H с одной или несколькими висячими вершинами, не имеющими инцидентных ребер rlm. Множество таких вершин обозначим через A(H). Каждый цикл конструирования состоит в наращивании гиперграфа на один фрагмент с оптимальным присоединением его мостом к одной из висячих вершин. Поэтому необходимо обобщить критерий оптимальности S(H), сделав его применимым к незавершенным гиперграфам:

, (3)

где  – подмножество висячих вершин из H, вошедших в . Появление дополнительной суммы в выражении (3) имеет следующий смысл: при оптимальном завершении конструирования к подгиперграфу  будут добавлены фрагменты так, что его дескриптор dk возрастет приблизительно на . В дальнейшем функция S(H) используется в виде (3), т.к. для МГГ (завершенных гиперграфов) A(H)=Æ, и критерий оптимальности приводится к частному случаю (2).

         Минимумы S(H)=0 достигаются на МГГ соединений исходного набора, следовательно, нетривиальные решения по дизайну новых молекул можно получить, введя положительный параметр d в качестве нижнего предела критерия оптимальности:

S(H) ³ d .                                         (4)

Однако в этом случае могут быть получены хотя и менее тривиальные, но малоинтересные решения, представляющие собой, например, результат внедрения двухвершинного фрагмента Fu между двумя фрагментами некоторой исходной молекулы. Если величины ½dk(H(u))½ достаточно малы, и d не слишком велико, то обеспечиваются одновременно малость S(H) и выполнимость условия (4). Для преодоления проблемы тривиальности наряду с увеличением количества фрагментов T можно предложить следующие способы. А) Ограничить максимальное количество фрагментов C(H), вошедших в гиперграф H из одной и той же молекулы, некоторым параметром Cmax :

C(H) £ Cmax .                                    (5)

Б) В каждом цикле конструирования выбирать величину d случайно из диапазона [0,dmax]. Тогда низкие требования к оптимальности незавершенных гиперграфов в одних циклах компенсируются более высокими требованиями – в других, что приведет к довольно разнообразному набору целевых молекул.

         В приводимом ниже алгоритме оба способа используются совместно, причем вероятностный характер конструирования в способе Б позволяет путем многократного применения алгоритма к исходному набору фрагментов получать различные множества химических структур.

         В качестве параметра целесообразно также задать максимальное количество фрагментов в целевой молекуле. Предположим, что на некотором цикле конструирования выполняется добавление ребра Fu к незавершенному гиперграфу H. Новый гиперграф, содержащий a=½EH\RH½+1 фрагментов, имеет  висячих вершин. Очевидно, что МГГ после завершения конструирования будет содержать не менее (a+b) ребер Fl. Поэтому ограничение на максимальное количество фрагментов выражается неравенством (6), выполнимость которого следует проверять перед добавлением очередного ребра Fu.

 ,            (6)

где Lmax – параметр.

Заметим, что выбор Cmax³Lmax позволяет снять ограничение (5) и не применять способ А для решения проблемы тривиальности.

         Поскольку все вершины МГГ помечены, и подграфы фрагментов Gl известны, полученная в результате конструирования последовательность молекулярных гиперграфов (Mn) однозначно отображается в последовательность химических структур, среди которых могут быть одинаковые. Введем отношение эквивалентности r, такое, что MirMj, если гиперграфы Mi и Mj отображаются в идентичные химические структуры. Задача об установлении изоморфности графов не имеет эффективных алгоритмов решения [252], поэтому r должно быть определено в терминах инвариантов МГ. Отношение r предполагается известным перед применением алгоритма и используется в нем для исключения одинаковых соединений из набора получаемых структур.

         Входными данными для алгоритма служат последовательность фрагментов (Ft) (t=) вместе с метками ребер dk(H(t)) и вершин gk(vti) (i=), весовые коэффициенты wk (k=), параметры dmax, Cmax, Lmax. На выходе формируется последовательность гиперграфов (Mn) (n=).

         Алгоритм оптимального конструирования молекул.

         Шаг 1. N:=0; t:=0.

         Шаг 2. t:=t+1. Если t>T, то перейдем к шагу 9. Иначе H:=H(t).

         Шаг 3. Если A(H)=Æ, то N:=N+1, MN:=H, перейдем к шагу 2. Иначе P:=A(H), s:=¥, Y:=(Æ,Æ), d:=hdmax, где 0£h£1 – равномерно распределенная случайная величина.

         Шаг 4. Если P=Æ, то H:=Y, перейдем к шагу 3. Иначе выберем любую вершину vÎP. P:=P\{v}, u:=0.

         Шаг 5. u:=u+1. Если u>T, то перейдем к шагу 4.

         Шаг 6. Если , то перейдем к шагу 5. Иначе i:=0.

         Шаг 7. i:=i+1. Если i>Vu, то перейдем к шагу 5. Иначе получим из H и H(u) гиперграф , соединив мостом вершины v и vui.

         Шаг 8. Если d£S(H)<s и C()£Cmax, то s:=S(), Y:=. Перейдем к шагу 7.

         Шаг 9. Для всех j£N, k£N, j¹k удалим из последовательности (Mn) гиперграфы Mj, если Mj=(Æ,Æ) или MjrMk и S(Mj)>S(Mk). Положим N равным количеству молекулярных гиперграфов в сформированной последовательности (Mn). Конец.

         Поочередное присоединение к висячим вершинам vÎA(H) незавершенного гиперграфа H каждого из имеющихся в распоряжении фрагментов всеми возможными способами дает промежуточные гиперграфы , один из которых (Y) является наиболее оптимальным с учетом неравенств (4), (5), (6) и выбирается в качестве начального для следующего цикла конструирования (шаги 3–8). По достижении условия A(H)=Æ на шаге 3 очередной МГГ добавляется к последовательности (Mn). Затем циклы конструирования повторяются, начиная с другого гиперграфа H(t). Для присоединения к H одного фрагмента в алгоритме генерируется не более  гиперграфов . При построении L-фрагментного МГГ их число не превышает , где  – средняя величина Q по гиперграфам H. Возможные значения L и ½A(H)½ ограничены сверху неравенством (6), а средняя мощность множеств Fu для различных наборов исходных фрагментов остается приблизительно постоянной. Поэтому трудоемкость вычисления S(H) по уравнению (3) на шаге 8 равна O(K), и конструирование одного МГГ осуществляется за время O(KT). Учитывая, что последовательность (Mn) на выходе содержит порядка T молекулярных гиперграфов, трудоемкость алгоритма можно оценить как O(KT2).

         В программе для ЭВМ, реализующей описанный выше алгоритм, параметр dmax выражается через средневзвешенную дисперсию D меток вершин gk(vti):

 ,                             (7)

где  – среднее значение gk(vti) по всем вершинам в МГГ исходных соединений;

        p – масштабный коэффициент.

Оптимальность pn получаемых гиперграфов Mn также определяется относительно D:

  .                                        (8)

Эквивалентность МГГ устанавливается путем расчёта топологических индексов Il (для подграфов Gl) и Jn (для гиперграфов Mn) по уравнениям (9), (10).

 ,                                      (9)

где distij – кратчайшее расстояние между вершинами vi и vj в Gl;

       zi, zj – заряды ядер атомов-прообразов вершин vi и vj;

       deg(vi), deg(vj) – степени вершин МГ.

Суммирование в выражении (9) проводится по парам вершин подграфа Gl (т.е по всем парам атомов, содержащихся в l-м молекулярном фрагменте).

 ,                                      (10)

где DISTlm – количество мостов r на кратчайшем пути между вершиной из Fl и вершиной из Fm в гиперграфе Mn. Например, в молекуле, изображённой на рисунке 58, для пары фрагментов G1, G3 это количество равно двум и включает мосты r12 и r23 соответствующего МГГ.

Отношение эквивалентности r задано в виде (11).

 ,                          (11)

где e – параметр, принятый равным 10–6.

 

К разделу 4.2

  

Рейтинг@Mail.ru