Поглиблене розуміння механізмів регуляції генної активності одна з головних цілей сучасної системної біології розвитку. У цій публікації ми розвиваємо підхід до моделювання динаміки генів, орієнтований на включення в модель різноманітної біологічної інформації про гені в явному вигляді. Ми образно формулюємо його як підхід, заснований на перекладі відомостей з мови експериментаторів на мови підходів до моделювання. Такий підхід є розвиток методів, відомих як інформаційно-лінгвістичне моделювання гена взагалі і нечіткі моделі генної активності зокрема. Він дозволяє формулювати прості правила генної Регуляторика на підставі всього різноманіття доступних експериментальних даних. Правила мають структуру «Якщо ... то ...» і складають базу знань, що враховує ефекти всіх відомих регуляторів даного гена. Підхід дозволяє враховувати критично важливу ієрархічність систем і механізмів регуляції генів. Підхід ілюструється завданнями з аналізу та моделювання конкретних генно-регуляторних елементів (енхансером) найбільш вивчених генів в ембріогенезі плодової мушки дрозофіли.

Анотація наукової статті з математики, автор наукової роботи - Спіров Олександр Володимирович, Мясникова Катерина Марківна


Language perspective on gene regulation: Translation from the language of experiments to the language of analytical models

An in-depth understanding of the mechanisms of the gene activity regulation is one of the main goals of modern systems developmental biology. In this publication, we develop an approach to modeling gene dynamics, focused on the implicit inclusion in the model of a variety of biological information about the gene. We figuratively formulate it as an approach based on the translation of information from the language of experimenters into the languages ​​of modeling approaches. This approach is the development of techniques known as information-linguistic modeling of the gene activity in general and fuzzy models of gene activity in particular. It allows us to formulate simple rules of gene regulation based on the variety of available experimental data. The rules have the structure «If ... than ...» and make up a knowledge base that takes into account the effects of all known regulators of a given gene. The approach allows to take into account the critical hierarchy of systems and mechanisms of gene regulation. The approach is illustrated by the tasks of analysis and modeling of specific gene-regulatory elements (enhancers) of the most studied genes in the embryogenesis of fruit fly Drosophila.


Область наук:
  • Математика
  • Рік видавництва: 2019
    Журнал
    МЕТОД: Московський щорічник праць з суспільствознавчих дисциплін
    Наукова стаття на тему 'ЛІНГВІСТИЧНЕ МОДЕЛЮВАННЯ РЕГУЛЮВАННЯ ГЕНОВ: ПЕРЕКЛАД З МОВИ ЕКСПЕРИМЕНТІВ НА МОВУ МОДЕЛЮВАННЯ'

    Текст наукової роботи на тему «ЛІНГВІСТИЧНЕ МОДЕЛЮВАННЯ РЕГУЛЮВАННЯ ГЕНОВ: ПЕРЕКЛАД З МОВИ ЕКСПЕРИМЕНТІВ НА МОВУ МОДЕЛЮВАННЯ»

    ?А.В. Спіров, Е.М. Мясникова

    ЛІНГВІСТИЧНЕ МОДЕЛЮВАННЯ РЕГУЛЮВАННЯ ГЕНОВ: ПЕРЕКЛАД З МОВИ ЕКСПЕРИМЕНТІВ НА МОВУ МОДЕЛІРОВАНІЯ1

    1. Введення

    Розуміння генної регуляції в цілому і поведінки генних регуляторних-раторних мереж (ГРМ) зокрема - основна мета сучасної системної біології. Системна біологія для цього застосовує підхід, заснований на даних (data-driven approach), в якому наявні дані використовуються для розробки моделі, а потім висновки, отримані шляхом комп'ютерних тестів, перевіряються нові експерименти, і ці нові результати використовуються для поліпшення моделі [Data- and knowledge ..., 2015].

    В даний час кілька різних підходів переважно використовуються для вивчення роботи гена за допомогою моделювання [de Jong, 2002]. У цій статті ми зосередимося на проблемах моделювання в системної біології на прикладі ГРС-сегментації ембріона дрозофіли як однієї з найбільш розвинених областей сучасної обчислювальної біології.

    В області вивчення патернів ембріона дрозофіли найбільш популярними підходами є нейромережеве (коннекціонное) і термодинамічне моделювання [Jaeger, Manu, Reinitz, 2012; Systematic Ensemble, 2015]. Коннекціоністскіе моделі (або моделі генних схем) відносяться до класу «огрублених» підходів, тоді як термодинамічне моделювання можна розглядати як найбільш детальний рівень моделювання [Spirov, Holloway, 2015].

    Коннекціоністскіе моделі розглядають як простий одношаровий перцептрон (штучні нейронні мережі). Підхід заснований на матриці міжгенних регуляторних взаємодій (gene-gene action)

    1 Дослідження виконано за рахунок гранту Російського наукового фонду (проект № 17-18-01536).

    233

    [Jaeger, Manu, Reinitz, 2012; Spirov, Holloway, 2015]. Зазвичай в цьому підході використовуються тільки самі загальні відомості про генетично ансамблі, поведінка якого планується моделювати.

    Термодинамічне моделювання засноване на експериментальних або біо-інформаційних знаннях про організацію регуляторних областей або енхансером (див рис. 1) цис-регуляторних модулів (CRM) даного гена [de Jong, 2002; Systematic Ensemble ..., 2015; Quantitative ..., 2006]. Це кількісне моделювання для прогнозування експресії генів виходячи з їх нуклеотидної послідовності, і воно засноване на підходах статистичної термодинаміки.

    Підходи нечіткої логіки. Нечітка логіка, як фундаментальна складова нечіткого методу, являє собою комбінацію різних математичних принципів подання знань про досліджуваному явищі в нечіткому, небінарном вигляді (на відміну від Булева підходу). Метод нечіткої логіки складається з ряду процедур, які використовуються для зіставлення певного вхідного і йому відповідного вихідного сигналу (процес, званий нечітким висновком). Двома найбільш відомими методами виведення є ті, які були пов'язані з іменами Mamdani і Tagaki-Sugeno [Mamdani, Assilian, 1975; Sugeno, 1985]. Ці моделі залежать від використання простого мови правил «if-then» (якщо - в такому випадку), що описує відповідь системи як функції декількох лінгвістичних змінних.

    Лінгвістичні або «природні мови» опису процесів, що спостерігаються можуть бути легко переформуліровани в пропозиції «if-then», які відображають поведінку системи, без необхідності використовувати математичні функції. Як правило, такі описи знань на основі «природної мови» явно або побічно належать до якихось дискретним (а не безперервним, речовим) описами об'єктів (наприклад, низькі, середні і високі концентрації речовин).

    Таким чином, представляється досить перспективною розробка комп'ютерного підходу, що дозволяє пряме перетворення якісних знань і описів в створювану робочу модель. Таким чином, першим кроком є ​​знаходження відповідного математичного представлення дискретних, неточних природних мовних термінів, які описують стану об'єктів. Другий крок - знаходження математичного представлення функцій, яке дозволить прямо об'єднати якісні знання на основі природної мови, що полегшить інтерпретацію функціональності.

    Моделювання ГРС за допомогою методу нечіткої логіки на рівні грубої деталізації. Поведінка біологічних систем - за своєю природою нечітке. Незважаючи на те що нові високопродуктивні технології надають біологам величезна кількість цінних даних, необхідні методи, які включають в моделювання похибка (неточність, мінливість), дозволяючи мати справу з багатьма гена-

    234

    ми з нез'ясованої функцією і з зашумленими експериментальними даними. Для отримання біологічно значущих результатів інформація повинна об'єднуватися з різних джерел для конструювання моделей генних мереж. Такі нечіткі експертні знання включають бази даних про гени і їх продуктах, а також інформацію про взаємодії, які відбуваються між генами.

    Логічне моделювання ГРС на детальному рівні. Логічні гейти (logic gates), які використовують більше одного входу, вже давно застосовуються для опису складних інтерактивних взаємодій між транскрипційними факторами (далі: трансфакторамі), специфічно зв'язуються зі своїми сайтами на генно-регуляторному елементі (як на рис. 1) [см. , напр .: Ben-Tabou de-Leon, Davidson, 2009 року; An integrative method ... 2017]. Регуляторна функція, якій описуються цис-регуляторні взаємодії між трансфакторамі, пов'язаними зі своїми сайтами і керуючими експресією їх гена-мішені, може бути представлена ​​у вигляді булевих логік.

    У цьому дослідженні ми представляємо нечітку методологію інтеграції даних експресії генів і інформації про зв'язуванні транскрипційних факторів з ДНК для розшифровки логіки регуляції активності гена транскрипційними факторами. Такий підхід може кількісно охарактеризувати логіку взаємодії між транскрипційними факторами, об'єднуючи регуляторні логіки і кінетику транскрипції в одній моделі. Отримані логіки регуляцій можуть потім використовуватися для встановлення функціональної організації ГРС.

    Мал. 1.

    Функціональна організація типового енхансера під контролем активатора-морфогена бікоід (Вко1 ^ ВСФ. Набір декількох сайтів зв'язування активаторів (В88), включаючи сайти для Нд ^

    в поєднанні з численними сусідніми або навіть перекриваються сайтами зв'язування репрессоров

    235

    У попередні кілька років опубліковані серії робіт, що імплементують моделі нечіткої логіки - fuzzy logic modeling, FLM (переважно гібридні підходи) на рівні грубого моделювання ГРС [Lee, Leu, Yang, 2012; Fuzzy Logic ..., 2015; Wang, Li, WLim, 2016 року; A time series ... 2017; Wu, Liu 2017]. Разом з тим в системної біології тривають розробки моделей детального рівня, що включають формулювання генно-регуляторної логіки (з метою розшифрувати логіку дії трансфакторов на генно-регуляторні елементи при контролі транскрипції) [Ben-Tabou de-Leon, Davidson 2009 року; An integrative method. 2017]. Ключове спостереження тут - це те, що кожному трансфактору відповідає на регуляторному елементі його специфічний сайт зв'язування. Паралельно тривають роботи по з'ясуванню правил організації сайтів зв'язування в функціональні генно-регуляторні модулі [The words of ..., 2008; Modeling., 2008; Gertz, Siggia, Cohen, 2009 року; Li, Wunderlich 2017; Yanez-Cuna, Kvon, Stark, 2013]. Це можна назвати граматичними правилами для енхансера або граматикою цис-регуляторного модуля [The words of., 2008; Modeling., 2008; Simple., 2015]. Це спосіб переформулювати експериментальні висновки, виражені на мові експериментаторів, для мови, яка використовується для розробки моделей. У свою чергу, область граматики генно-регуляторних елементів природно віднести до більш загальної області проблем на стику молекулярної біології і лінгвістики [Золян, Жданов, 2018; Zolyan, Zhdanov, 2018].

    Всі ці уявлення спонукають дослідників розглядати інші підходи до моделювання поведінки ген-регуляторної мережі (за допомогою зворотної інженерії) - орієнтовані на пряме включення всіх доступних емпіричних даних. Ми вважаємо, що найкращим способом побудови таких моделей є подальший розвиток сімейства різноманітних підходів, зазвичай званих нечітким лінгвістичним моделюванням [de Jong, 2002]. Це, зокрема, підходи, які використовують конструкції «якщо ...»; "в такому випадку..."; «Ще ...» для словесного опису різноманітних взаємовідносин між регульованими вхідними сигналами і шляхами їх інтеграції у вихідні регуляторні сигнали. Це дозволяє нам сформулювати за допомогою простих правил відомі деталі різноманітної і ієрархічної регуляторної організації генів.

    Незважаючи на відносну розвиненість ряду напрямків моделей нечіткої логіки на рівні грубого моделювання, спроби розвинути підходи нечіткого моделювання на рівні детального (fine-grained) опису - ще в самому зародковому стані (Cf. [Genetic Expression. 2017]). У цій статті ми пропонуємо нашу версію нечітких моделей на рівні детального моделювання. Ми з'єднуємо підходи нечіткого моделювання з підходами, що виходять із визначення правил граматики цис-регуляторних елементів (CRM grammar), і підходами до нахожд-

    236

    нию логік генної регуляції транскрипційними факторами (gene-regulatory logic inferring) (див. рис. 1).

    У цій статті ми проілюструємо наш підхід на тестовому прикладі одного з найбільш вивчених родин генно-регуляторних елементів -контроліруемих трансфактором-бікоідом енхансером [Papatsenko, Goltsev, Levine 2009]. Транскрипційні фактор Bicoid (Bcd) є ключовим прикладом одного з найбільш вивчених Морфогенія в біології розвитку [Formation ... 2009]. Він служить експериментальною моделлю для вивчення багатьох інших цис-регуляторних модулів в біології розвитку і в evo-devo, в більш загальному плані. Наша головна мета тут - сформулювати експериментальні правила регулювання енхансера з точки зору лінгвістичних конструкцій (правил). Ці правила можуть бути використані для розробки повномасштабного нечіткого лінгвістичного моделювання для реалізації моделей ген-регуляторних мереж на рівні детального опису і з високою прогностичної сили.

    2. Основні підходи до моделювання регуляції генів

    2.1. Коннекціоністскіе моделі (моделірованіерегуляціі генів штучними нейронними мережами)

    Коннекціоністскіе моделі трактують ГРС як нейронну мережу (генні «нейронні мережі»). Підхід імплементує ГРС системою диференціальних рівнянь (рівняння реакції-дифузії, Reaction-Diffusion equations), по одному рівнянню для швидкості активності кожного гена; при цьому члени реакції засновані на матриці міжгенних регуляторних взаємодій (gene-gene action) [Jaeger, Manu, Reinitz, 2012; Spirov, Holloway, 2015]. Метод неявно заснований на очікуванні того, що добре навчений перцептрон буде відповідати досліджуваної функціональної структурі ГРС. Так що після процедури успішного навчання (зворотний інжиніринг) коннекціоністская мережу перцептрону буде схожою з такими реальних генних мереж [Gibson, Mjolsness, 2001]. Ці очікування дуже старі, і такі моделі гарні для моделювання поведінки ГРС в нормі, але подібне моделювання не підходить для того, щоб передбачити наслідки мутацій, збурень або шуму (низька прогностична сила [Myasnikova, Spirov, 2018]).

    Динамічні моделі, засновані на матриці генних взаємодій, - це найбільш широко представлені підходи в області моделювання, що розглядається в даній статті. При цьому підході передбачається, що будь-який даний ген може активувати або репресувати будь-який інший ген з мережі, включаючи авторегуляции (білок, який кодується геном, здатний активувати або репресувати свій ген). Коли така стратегія використовується в рамках зворотної інженерії (виявлення функціональних-

    237

    ної організації регуляторних зв'язків ГРС Фиттинга моделі до експериментальних даних про генну експресії), то найзагальніші очікування і виправдання вибору підходу - такі. Ідеологічно такі моделі можна віднести до класу моделей одношарових нейронних мереж, відомих своєю універсальністю та малої залежністю від конкретики деталей об'єкта, що моделюється (рис. 2).

    Input layer

    Output. ' layer v_y

    Input layer

    Hidden layer

    Output layer

    Мал. 2.

    Прості архітектури штучних нейронних мереж, які використовуються для моделювання динаміки генних регуляторних мереж (коннекціоністскіе моделі). (A) Однослойная штучна

    нейронна мережа прямий (feed-forward) зв'язку. Вхідні сигнали з вагами надходять на нейронний шар (output layer), що генерує відповідь. (B) Більш складна архітектура, коли мережа має внутрішній

    «Прихований» шар (hidden layer). Загальна ідея моделювання полягає в тому, що вхідні сигнали - це зовнішні для генів регуляторні імпульси, які інтерпретуються мережею рішень про відгук на активність генів (активний ген і в якій мірі)

    Автори, одними з перших запропонували використовувати коннекціоністскіе моделі (або моделі gene circuit), виходили з простої моделі динаміки нейронної мережі, запропонованої свого часу НорйеИом [Hopfield, 1984]. Як очікувалося авторами, які почали активно застосовувати і розвивати це моделювання, хоча модель не несе ніякої специфіки саме механізмів регуляції генної активності, після задовільного Фиттинга вона буде коректно відображати напрямки і силу регуляторних зв'язків в ГРС. Ці результати моделі резонно зіставити з експериментальними даними, а ще краще виконати спеціальні експерименти по верифікації висновків моделі.

    238

    Цей підхід в додатку до генам сегментації класів gap і pair-rule використовувався в парадигмі зворотної інженерії з початку 90-х років минулого століття, і роботи, присвячені цьому напрямку, публікуються донині. Такі моделі в результаті добре моделюють дикий тип, до якого Фиттинга і проводився. Однак вони або зовсім не здатні прогнозувати мутантні фенотип (як всі моделі 90-х - середини 2000-х років) або можуть прогнозувати тільки окремі мутантні фенотип (після використання спеціальних методичних прийомів).

    Розширенням простий коннекціоністской моделі, запропонованої Мьелснесом ще в кінці 1980-х років [Gibson, Mjolsness, 2001], була б модель нейронної мережі з прихованим внутрішнім шаром (як на рис. 2 праворуч). Відзначимо, що відомі нам спроби застосування такої моделі до мережі генів gap виявилися малоефективними [Jaeger, Sharp, Reinitz, 2007].

    Ми вважаємо, що нездатність коннекціоністскіх моделей прогнозувати мутації та інші відхилення від дикого типу обумовлені тим, що в модель практично не привноситься ніяка інформація про відому специфіку регуляцій генів в модельованих мережах. Спочатку не зумовлювалися навіть добре вивчені регуляторні зв'язку і все могло вибиратися в моделі без обмежень. І тільки явна невідповідність хороших рішень після Фиттинга відомим реаліям змусило обмежувати за дією (або активація, або репресія) хоча б деякі регуляторні зв'язку. Ми вважаємо, що модель природно повинна включати відомі факти і прогнозувати невідомі. Тоді більш імовірно, що вона буде після Фиттинга давати реалістичні прогнози.

    2.2. Термодинамічні моделі кластерів сайтів зв'язування транскрипційних факторів

    Термодинамічні моделі включають в явному вигляді дані про організацію регуляторних областей даного гена на рівні нуклеотиднихпослідовностей [de Jong, 2002; Systematic Ensemble., 2015; Quantitative., 2006]. (Схематично функціональна організація регуляторної-торного елемента наведена на рис. 1; пор .: також: рис. 10). У цьому підході статистична термодинаміка забезпечує природну основу для опису регуляції генів шляхом моделювання специфічного зв'язування сайтів на ДНК транскрипційними факторами в рівноважних умовах [Buchler, Gerland, Hwa, 2003].

    На відміну від моделей, ідеологічно висхідних до перцептроном, цей підхід справляє враження своєю детальністю і прив'язкою до біоінформаційних і експериментальними даними по локалізації, силі і ролі (якщо вона відома) багатьох сайтів зв'язування транскрипційних факторів. Однак істотна методична проблема тут залишається, по суті, тієї ж, що і з коннекціоністскімі моделями. цей підхід

    239

    передбачає адитивний внесок пов'язаних зі своїми сайтами активують факторів. Так що коактівація, кооперативна активація, включаючи кооперативну активацію різних активаторів, гомо- і гетеро- димеризація активаторів - все це в моделі ігнорується. Репресивна дія факторів моделюється простою моделлю локального «гасіння» (quenching), так що все більш складні механізми репресії, різноманіття яких не менше, ніж в разі активації, в моделі ігноруються (див .: [Systematic Ensemble., 2015; Quantitative., 2006 ]).

    До ще більш загальним проблемам таких моделей слід віднести ігнорування в цьому підході інтегруючих функцій транскрипційного комплексу.

    2.3. Інформаційно-лінгвістичне моделювання регуляції генів

    2.3.1. Логічне моделювання генної активності

    На відміну від моделей динаміки генної активності, побудованих в рамках загального формалізму математичної фізики та хімічної кінетики, логічні моделі були націлені на спрощені (найчастіше сверхупрощенние) підходи до моделювання, які включають мінімальні знання про модельованих генах і їх мережах (див .: [de Jong, 2002]). Ген при цьому розглядався тільки в двох дискретних станах: активному і неактивному. Цей підхід в загальному характеризується булевої логікою.

    Формалізм кінетичної логіки, запропонований Томасом з співавторами [Thomas, D'Ari, 1990; Thomas, Thieffry, Kaufman, 1995], більш складний у порівнянні з формалізмом булевої логіки активності генів і демонструє більшу передбачувану силу. Стан гена все ще вважається дискретним, але замість того щоб описувати кожен ген в режим «Не експресується» або «експресується», як в булевої моделі, цей формалізм розглядає рівні 0, 1, 2, 3 і т.д., які можуть відповідати варіантів «немає експресії», «експресія низького рівня», «середній рівень експресії» і «висока експресія». Різні гени можуть мати різну дискретизацію - один може мати тільки стану 0 і 1, а інший - кілька проміжних рівнів. Правила зміни станів можуть бути досить складні, так що ми можемо прописати бажане наступний стан для кожного можливого поточного стану. Однак фактичне наступний стан - це не обов'язково бажане наступний стан, і потрібно спочатку застосувати два обмеження: континуальность і несинхронно. Континуальність каже, що якщо поточний стан гена дорівнює 0, а бажане наступний стан дорівнює 3, то його фактичне наступний стан буде 1, тобто робиться крок за кроком до кінцевої мети. Біологічно це означає, що ген, який «не експресується», буде «експресуватися на низькому

    240

    рівні », перш ніж стане« повністю експресуватися ». Асинхронні-ність означає, що наступний стан знаходиться таким чином, що на кожному кроці дозволяється змінити стан тільки одному гену. Це -отлічіе від логічних моделей мережі, де все гени змінюють свої статки одночасно (синхронно). Для даного стану можливо кілька наступних станів, кожне з яких відрізняється тим даним геном, який змінює свій стан.

    2.3.2. Лінгвістичне моделювання генної активності

    У цій публікації ми пропонуємо розглядати молекулярні процеси і механізми, залучені в регуляції активності генів в їх інформаційних аспектах і з позицій процесів передачі інформації. Регуляції активності генів визначають, які конкретно гени, в який час, в будь ембріональних клітинах і пластах, як інтенсивно і як довго будуть активні. Істотно також те, що ці процеси розгортаються не тільки в часі (по стадіях розвитку ембріона), але і в просторі (спочатку в зиготі і ранньому ембріоні, далі в усі більш відокремлюються ембріональних закладках, часто визначаються як морфогенетичні поля). Можна сказати, що в організмі, що розвивається генеруються інструкції контролю активності і кожного конкретного гена, і генних ансамблів. Події та механізми контролю генних ансамблів мають безпосереднє відношення до функціональної архітектурі генних мереж. Істотна інформаційна складова цих процесів закодована в регуляторних областях генів. В якості базового елементу регуляторних областей резонно розглядати специфічні сайти впізнавання і зв'язування: це відносно короткі послідовності ДНК, впізнавані білками, які беруть участь в контролі активності генів. Біологи їх часто називають мотивами, а ми будемо називати словами-мотивами, щоб підкреслити лінгвістичні аналогії. Крім білків, здатних дізнаватися на ДНК мотиви (перш за все, це білки-трансфактори), в генній регуляції беруть участь інші білки, здатні, зокрема, взаємодіяти з трансфакторамі. Ці білки (зокрема білки-адаптори) визначають те, як саме будуть інтерпретуватися регуляторними механізмами знайдені транскрипційними факторами мотиви. Виходячи з лінгвістичних аналогій - це те, що розуміється як контекст. Всі ці аспекти генної Регуляторика ми тут будемо досліджувати на конкретному модельному об'єкті. Це активність генних ансамблів сегментації ембріона дрозофіли.

    Спроби використовувати лінгвістичний підхід у застосуванні до аналізу генетичних текстів, передбачення структури генома і окремого гена, виявлення філогенетичних зв'язків між текстами (еволюційний аналіз) робилися і раніше. Ще в 80-і роки висловлюючи-

    241

    лись припущення про структурний подібність генетичних текстів з людською мовою [Doerfler, 1982; Brendel, Busse, 1984; Brendel, 1986], а в 1990-х - початку 2000-х роботи в цьому напрямі вже вів дуже широко [Dong, Searls, 1994; Searls, 1997; Pesole, Attimonelli, Saccone, 1994; Linguistic features., 1994; Popov, Segal, Trifonov, 1996; Ji, 1997; Searls, 1997; Searls, 2002; Searls, 2003; Bolshoy, 2003; Werner, 2005; Sakakibara, 2005; Angel Lopez Garcia, 2005]. До теперішнього часу розуміння генетичних механізмів розвитку і еволюції організмів незрівнянно зросла і область застосування методів лінгвістики змістилася від простого аналізу текстів в сторону вивчення функціональності специфічних мотивів ДНК і їх ролі в розвитку і еволюції, а також властивостей і структури білкових послідовностей [Dyrka, Nebel 2009 ; Searls, 2013; Searching., 2012; Topics., 2016 року; Gimona, 2006].

    Що таке слова, літери, фрази мови генного регулювання на біохімічному рівні? Букви - це підстави (А, Т, Г, Ц). Слова - сайти зв'язування / сайти впізнавання на ДНК (короткі послідовності, типу AGTTAATACC) для білків, їх дізнаються (за принципом комплемен-тарності, тобто принципом «замок - ключ»). Ми для зручності читачів будемо далі ці сайти зв'язування трансфакторов називати «словами-мотивами». Ці слова-мотиви складають блоки (кластери) в регуляторних областях генів (пор .: рис. 10). Наймасовіший і самий вивчений випадок таких кластерів - це промоутер (або, більш широко, - промотерная область; рис. 3). Нагадаємо, що ген складається з кодує частини (де записана послідовність амінокислот, що кодуються даними білком), і регуляторної частини, яка забезпечує контроль активності гена.

    Інший величезний і найрізноманітніших клас кластерів слів-мотивів - це енхансери (рис. 1; пор .: рис. 10). Вони відомі в біологічній літературі під багатьма іменами, часто майже синонімічними. Енхансери активують ген або підсилюють рівень його активності в результаті специфічного зв'язування слів-мотивів їх трансфакторамі. В останні десятиліття такі кластери мотивів в найзагальнішому вигляді називають цис-регуляторним модулями. Ми ж в цій статті будемо для зручності використовувати термін «енхансер».

    Промоутер і енхансери включають в свій склад слова-мотиви відповідно до певних правил. Ці правила нерідко називають граматичними правилами [The words., 2008; Modeling., 2008; Simple., 2015]. Такі набори правил визначають для найбільш вивчених випадків конкретних груп промотеров і конкретних груп енхансером, які саме слова-мотиви, в якій послідовності, в якому порядку типово входять до складу промотеров або енхансера. Так що можна описати такі генно-регуляторні елементи, як «пропозиції» (якщо ми шукаємо аналогії з лінгвістикою).

    У разі промотеров транскрипційні фактори знаходять і зв'язуються зі своїми сайтами. Далі пов'язаний транскрипційні фактор

    242

    вступає у взаємодію з РНК-полімеразної комплексом. У наших «нотациях» промоутер - це початок будь-якої фрази нашого регуляторного мови. Фраза читається РНК-полімеразної комплексом (пор .: рис. 3). За змістом фрази зі слів комплекс приймає рішення про те, бути чи готовим до синтезу РНК і з якою ефективністю її синтезувати.

    Мал. 3.

    Загальна ідея РНК-полимеразного комплексу, специфічно пов'язаного з промотеров, з одного боку, і з енхансером - з іншого. Полімеразної комплекс - це молекулярна машина, інтегруюча всі вхідні регуляторні імпульси і «приймаюча рішення» про відповідному тим імпульсам рівні генної активності (рівні синтезу матричної РНК)

    Пропозиції - послідовності сайтів зв'язування, розділені пробілами з незначущих послідовностей, іноді необхідної довжини (граматика частково задає сусідства слів: сайти кооперативних активаторів - поруч, сайт репрессора - поруч або перекривається сайтом активатора; і ще деякі правила). З позицій регуляторного мови кожен

    243

    ген зі своїми промотеров і регуляторними областями становить пропозицію. У складних випадках, напевно, правильніше сказати, що складається невеликий параграф з декількох пропозицій або складне речення - коли у гена багато автономних генно-регуляторних елементів (енхансером), кілька промотеров (а то і дифузні регуляторні елементи та дифузні промотеров).

    Полімеразної комплекс читає і інтерпретує пропозиції регуляторного мови. Слово-мотив - це слово для РНК-полимеразного комплексу. Важливо розуміти, що слово - сайт репрессора, наприклад, по-лімеразний комплекс прочитає, тільки якщо до нього приєднався специфічний (до цього слова) транскрипційні фактор. РНК-полімеразної комплекс складається з небагатьох субодиниць для власне синтезу РНК, небагатьох субодиниць для впізнавання слів промотеров і багатьох і дуже багатьох білків, включаючи транскрипційні фактори, які приєднуються до полімеразної комплексу, якщо вони є в ядрі і якщо у фразі є їх слова.

    Об'єктом нашої уваги тут буде РНК-полімеразної комплекс еукаріот. Нас буде цікавити, як цей комплекс читає інструкції регуляторних областей його гена в залежності від контексту протеїнових регуляторних мереж і міжклітинної сигналінгу.

    РНК-полімеразної комплекс, пов'язаний і з промотеров, і з енхан-сірому, ми розуміємо як аналоговий девайс (рис. 3, порівн. Рис. 8). Він приймає рішення про те, ініціювати чи ні процес трансляції, і якщо так, то з якою ефективністю.

    Цей аналоговий девайс ініціює транскрипцію, інтегруючи вхідні сигнали від усього різноманіття регулюючих активність даного гена факторів. У загальному випадку його вихідний сигнал неаддітівен по відношенню до вхідних компонентів. Крайній випадок - дія по типу «все - нічого» (як у випадку енхансеосоми [Panne, 2008]).

    Нас у цій роботі буде цікавити, як і в якій мірі експериментальні результати і висновки по регуляції активності модельних для нас генів використовуються для розробки основних класів моделей в цій області. Ми приходимо до висновку, що найпоширеніші в додатку до цих генам моделі включають дуже мало експериментальних результатів, і в цьому плані такі модельні підходи є сверхупрощеніем. Використання моделей з класу моделей реакції-дифузії дозволяє досить ефективно виконувати завдання зворотної інженерії за допомогою Фиттинга до даних. Однак, як показує аналіз самих моделей і їх вдалих рішень (представлений нами в літературі і осущуствленний авторами цієї статті), предсказательная сила таких моделей низька. В ідеалі моделі, підігнані до даних норми (дикого типу), повинні в якості нових цікавих результатів пояснювати відомі мутантні і інші патологічні випадки, як і реакції на обурення, чого ці моделі не роблять [Myasnikova, Spirov, 2018]. ми

    244

    пояснюємо це саме тим, що запозичені з матфізікі і физхимии моделі реакції-дифузії не відповідають за своєю внутрішньою структурою таким для процесів і механізмів контролю генної активності. Тому хороший Фиттинга до даних пояснюється не схожістю функціональної організації моделі і таких процесів генної регуляції, а чималим набором вільних параметрів таких моделей, що дозволяють промоделювати динамічний процес із зовсім іншої області знань - не з тієї, з якою підхід одразу суміжні права. Тоді як предсказательная сила таких моделей низька.

    3. Наш підхід

    Сукупність експериментальних результатів з контролю активності генів в ембріогенезі формує в результаті наші узагальнені уявлення про шляхи та механізми розгортання генетичної програми індивідуального розвитку. Дослідники зазвичай підводять підсумки своєї праці у вигляді малюнків і схем (скетчів; як, напр., На рис. 1), узагальнюючих їх розуміння експериментальних результатів графічно (це самодостатні укладення, і вони становлять основу для оглядів і підручників). У парадигмі сучасної системної біології ця ж сукупність експериментальних результатів використовується як для комп'ютерного аналізу (насамперед статистичного), так і для моделювання (динамічного, стохастичного, інформаційно-лінгвістичного і т.д.). Нас буде тут цікавити те, як і наскільки адекватно переноситься експериментальна інформація в різних підходах до моделювання. Ми приходимо до висновку, що саме в разі інформаційно-лінгвістичного моделювання вихідна інформація може бути перенесена в моделі найбільш повно і з найменшими спотвореннями - в порівнянні з підходами до моделювання в парадигмі математичної фізики.

    Ми розбираємо це коло проблем в досягненні розуміння механізмів генної регуляції на конкретних прикладах паттерна генної експресії в індивідуальному розвитку. Саме ми будемо розглядати одні з найбільш вивчених генів. Це гени ембріональної сегментації дрозофіли.

    Ми розвиваємо наш підхід нечіткого логічного моделювання до моделей генної активності на рівні детального моделювання (рівень кластерів слів-мотивів). Цей рівень базується на детальних знаннях про функціональну організацію генних регуляторних елементів і найбільш наближений до біологічних реалій, на відміну від спрощених підходів грубого рівня.

    Ми використовуємо аналіз граматики енхансером (правила розміщення слів-мотивів один щодо одного, включаючи відстані між ними), що належать до одного сімейства, для формулювання генно-

    245

    регуляторної логіки у вигляді наборів регуляторних функцій [Ben-Tabou de-Leon, Davidson, 2009 року; An integrative method ... 2017]. Знання цієї граматики дозволяє в підсумку сформулювати регуляторні функції для опису поведінки генної мережі. Ці правила можуть бути використані для розвитку нечітких моделей детального рівня.

    Модель тренується підбором виду і параметрів регуляторних функцій генетичними алгоритмами, Фиттинга до наявних кількісним даними по паттернам експресії досліджуваного гена до досягнення задовільного відповідності результатів моделювання і експериментальних даних.

    3.1. Наше моделювання за допомогою методу нечіткої логіки ГРС з високою деталізацією

    Як зазначалося, додаток підходу нечіткої логіки для опису процесів в системі може використовуватися для моделювання біологічних систем. Нечіткі множини збирають неточні, якісні знання про біологічних об'єктах і добре підходять для подання обмежених (неповних) знань, неточних вимірювань, а також схильних до помилок даних. В силу того що ці знання можуть відображати довільні за значимістю властивості, можна рівнозначно представляти всі типи зовнішніх і внутрішніх факторів, що впливають на систему. Нечіткі множини для характеристики модельованої системи можуть бути розроблені користувачем відповідно до його цілями. Системи нечіткої логіки дозволяють відображати біологічні процеси за допомогою простих, але потужних систем правил, які можуть бути сформульовані з використанням природної мови. Тому гіпотези про поведінку системи або впливи між компонентами системи можуть бути реалізовані безпосередньо в моделі.

    3.1.1. Моделювання на основі нечіткої логіки

    Реальний світ має приблизну і неточну природу, і набори об'єктів в цьому світі зазвичай мають неточні кордону. Наприклад, визначення «безлічі висококонцентрованих метаболітів» як «безлічі метаболітів, присутніх на рівні більш ніж стільки-то молекул на моль», є незадовільним, оскільки така сувора межа концентрацій - штучна і довільна. Щоб вловити неточну природу нашого навколишнього світу, Лотфі А. Заде ввів поняття нечітких множин і розширив двозначну логіку 0,1 до інтервалу [0,1], дозволяючи поступово переходити від помилкових до істинних висловлювань [Zadeh, 1996]. Нечіткі множини дозволяють представляти не-

    246

    точні, суб'єктивні знання і лінгвістичну інформацію. Елементи не розглядаються як належні або які не належать безлічі, але замість цього вони визначаються як елементи, описані даними безліччю. Подібність визначається кількісно, ​​присвоюється значення від 0 (несхоже) до 1 (ідентично).

    В основі нечіткої логіки лежать такі поняття, як нечітка множина, функція приналежності, лінгвістична змінна, терм, нечітке правило докладніше див .: Lee, 1990].

    Нечітким безліччю А універсальної множини U називається безліч пар

    де ЦЛ (х) - функція приналежності нечіткої множини А. Функція приналежності вказує на ступінь приналежності елемента х безлічі А і визначена на інтервалі [0,1]. В теорії нечітких множин функція приналежності грає величезну роль, так як всі дії з нечіткими об'єктами виробляються за допомогою операцій саме з функцією приналежності. На практиці зручно використовувати функції приналежності, представлені в аналітичному вигляді, у вигляді деякої математичної функції. Найпоширенішими є такі функції приналежності: трикутна, трапецеїдальних, гауссова і 8- і 2-образні.

    Лінгвістичної змінної називається набір, що включає:

    - ім'я змінної;

    - деякий безліч значень змінної (терм-множина), кожне з яких є нечітка змінна на безлічі;

    - синтаксичне правило, що дозволяє створювати нові значення;

    - семантична процедура, яка дозволяє перетворити нові значення лінгвістичної змінної в нечітку змінну.

    Основні логічні операції над нечіткими множинами, еквівалентні логічних операцій над звичайними множинами, - це операції об'єднання і перетину.

    Нечітке моделювання регуляції активності гена засноване на механізмах нечіткого виведення виду «якщо - то». Правила контролю генної активності задається в нечіткій формі за допомогою лінгвістичних змінних, це дозволяє моделювати поведінку гена при нечітко визначеної його моделі. Нечітка модель працює з базою нечітких правил і виконує операції нечіткої логіки і за рахунок цього формує нечіткий висновок.

    Система, заснована на на нечіткій логіці, відстежує значення змінних стану керованої системи - гена і отримує величини змінних управління за допомогою бази правил нечіткої системи. Нечіткі логічні системи зазвичай складаються з чотирьох основних частин:

    247

    фазифікації, база нечітких правил, «машина» нечіткого виведення і дефаз-зіфікація (див. рис. 4).

    На використанні бази нечітких правил, яка містить нечіткі висловлювання у формі «якщо (передумова) - то (наслідок)» і функції приналежності відповідних їм термів, заснована реалізація нечіткого логічного висновку. Нечіткий висновок виробляє перетворення значень вхідних змінних процесу управління у вихідні, використовуючи нечіткі правила продукцій.

    Механізм нечіткого логічного висновку включає в себе чотири етапи, як проілюстровано рис. 4.

    1. фазифікації (перехід від чіткого уявлення до нечіткого). На цьому етапі встановлюється відповідність між значенням вхідної змінної і значенням функції приналежності відповідного їй терма лінгвістичної змінної.

    2. Формування бази нечітких правил. На цьому етапі формується сукупність нечітких правил «якщо - то», які здійснюють взаємозв'язок між входами і виходами об'єкта дослідження. Звичайний формат правил такої: ЯКЩО <посилка правила>, ТО <висновок правила>. Висловлювання в вигляді посилки і укладання можуть бути пов'язані між собою логічними операціями «І», «АБО», «НЕ».

    Мал. 4.

    Загальна схема системи нечіткого логічного висновку

    Посилка (антецедент) являє собою якесь твердження, наприклад «х є високий», де «високий» - це терм лінгвістичної змінної х.

    Висновок (консеквент) являє собою твердження «у є Ь», в якому Ь (значення вихідної змінної) може бути задано у вигляді терма, класу рішень, чіткої константи або функції від вхідних змінних.

    248

    3. Нечіткий логічний висновок. Нечіткий логічний висновок - отримання висновку у вигляді нечіткої множини, відповідного значенням входів, на основі використання нечіткої бази правил і нечітких операцій.

    В основі нечіткого логічного висновку лежить композиційне правило Заде. Воно формулюється так: якщо відомо нечітке відношення F між вхідний і вихідний змінної, x і y відповідно, то при нечіткому значенні вхідної змінної x = A, значення вихідної змінної обчислюється як Y = A ° F, де ° - композиція.

    4. дефазифікація (приведення до чіткості). Дефазифікація - процес переходу від функції належності вихідної лінгвістичної змінної до її чіткому значенню. Такий процес переходу може бути реалізований наступними методами [Митюшин, 2002]:

    - Метод центру ваги; цей метод полягає в розрахунку центроїда площі;

    - Метод центру площі; центр площі називається бісектрисою площі;

    - Метод лівого модального значення; значення вихідної змінної розраховується як мода нечіткої множини або найменша з мод, якщо нечітка множина має більше одного модального значення;

    - Метод правого модального значення; значення вихідної змінної обчислюється як найбільша з мод деякого нечіткого безлічі.

    У наступному підрозділі ми проілюструємо додатки цих загальних підходів до наших конкретних завдань.

    3.1.2. Як системи нечіткої логіки можуть замінювати диференціальні рівняння

    Динамічні процеси в системі залежать від поточного стану системи і її об'єктів і, в свою чергу, впливають і змінюють їх. Якщо поточні стану об'єктів визначаються нечіткими значеннями, то процеси повинні моделюватися функціями, які працюють з нечіткими множинами. Як зазначалося, ці функції можуть бути визначені за допомогою термінів природної мови і без використання математичних формул.

    Система нечіткої логіки складається з набору правил, що відображають (зважені) нечіткі множини з декількох джерел в набір вихідних нечітких множин (висновків), тим самим визначаючи для них нові ваги. Теорія нечіткої логіки пропонує кілька теоретико-множинних операцій для оцінки системи нечіткої логіки. Ми будемо використовувати відому інтуїтивну логіку підсумовування, sum-product logic ([Mendel, 1995]).

    1. Висновок про вагу одиничних висновків залежно від їх передумов. Ваги посилок множаться, щоб вивести вага укладення (продукт-вивід).

    249

    2. Поєднання цих висновків, які стосуються одного і того ж властивості. Ваги висновків з однаковими нечіткими множинами підсумовуються (сума - склад).

    В цілому (і інтуїтивно) така логіка говорить, що чим вище впевненість посилок (чим вище вони зважені), тим більш впевненим є висновок-висновок (тим вище воно зважено).

    В силу підкреслюється в цій статті нелінійності, синергізму і кооперативності дії основних активаторів і репрессоров наших енхансером ми беремо за основу генно-регуляторних функцій закон Хілла і для активації, і для репресії (рис. 5). Ми, природно, використовуємо нечітку формулювання цього закону. Нечіткі логічні системи можуть бути сформульовані таким чином, щоб вони апроксимували сігмоідной профілі функцій Хілла, що описують активують і ін-гібірующіе ефекти, як ілюструється рис. 5.

    Рівняння Хілла може бути використано для опису зв'язування лігандів з молекулою рецептора (трансфактора з сайтом зв'язування в нашому випадку), тобто коефіцієнт Хілла кількісно визначає частку сайтів рецепторів, пов'язаних лигандами. Тут Ь є концентрацію лігандів, Кт - концентрацію ліганда, що викликає половину заповнення, а п контролює форму сигмовидної кривої. Якщо п = 1, кінетика Хілла зводиться до добре відомої кінетики Міхаеліса-Ментена, яка використовується для опису швидкості ферментативних реакцій. Пов'язані з лігандом рецептори зазвичай виявляють певну функціональність в біологічних системах, наприклад каталізує фосфору-лирование нижчестоящих сигнальних молекул.

    Ь "

    Оп, кт (Ь) = {Кт) п + Іоп

    Така функціональність може бути легко аппроксимирована системами нечіткої логіки (рис. 5).

    Для побудови системи нечіткої логіки, яка повинна апроксимувати сігмоідную функцію?; Щ, використовуємо наступну процедуру.

    1. В залежності від форми ^ обмежимо розумний діапазон області дискурсу. Стану в цьому діапазоні будуть детально описані нечіткими множинами. Як приклад обмежимося інтервалом [0, 1].

    2. Виберемо число нечітких множин, використовуваних для дискретизації обраного діапазону області дискурсу. Загалом, чим більше нечітких множин використовується, тим складніше кінцева система нечіткої логіки і тим краще апроксимація. Тут ми діскретізіруем інтервал [0; 1], використовуючи чотири нечітких безлічі.

    3. Виберемо відповідну кількість пар виду: (х ^?; Щ, (х |)), тобто (Концентрація ліганда, коефіцієнт Хілла). Наприклад, (0.0, 1.0), (0.3, 0.9), (0.6, 0.5) і (1.0, 0.15) (рис. 5).

    250

    4. Сортуємо пари по зростанню відповідно до значення х_). Для кожної пари (х_), fsig, (xj)):

    (A) додаємо трикутне нечітке безліч цх] з 1 = хг1, Г - х] +1 і тр - X] до попереднього нечіткої концепції;

    (B) додаємо одноелементні нечітка множина цу] з центром тяжкості у] - ^, (х]) до подальшої нечіткої концепції;

    (C) додаємо в базу правил правило, яке зіставляє новостворене попереднє нечітка множина з новоствореним послідовним нечітким безліччю.

    Що виходять нечітка логічна система є кусочно-лінійною апроксимацією

    Нечітка щцщія - антецедент

    Мал. 5.

    Нечіткі логічні системи аппроксміруют функції Хілла

    Системи нечіткої логіки можуть бути легко сконструйовані таким чином, щоб вони апроксимували Сигмоїдальні види функцій Хілла, що описують: ингибирующие ефекти (зліва), що активують ефекти (праворуч). З використанням чотирьох нечітких множин (вгорі)

    251

    і простих баз правил (в середині) створюються кусочно-лінійні апроксимації функцій Хілла (зліва, справа). Див. Основний текст для процедури конструювання. Якість апроксимації залежить від кількості нечітких множин, але вважається вже досить хорошим, якщо використовуються тільки чотири нечітких безлічі (пор. Лінії і точки на нижніх графіках) [згідно: Windhageг, 2013].

    Нечітка генно-регуляторна функція кооперативної активації. Досить чотирьох нечітких множин і набору простих правил для створення кусочно-лінійних апроксимацій функцій Хілла (рис. 5 зліва). Якість апроксимації залежить від кількості нечітких множин, але воно вже задовільно, якщо навіть використовуються тільки чотири безлічі (пор .: [Windhageг, 2013]).

    Нечітка генно-регуляторна функція кооперативної репресії. Використовуючи тільки три нечітких безлічі, можна створити кусочно-лінійні апроксимації функцій Хілла для кооперативної репресії (рис. 5, праворуч). У загальному випадку питання параметрів фазифікація, як і питання параметрів самої функції Хілла, має вирішуватися оптимізацією при тренінгу моделі.

    3.2. Загальний опис нашого підходу

    (I) Сукупність експериментальних результатів зазвичай спочатку дає висновки про те, які гени безпосередньо (перш за все і швидше за все через ними кодуються фактори) або опосередковано (діючи через контроль інших генів) впливають на активність даного гена. Для процесів паттерна генів формулюється як висновок, що активність гена В в даному місці ембріона необхідна для активності гена А там же, тоді як активність гена С там обумовлює відсутність активності гена А там. Підсумок дослідження найчастіше представляється як граф, передає зроблені висновки про дії досліджуваних генів один на одного в досліджуваній області ембріона. Основна для нас методична проблема тут в тому, що ми не можемо однозначно сказати, що всі знайдені ре-гуляторние зв'язку безпосередні (продукт гена С є транскрипційним фактором репресивного дії, для якого ген А є мішенню).

    (I ') Критично, що в основі таких переглядів - підтверджені експериментальні спостереження: гени, які, за спостереженнями, контролюють даний ген (ген А), кодують транскрипційні фактори або кофактор, або інші протеїни (наприклад, специфічні ензими), які контролюють транскрипцію їх генів-мішеней.

    (II) Більш поглиблені експерименти спрямовані на те, щоб знайти в послідовності гена А специфічні сайти зв'язування для факторів, що кодуються генами В і С (з нашого пункту (I)). далі важливо

    252

    експериментально показати, що ці знайдені сайти зв'язування дійсно критичні для дії даного гена на його мішень. Це досягається, наприклад, мутацією даного сайту, так що мутантний ген А інакше експресується, і це відхилення від дикого типу відповідає очікуванню (пошкоджений сайт зв'язування даного транскрипційного фактора, що послаблює регуляторні дії цього фактора на досліджуваний його ген-мішень). Окремий і важливий випадок, коли продукт гена В (або С) -не фактор, а кофактор. Тоді він діє на ген-мішень тільки в присутності іншого чинника. Можливі також більш складні механізми дії продукту даного гена на його мішень, наприклад, цей продукт може бути ензимом, специфічно діють на відповідні регуляторні міжгенних зв'язку. Це вже опосередковані регуляції, вивчати їх складніше, і відомо в цілому про них менше.

    (II ') Попередньою інформацією, що дає підстави вважати, що фактори гена В (і / або С) безпосередньо діють на ген А, є виявлення специфічних сайтів зв'язування для цих факторів в ДНК гена А. Це особливо примітно, якщо сайтів кілька, вони сильні і утворюють компактний кластер, що локалізується не дуже віддалено від промотеров гена А.

    (III) Для ряду найбільш вивчених ембріональних генів, для яких типові цілі набори напівавтономних регуляторних елементів (цис-регуляторні модулі), окремі автономні модулі були детально вивчені (див. П. (I) і (II)) і протестовані як окремі, ізольовані регуляторні елементи в експериментах з штучними генами на їх основі (генні конструкти) в ряді експериментальних систем, включаючи мутантні ембріони і, наприклад, дріжджові клітини. Такі експериментальні дані дають можливість почати моделювання регулятори-ки гена А виходячи з цих експериментів, а не з більш складної картини контролю дії даного гена (гена А) в ембріоні дикого типу. Так що після Фиттинга до даних і верифікації такої моделі поведінки штучного гена буде (може бути) простіше і ефективніше перейти до моделювання поведінки цілісного гена дикого типу.

    Нас цікавить, наскільки різні підходи до моделювання поведінки генів адекватні в плані перенесення і використання експериментальних висновків (окреслений вище, в п. (I) - (III)). Специфіка нашого підходу полягає в додатку нечіткого моделювання до конкретики деталей функціонування аналізованого сімейства енхансером.

    Взаємодії між біологічними об'єктами є процеси, які впливають на майбутній стан об'єктів-мішеней виходячи з поточного стану об'єктів-ефекторів. Комп'ютерні моделі імітують взаємодії за допомогою функцій, які оперують обчислювальними уявленнями про станах. Ці функції відображають поточні стану ефекторів (вхідні дані) в нових станах або зміни стану мішеней (вихідні дані).

    253

    У загальному випадку механізм логічного висновку включає фаззіфіка-цію, нечіткий висновок (fuzzy inference) і дефазифікація (див. Рис. 4). Наша конкретна реалізація системи нічеткой логіки для задач моделювання поведінки генно-регуляторних елементів наведена на рис. 6. На вході нашої FLS - набір рівнів експресії регуляторних факторів, що контролюють активність гена мішені через аналізований нами ен-Хансер (цього гена) (пор .: рис. 1 і рис. 10). Тоді як на виході - рівень активності (рівень експресії, тобто рівень продукції мРНК) нашого гена-мішені.

    Процедуру фазифікації в нашому випадку природно виконувати по трикутної функції приналежності [Mendel, 2001]. Для стадії дефаз-зіфікаціі ми скористаємося простим методом центру ваги.

    repressors levels

    Enhancer grammar analysis

    Fuzzy gene-regulatory functions

    Inference engine

    Мал. 6.

    Діаграма системи нечіткої логіки в додатку до проблеми нечіткого моделювання активності генного регуляторного елемента (енхансера) на прикладі генів сегментації ембріона

    плодової мушки

    Система нечіткого логічного висновку (Inference engine) використовує набір нечітких генно-регуляторних функцій. Ці функції сформульовані в результаті граматичного аналізу функціональної організації енхансера (див. Текст).

    Нечіткий висновок. Для нашого набору енхансером (тест-об'єктів) ми формулюємо набір граматичних правил, що дозволяє визначати вид і характеристики регуляторних функцій для подальшої їх формулювання як нечітких регуляторних функцій. Регуляторна функція формулюється виходячи з близькості конкретної аналізованої послідовності досліджуваного енхансера до мотиву, сформульованому виходячи з аналізу всього доступного набору відомих енхансером цього сімейства

    254

    (Бікоід-енхансери). Моделі задаються засобами нечітких лінгвістичних підходів, засобами формул «If. then. else. ».

    3.3. Наш об'єкт для вивчення

    Морфогенетичний градієнт Bcd є однією з найбільш вивчених моделей evo-devo [Bicoid., 2005; Lopes, Spirov, Bisch, 2012]. Він використовується в якості тестового прикладу, контрольного випадку в області системної біології розвитку. Фактор Bcd активує набір генів сегментації дрозофіли через набір енхансером, керованих Bcd. Bcd зазвичай вимагає декількох сайтів зв'язування для активації експресії генів, і ця активація зазвичай є кооперативної (рис. 1, 10).

    Майже 100 охарактеризованих енхансером контролюють паттерінг раннього ембріона дрозофіли, ймовірно, найбільш вивчений процес ембріонального розвитку [Quantitative., 2006; Papatsenko, Goltsev, Levine, 2009 року; Precision ..., 2012]. Ці енхансери і специфічні послідовності для впізнавання і зв'язування транскрипційними факторами регулюють експресію 50 генів, що контролюють передньо-задній і Дорз-вентральний паттерінг, включаючи сегментацію і Гаструляція. Таким чином, ми обмежуємо наш аналіз регуляторної граматики сотнею передньо-задніх і Дорз-вентральних енхансером і їх контролюючими 30 трансфакторамі. Завершення геномного секвенування 12 різних видів дрозофіли створило безпрецедентну можливість для аналізу еволюції цих енхан-сєров.

    Було описано декілька десятків активуються за допомогою Bcd енхансером, що діють на початку розвитку дрозофіли, і деякі з них (перш за все проксимальний елемент hunchback і елемент другої смуги even-skipped) були детально вивчені [Quantitative., 2006; Papatsenko, Goltsev, Levine, 2009 року; Precision ..., 2012]. Функціональним ядром елементів є кластер сайтів зв'язування фактора Bcd, як було показано на рис. 1 (пор .: рис. 10).

    Активуються бікоідом енхансери, як і багато інших цис-регуляторні модулі, інтергіруют безліч регуляторних вхідних сигналів від активаторів і ко-активаторів і репрессоров і ко-репрессоров для забезпечення робастності і точного раннього ембріонального Патті-рингу. Регулювання є ієрархічним і включає як мінімум три рівні.

    Перший рівень - це рівень «розкриття» хроматину, а ключовим фактором, що беруть участь у відкритті, є Zelda, Zld (рис. 1, 10). Zld є сайт-специфічний трансфактор, він також допомагає зв'язувати інші чинники, змінюючи локальну доступність хроматину, тим самим граючи головну роль в розкритті конденсованого хроматину. Дослідники називають Zld-подібні фактори факторамі- «піонерами»,

    255

    оскільки вони контролюють активацію зіготіческого генома через їх здатність розкривати конденсований хроматин [Impacts., 2014; Zelda potentiates., 2014].

    Другий рівень - типове кооперативне зв'язування ДНК, наприклад, між Bcd, Hb і іншими ключовими активаторами і ко-активаторами. Цей ефект збільшує загальне спорідненість зв'язування, що призводить до узгодженої «завантаженні» сайтів при більш низькому загальному рівні концентрації трансфакторов і різкому регуляторному переході у відповідь на відносно невелике збільшення концентрації активаторів. Далі, обговорювані енхансери завжди містять сайти зв'язування для факторів-репрессоров, як правило, поблизу сайтів для активаторів (рис. 1). Репрессори зазвичай характеризуються як короткодействующие: вони діють подавляюще на сусідні пов'язані з ним активатори.

    Третій рівень являє собою Транскрипційні синергію, в якій численні ДНК-пов'язані білки взаємодіють з компонентами транскрипционной машини, або з базальними субодиницями, або із загальними ко-активаторами транскрипції [Verrijzer, Tjian, 1996] (рис. 8; пор .: рис. 3 ). Дійсно, показано, що Bcd активує синергическую транскрипцію, взаємодіючи з TBP-асоційованими факторами TAFII60 і TAFII110 [Sauer, Hansen, Tjian, 1995; TAFIIs mediate., 1996].

    4. Результати та обговорення

    Як обговорювалося, відомо, що Bcd має тенденцію діяти як активатор кооперативно, разом з іншими (ко) -актіваторамі, і коопера-ність диктує свої правила для організації енхансером [Bicoid., 2005; Lopes, Spirov, Bisch, 2012]. Ми можемо назвати це граматичними правилами. У найбільш вивчених випадках можна сформулювати граматичні правила, зокрема, для сили, порядку і довжини спейсеров для комплексу кластерів сайтів зв'язування [Papatsenko, Goltsev, Levine 2009].

    4.1. Енхансер, керований Морфогенія: Визначення

    Для лінгвістичного опису функціонування енхансера, керованого Bcd, було б розумно визначити функціональну організацію таких цис-регуляторних модулів. Для цього необхідно сформулювати граматичні правила, що описують енхансер.

    Головні правила:

    1) «типовий енхансер, керований Bcd, включає кілька сайтів зв'язування (розсіяних по послідовностям енхансера) для піонерних факторів, таких як Zld або інші кофактор, здатні

    256

    "Відкривати" хроматин. В іншому випадку енхансер буде занадто слабкий, щоб активуватися Bcd »;

    2) «ядро енхансера1 складається з кластера сайтів зв'язування Bcd; якщо два або більше сусідніх сайту розташовані дуже близько один до одного або занадто далеко один від одного, то вони не діють кооперативно »;

    3) «енхансер включає в себе кілька сайтів зв'язування для інших активаторів, і ці активатори мають тенденцію діяти кооперативно з Bcd»;

    4) «енхансер включає в себе кілька сайтів зв'язування для близкодействии репрессоров, і кожен сайт активації повинен знаходитися поблизу від (> 100 bp) сайту репрессора; в іншому випадку ен-Хансер буде працювати в областях ембріона, де він повинен бути репресований ».

    Нижче ми розглянемо специфічні регуляторні правила для трьох ієрархічних рівнів енхансера, керованого Морфогенія, за допомогою піонерних факторів (i), кооперативного зв'язування з матрицею активаторів (ii) і синергізму з вихідним механізмом транскрипції (iii).

    4.2. Нечіткі правила граматики енхансером

    З метою сконструювати набір нечітких правил для нашої системи нечіткої логіки ми виконали аналіз граматичних правил конструювання нашого набору енхансером з сайтів зв'язування активаторів і репрессоров (рис. 1, 10). У підсумку ми прийшли до наступних висновків.

    По-перше, «ядро» енхансера складається з кластера сайтів зв'язування фактора Bcd. Ці сайти, як правило, поділяються відстанями, рівними або пропорційними кроку спіралі ДНК (10-11 b.p.) [Distance., 2003; Papatsenko, Goltsev, Levine 2009]. Це те, що називають періодичністю в розподілі цих сайтів на ДНК енхансера. Саме таке розташування робить можливим кооперативну активацію таких енхансером [Bicoid ..., 2005; Lopes, Spirov, Bisch, 2012]. Специфічне зв'язування з матрицею ДНК першої молекули Bcd полегшує зв'язування другий, ці дві пов'язані молекули полегшують зв'язування третьої молекули Bcd і т.д. Такі процеси визначають як кооперативне зв'язування з матрицею ДНК (template binding cooperativity). Більш того, аналізований нами клас енхансером включає сайти зв'язування для деяких інших активаторів, і ці сайти також мають тенденцію розташовуватися щодо сайтів бікоіда згідно з правилом періодичності [Distance., 2003;

    1 Під ядром енхансера ми розуміємо його серцевину частина, де сайти зв'язування розташовані більш компактно. У багатьох випадках серцевинна частина поводиться подібно зі всім енхансером, коли експериментатори виділяють таку серцевину частина і використовують її для конструкції штучного гена.

    257

    Papatsenko, Goltsev, Levine 2009]. У підсумку ми сформулювали перші два правила попереднього підрозділу.

    По-друге, енхансер включає в себе кілька сайтів зв'язування для «близкодействии» репрессоров, що діють за допомогою Квен-Чінг (quenching mode), і кожен сайт активації повинен знаходитися поблизу від (<100 bp) такого сайту-репрессора. В іншому випадку ен-Хансер буде не повністю репресований в тих областях ембріона, де контрольований ним ген повинен бути повністю инактивирован. Тепер ми можемо сформулювати правило дії факторів-репрессоров: типовий бікоід-залежний енхансер має тенденцію відповідати на зв'язування репрессора з його сайтом (в цьому енхансером) неаддитивну. (Вважають, що при цьому задіюється вся молекулярна машина транскрипції, що включає загальні та специфічні фактори.) Таку неаддитивности (в термінах хімічної кінетики) описують як кооперативну або сі-нергетіческую репресію. Це дає нам третє правило з нашого набору (попередній підрозділ).

    4.2.1. Кооперативний розкриття хроматину

    Мал. 7.

    Сигмовидная крива залежності від дози і її лінгвістичне відповідність семи рівням доз вхідного сигналу фактора

    Зв'язування значно корелює зі зв'язуванням багатьох інших транскрипційних факторів, таких як Все і нь, а допомагає їм специфічно зв'язатися ДНК. Процеси відкриття хроматину піонерними факторами, такими як 2Ш, демонструють кооперативность: наявність сайтів зв'язування пов'язано з високим рівнем зв'язування транс-

    258

    фактор А. Досить простий спосіб описати його в усній формі - використовувати конструкцію «До ... 1Ьеп ...» ( «Якщо, тоді ...»). Основним методичним питанням тут є те, скільки рівнів концентрації та «ступенів» розкриття хроматину ми повинні розглянути для досягнення відповідного моделювання. Якщо ми, скажімо, розглянемо сім рівнів (нуль, дуже низький, низький, середній, високий, дуже високий і максимальний), тоді це буде звучати так. «Якщо рівень дорівнює нулю, то певний хроматин конденсується; якщо низький, то відкритість хроматину дуже низька; якщо максимальний, відкритість максимальна ». Мал. 7 ілюструє ці міркування.

    Відзначимо тут, що рівні доступності хроматину для даного рівня 2И будуть служити умовами для правил роботи енхансера, сформульованих вище. Ці рівні будуть відповідати максимальному рівню зв'язування для факторів, специфічно зв'язуються з ДНК-матрицею.

    4.2.2. Активатори і репрессори, що зв'язуються з матрицею

    Специфічне зв'язування з ДНК-матрицею першої молекули Нд<1 полегшує зв'язування другий, ці дві пов'язані молекули полегшують зв'язування третьої молекули Нд<1 і т.д. Це називається кооперативним зв'язуванням з матрицею.

    Отже, ми знову стикаємося з кооперативністю і можемо також встановити її в лінгвістичної формі відповідно до загальної схемою на рис. 7. Вербальна опис буде представляти собою набір пропозицій «Якщо ... тоді ...», починаючи з цього: «Якщо один з найбільш сильних сайтів зв'язування специфічно зв'язує Нд ^ то сусідній, слабший сайт зв'язування матиме більш високі шанси зв'язатися з іншою молекулою Нд ^>. І останнє речення буде: «Якщо останній з незайнятих ще сильніших сайтів зв'язування остаточно пов'язує Нд ^ то сусідній, слабший сайт зв'язування матиме більш високі шанси зв'язатися з іншою молекулою Нд ^».

    Специфічне зв'язування молекули Bcd потім діє як вхідний сигнал для транскрипционной машини і ініціює транскрипцію.

    4.2.3. Синергетичний вихідний сигнал транскрипционной машини

    Найвищий ієрархічний рівень в забезпеченні синергетичного-го вихідного сигналу від вхідного сигналу пов'язаного трансфактора є рівень РНК-полимеразного комплексу. Це найвища ступінь, коли всі регуляторні вхідні сигнали інтегровані в неадитивні синергетичний вихідний сигнал. результатом явля-

    259

    ється ефективність ініціації транскрипції. Ідея вихідного сигналу транскрипції з вхідного сигналу пов'язаних активаторів ілюструється конкретною схемою двох молекул-активаторів (два Bcd або Bcd і Hb) на рис. 8 [Sauer, Hansen, Tjian, 1995]. У цьому простому випадку вербальне правило буде наступним: «Якщо РНК-полімеразної комплекс має всі ключові компоненти, включаючи як TF110, так і TF60, і якщо обидва активатора специфічно пов'язані з сайтами зв'язування і TF110 і TF60, то дія пари активаторів при ініціації транскрипції буде сінергетіче-ським (неаддитивну), в іншому випадку виходить сигнал буде нижчим або адитивним ».

    Якщо ми розглянемо більше активаторів сайтів зв'язування, то набір правил буде схожим, але більш складним.

    enhancer

    Мал. 8.

    Генерація транскрипционной машиною вихідного сигналу транскрипції від вхідного сигналу пов'язаних активаторів. Згідно [Sauer, Hansen, Tjian, 1995], зі змінами

    Набір сформульованих тут вербальних правил буде використовуватися для подальшої розробки та перевірки нечітких лінгвістичних моделей [Zeigler, Gertz, Cohen, 2007; Istrail, Davidson, 2005].

    260

    4.3. Приклад використання нашого підходу

    Ми проілюструємо роботу нашого підходу на прикладі добре вивченого енхансера, stripe element ( «елемент смуг»), який контролює активність одного з ключових генів ембріональної сегментації дрозофіли - гена хенчбек (hunchback, hb) [Jaeger, Sharp, Reinitz, 2007; Gene expression., 2011 року; Myasnikova, Spirov, 2018]. Цей елемент включає в себе сайти зв'язування активаторів Bcd, Hb і Cad, Hkb і репрессоров Kr, Kni і Tll, як ілюструється рис. 9-10.

    Мал. 9.

    Малюнок ілюструє ідею того, як просторові домени регулюючих факторів-репрессоров визначають гострі піки активності гена-мішені hunchback (hbant and hbpost) лише в двох положеннях уздовж основної, передньо-задньої осі раннього ембріона (вказані вертикальними стрілками) під контролем <«Шре» -енхансера. В інших областях

    261

    ембріона уздовж головної осі цей енхансер повністю репресований. Зображення на врізки (A) - це забарвлення активності генного конструкта - штучного гена, регулятором якого є тільки «stripe» -енхансер. Добре видно, що цей енхансер визначає активність гена в двох позиціях уздовж головної осі ембріона, відповідних положенням антеріор- і Апостеріорі-смуг експресії гена хенчбек. Схема врізки (B) підсумовує результати публікації [Precision., 2012], де було показано, що передня і задня кордону піку hbant визначаються репресією доменів транскрипційних факторів Hb і Kr, відповідно, а такі заходи піку hbpost задаються репресією доменів Kni і Tll, відповідно.

    Логотипи сайтів зв'язування

    1 IZId I BCD IGt 721

    hb DAE (wt) || I III I I lllll || III I

    1 Rd-200A 200_721

    Мал. 10.

    Малюнок ілюструє деталі організації двох найбільш вивчених енхансером гена хенчбек: проксимальний елемент і елемент смуг (stripe-element).

    Вказані позиції експериментально або біоінформаційні знайдених сайтів зв'язування ключових транскрипційних сайтів. Для проксимального енхансера явно видно великий кластер щодо регулярно розташованих сайтів зв'язування фактора бікоід (Bcd). На врізки зверху наведені приклади логотипів сайтів зв'язування для Bcd, Zld і Gt (згідно: [Precision., 2012] і [Li, Eisen, 2018], зі змінами).

    Цікавлять нас енхансери відносяться до одних з найбільш вивчених для дрозофіли. Вони демонструють риси організації генно-регуляторних елементів, що обговорювалися вище. Відомі дані по ор-

    262

    ганизации цих елементів зведені на рис. 10. Явно видно кластери сайтів зв'язування активаторів (Bcd), охарактеризовані сайти для піонерських факторів (Zld).

    4.3.1. Кооперативна активація проксимального елемента Морфогенія бікоід

    Кооперативний дію активатора на ген-мішень у разі Bcd це один з найбільш вивчених прикладів. Для Bcd кооперативность на рівні «доза фактора => інтенсивність транскрипції »виражається в такий спосіб. З ростом дози фактора інтенсивність транскрипції зростає неаддитивну. Залежність інтенсивності транскрипції від концентрації бікоіда зростає згідно сігмоідной кривої і часто апроксимується рівнянням Хілла, як на рис. 5 [Cooperative DNA-binding ..., 1998; Cheung, Ma, 2015].

    На рівні функціональної організації кластера сайтів для кооперативного дії потрібно його певна організація. Зокрема, як спостерігалося для самого дослідженого випадку кластера сайтів зв'язування бікоіда в регуляторних областях гена Hb (а це одна з первинних мішеней бікоіда), сайти зв'язування бікоіда повинні розташовуватися один від одного на деякій відстані (не дуже щільно, але і не дуже далеко один від іншого), що дорівнює або кратному кроці спіралі молекули ДНК (11-12 нуклеотидних пар, н.п.), і сильні сайти чергуються зі слабкими. Таким чином, для кооперативності дії кластера сайтів бікоіда потрібне дотримання деяких правил організації кластера - свого роду набір (не дуже строгих) правил, своя граматика.

    Ми можемо таким загальним способом задати правило кооперативного дії бікоіда. (При цьому бажано протестувати загальну модель на предмет того, як багато потрібно задати рівнів концентрації бікоіда і рівнів транскрипционной активності, щоб роль кооператив-ності в моделі була відображена в достатній, але не надмірною мірою.)

    Тоді правило кооперативного дії фактора бікоід має звучати таким чином: «Якщо концентрація Bcd дуже низька, то рівень транскрипції буде теж дуже низький, якщо концентрація Bcd досить низька, то транскрипція буде на середньому рівні, якщо концентрація середня, то транскрипція дуже висока, якщо концентрація висока, то і транскрипція висока ». При більшій кількості рівнів правило буде ще більш детально описувати сігмоідной характер залежності рівня експресії від концентрації активатора.

    Просторовий градієнт концентрації транскрипційного ак-тіватора-морфогена бікоіда запускає ієрархічні процеси формування все більш детальних патернів експресії його генів-мішеней уздовж головної (передньо-задній) осі зародка мушки. Примітно, що

    263

    цей морфогенетичний градієнт стрімко спадає уздовж просторової осі і добре описується експоненціальною залежністю. Цікаво, що інші градієнти, також беруть участь разом з бі-коідом в формуванні патернів експресії уздовж головної осі зародка, можуть бути істотно більш пологими. Чому первинний морфогенетичний градієнт бікоіда такий крутий, до кінця не зрозуміло. Більш того, в експерименті можна отримати менш крутий градієнт, навіть близький до лінійного. При цьому процеси формування патерну сегментації і сам патерн якісно не порушуються, хоча помітно змінюються в деяких кількісних аспектах.

    Відповідно, перше, що резонно промоделювати, - це як проксимальний енхансер гена іь поводиться в різних позиціях уздовж крутого (дикого типу) і більш пологого (експериментального) градієнта бікоід. В рамках нашого підходу до моделювання ми трактуємо, в першому наближенні, проксимальний енхансер як кластер сайтів зв'язування фактора бікоід, розташованих одна відносно іншої оптимально або субоптимальних. Тобто з періодикою кроку спіралі ДНК. Перший методичний питання тут: яку мінімальну кількість рівнів концентрації / активності бікоіда треба врахувати, щоб задовільно апроксимувати добре задокументовані профілі експресії іь дикого типу і на мутантному тлі, відповідно.

    Як зазначалося, відгук активності розглянутого енхансера на даний рівень активності / концентрації бікоіда резонно описувати функцією Хілла (з коефіцієнтом Хілла в межах від 3 до 5).

    Якісна картина крутизни кордону домену експресії іь в залежності від висоти коефіцієнта Хілла і від крутизни градієнта активатора бікоіда виглядає наступним чином (рис. 11).

    Мал. 11.

    Залежність відгуку (рівня активності) проксимального енхансера гена ЬЬ (тут ген-мішень 1, суцільна лінія) від його заходи кооперативності (величина коефіцієнта Хілла)

    264

    Фактор-ефектор е тут - бікоід, Bcd (пунктирна лінія). Таблиці залежності t від e відповідають слабкою (зліва), помірної (посередині) і сильною (праворуч) моделі активації. (Мета - суцільна лінія).

    Профілі активності досліджуваного енхансера істотно залежать від параметрів моделі. На рис. 11 вони зіставляються з експериментальним профілем гена hb на тій стадії, коли його межа переднього домену досягає максимальної крутості. Профіль hb для експоненціального градієнта бікоіда найближче апроксимується для моделі Хілла з коефіцієнтом Хілла = 4. Отримані результати показують, що для кращої відповідності результатів моделі експериментальним кривим потрібні більш детальні нечіткі моделі.

    4.3.2. Репресія для енхансера смуг

    Тепер перейдемо до нечітким моделям другого енхансера гена hb -енхансера смуг. На думку авторів, найбільш детально його досліджували, цей енхансер активується убіквітнимі загальними активаторами (що, втім, не доведено). Тобто за відсутності чинників-репрессоров активність гена під контролем цього регуляторного елемента досягає максимального рівня. Тоді формування двох чітких, вузьких смуг експресії (з крутими краями) визначається нелінійним дією градієнтів репрессоров. Так що для кожного з чотирьох кордонів цієї пари смуг можна вказати основний репрессор, її визначає (рис. 9 B). А саме, передня межа передній лінії контролюється саморепрессіей (межа домена білка Hb надає репресивна дія на енхансер смуг гена hb). Задня межа передній лінії контролюється репресією домену фактора Kr. Нарешті, передня і задня кордону задньої лінії контролюються доменами факторів Kni і Tll, відповідно.

    Відповідно до логіки роботи розглянутого енхансера ми сформулювали прості нечіткі моделі репресії (один ефектор-репрессор, один ген-мішень). Результати наведені на рис. 12. З біологічних позицій це складові більш загальної моделі, оскільки відомо, що на цей енхансер діють щонайменше чотири репрессора, як ілюструє рис. 9. Порівняння теоретичних та експериментальних профілів свідчить про те, що рівень репресії повинен бути дуже сильним (сильніше, ніж досягається моделлю). Повна модель повинна включати всі чотири компоненти репресивного дії (репресії-сори Hb, Kr, Kni і Tll).

    Отримані тут результати схожі з нашими результатами детерминистического моделювання активності гена hb (системою детальних рівнянь в приватних похідних) [Spirov et al., 2016], але є деякі важливі відмінності, які потребують подальшого аналізу.

    265

    Мал. 12.

    Залежність відгуку (рівня активності) енхансера смуг гена ЬЬ (тут ген-мішень 1; суцільна лінія) від його заходи кооперативності. Фактор-ефектор е тут - репрессор (пунктирна лінія). Таблиці залежності 1 від е відповідають слабкою (зліва), помірної (посередині) і сильною (праворуч) моделі репресії.

    5. Висновки

    На закінчення слід підкреслити, що кооперативні / сінергеті-етичні методи дії цис-регуляторного модуля абсолютно необхідні в ембріональному паттерінге для отримання різкого відповіді на кшталт вкл / викл при формуванні різкого розмежування експресії уздовж морфогенеті-чеських градієнтів.

    Ми впевнені, що нинішні підходи до моделювання поведінки генних мереж не можуть природним чином охарактеризувати окреслені ознаки типових енхансером, керованих Морфогенія, в той час як інформаційно-лінгвістичні підходи можуть це зробити. Таким чином, ми можемо включити всі рівні синергізму енхансером: кооперативне дію піонерного фактора, кооперативне зв'язування з матрицею і сі-нергіческіе взаємодії з машиною транскрипції. Ми переконані, що моделі активності генних мереж, засновані на натуральних мовах і нечіткої логіки, мають внутрішню функціональну організацію, ближчу до молекулярної машинерії генно-регуляторних механізмів, ніж рівняння математичної фізики. А це повинно давати нечітким моделям більшу передбачувану силу. Ми впевнені, що сучасна системна біологія повинна використовувати такі високонелінейние моделі, використовуючи вербальне опис регуляторної ієрархії входять і виходять сигналів.

    Більш того, в літературі все частіше обговорюється можливість зворотного зв'язку між біологічними дослідженнями і лінгвістикою. на-

    266

    приклад, показано, як методи еволюційної біології дозволяють розширити наші уявлення про походження і розвиток мовного різноманіття та когнітивних здібностях людини [Levinson, Gray, 2012]; методи вирівнювання генетичних послідовностей використовуються в лінгвістиці [Prokic, Wieling, Nerbonne 2009]. Тим самим взаімообога-щающую дослідження в обох напрямках можуть бути базисом для подальшої конвергенції природних і гуманітарних наук в найближчі десятиліття.

    6. Майбутні напрямки досліджень

    Все більше ускладнюється картина Регуляторика гена вимагає ускладнення наших вихідних моделей (як і інших розвиваються моделей). Явна перевага інформаційно-лінгвістичних моделей - це можливість додавати нові правила адитивно, без переписування всієї моделі. Тому ми далі будемо включати нові правила як адитивні конструкції, які додаються до вихідної моделі, добудовуючи її в підсумку до найповнішою на сьогоднішній день.

    Дія трансфактора, залежне від його концентрації. Один з найбільш вивчених на сьогоднішній день сайт-специфічних транскрипційних факторів Hb (Ikaros у хребетних) при низьких концентраціях діє на свої мішені як активатор, а при високих - як інгібітор [Спіров, Мясникова, 2019]. Одне з механістичних пояснень цього - здатність фактора Hb утворювати димери, і регуляторний дію димера при сайт-специфічному зв'язуванні якісно відрізняється від дії мономера. Є також теоретичні очікування, що не менше вивчений фактор Kr діє в ранній сегментації аналогічним, що залежать від концентрації чином.

    У підсумку ми формулюємо таке правило для Hb (і аналогічне для Kr):

    - «Якщо концентрація Hb низька, то ініціація транскрипції дозволена і великі шанси, що транскрипція почнеться і буде протікати з достатньою швидкістю»;

    - «Якщо концентрація Hb висока, то ініціація транскрипції заборонена».

    «Мови» клітинного сигналінгу: з ростом числа клітин в ембріоні і з відокремленням окремих морфогенетичних полів з'являється ще одне «вимір» подій і механізмів контролю генної активності. Це клітинний Сигналінг: ембріональні клітини починають обмінюватися «сигналами» (найчастіше це специфічні молекули-ліганди). Ліга-ди, які продукують одними клітинами, специфічно діють на рецептори інших клітин. В результаті рецептори активують каскади передачі (і часто посилення) таких сигналів, що призводять в результаті до включення або виключення певних генів. Тобто регуляторні зв'язку стано-

    267

    вятся розподіленими в просторі ембріона, і контекст, що визначає відгук на найпростіші акти зв'язування транскрипційних факторів з їх мотивами, виходить за межі однієї клітини. Включення в нечіткі моделі рівня регуляцій міжклітинної сигналінгу зробить такі моделі ще більш реалістичними.

    Список літератури

    Золян С. Т., Жданов Р.І. Геном як інформаційно-семіотичний феномен // Філософія

    науки і техніки. - 2018. - Т. 23, вип. 1. - С. 88-102. Митюшин Ю.І., Мокін Б.І., Ротштейн О.П. Soft Computing: Ідентифікація закономірностей нечіткими базами знань. - М .: Універсум, 2002. - 145 с. Спіров А.В., Мясникова Е.М. Еволюційний консерватизм генних регуляторних мереж тимчасової специфікації нейробластов // Молекулярна біологія. - 2019. - Т. 53, № 2. -С. 225-239.

    A time series driven decomposed evolutionary optimization approach for reconstructing large-scale gene regulatory networks based on fuzzy cognitive maps / Liu J., Chi Y., Zhu C., Jin Y. // BMC Bioinformatics. - 2017. - Vol. 18, N 1. - Р. 241. An integrative method to decode regulatory logics in gene transcription / Yan B., Guan D.,

    Wang C. et al. // Nat Commun. - 2017. - Vol. 8, N 1. - P. 1044. Ben-Tabou de-Leon S., Davidson E.H. Modeling the dynamics of transcriptional gene regulatory

    networks for animal development // Dev Biol. - 2009. - N 325. - Р. 317-328. Bicoid cooperative DNA binding is critical for embryonic patterning in Drosophila / Lebrecht D., Foehr M., Smith E. et al. // Proc. Natl. Acad. Sci. USA. - 2005. - Vol. 102, N 37. - Р. 1317613181.

    Bolshoy A. DNA sequence analysis linguistic tools: Contrast vocabularies, compositional spectra

    and linguistic complexity // Applied bioinformatics. - 2003. - N 2. - Р. 103-112. Brendel V., Beckman, J.S. Trifonov E.N. Linguistics of nucleotide sequences: Morphology and

    comparison of vocabularies // J. Biomol. Struct. Dyn. - 1986. - N 4. - Р. 11-21. Brendel V., Busse H.G. Genome structure described by formal languages ​​// Nucleic Acids Res. -

    1984. - N 12. - Р. 2561-2568. Buchler N.E., Gerland U., Hwa T. On schemes of combinatorial transcription logic, Proc. // Natl.

    Acad. Sci. оf USA. - 2003. - N 100. - Р. 5136-5141. Cheung D., Ma J. Probing the impact of temperature on molecular events in a developmental

    system // Scientific Reports. - 2015. - N 5. - Р. 13124. Cooperative DNA-binding by Bicoid provides a mechanism for threshold-dependent gene activation in the Drosophila embryo / Burz D.S., R Rivera-Pomar R., Jackle H., Hanes S.D. // EMBO Journal. - 1998. - N 17. - Р. 5998-6009. Data- and knowledge-based modeling of gene regulatory networks: An update / Linde J.,

    Schulze S., Henkel S.G., Guthke R. // Excli J. - 2015. - N 14. - Р. 346-378. De Jong H. Modeling and simulation of genetic regulatory systems: A literature review //

    J. Comput. Biol. - 2002. - Vol. 9, N 1. - Р. 67-103. Distance preferences in the arrangement of binding motifs and hierarchical levels in organization of transcription regulatory information / Makeev V.J., Lifanov A.P., Nazina A.G., Papat-senko D.A. // Nucleic Acids Res. - 2003. - N 31. - Р. 6016-6026. Doerfler W. In search of more complex genetic codes - can linguistics be a guide? // Med. Hypotheses. - 1982. - N 9. - Р. 563-579.

    268

    Dong S., Searls D.B. Gene structure prediction by linguistic methods // Genomics. - 1994. -Vol. 23, N 3. - Р. 540-551.

    Dyrka W., Nebel J.C. A stochastic context free grammar based framework for analysis of protein sequences // BMC. Bioinformatics. - 2009. - N 10. - Р. 323.

    Formation of the bicoid morphogen gradient: An mRNA gradient dictates the protein gradient / Spirov A., Fahmy K., Schneider M., Frei E., Noll M., Baumgartner S. // Development. - 2009. -Vol. 136, N 4. - P. 605-614.

    Fuzzy Logic as a Computational Tool for Quantitative Modelling of Biological Systems with Uncertain Kinetic Data, IEEE / ACM Trans / Bordon J., Moskon M., Zimic N., Miha M. // Comput. Biology Bioinform. - 2015. - Vol. 12, N 5. - Р. 1199-1205.

    Gene expression noise in spatial patterning: Hunchback promoter structure affects noise amplitude and distribution in Drosophila segmentation / Holloway D.M., Lopes F.J.P, da Fontoura Costa L., Traven ^ olo B.A.N., Golyandina N., Usevich K., Spirov A.V. // PLoS Comput. Biology. - 2011. - Vol. 7, N 2. - Р. e1001069. - DOI: 10.1371 / journal.pcbi.1001069

    Genetic Expression Level Prediction Based on Extended Fuzzy Petri Nets / Li X., Li Y., Liu Y., Wang L. // Int. J. Pattern Recognit. Artif. Intell. - 2017. - Vol. 31, N 10. - Р. 1-20.

    Gertz J., Siggia E.D., Cohen B.A. Analysis of combinatorial cis-regulation in synthetic and genomic promoters // Nature. - 2009. - N 457. - Р. 215-218.

    Gibson M.A., Mjolsness E. Modeling the activity of single genes // Computational Modeling of Genetic and Biochemical Networks / J.M. Bower, H. Bolouri (eds.). - Cambridge: MIT Press, 2001. - Р. 1-48.

    Gimona M. Protein linguistics - a grammar for modular protein assembly? // Nature Reviews Molecular Cell Biology. - 2006. - N 7. - Р. 68-73.

    Hopfield J.J. Neurons with graded response have collective computational properties like those of two-state neurons // Proc. Nat. Acad. Sci. U.S.A. - 1984. - N 81. - Р. 3088-3092.

    Impacts of the ubiquitous factor Zelda on Bicoid-dependent DNA binding and transcription in Drosophila / Xu Z., Chen H., Ling, J., Yu D., Struffi, P., Small, S. // Genes & development. -2014. - Vol. 28, N 6. - P. 608-621.

    Istrail S., Davidson E.H. Logic functions of the genomic cis-regulatory codе // Proc. Natl. Acad. Sci. USA. - 2005. - N 102. - Р. 4954-4959.

    Jaeger J, Sharp D.H., Reinitz J. Known maternal gradients are not sufficient for the establishment of gap domains in Drosophila melanogaster // Mechanisms of development. - 2007. - Vol. 124, N 2. - Р. 108-128.

    Jaeger J., Manu J., Reinitz J. Drosophila blastoderm patterning // Curr. Opin. Genet. Dev. - 2012. -N 22. - Р. 533-541.

    Ji S. Isomorphism between cell and human languages: Molecular biological, bioinformatic and linguistic implications // Biosynthesis. - 1997. - N 44. - Р. 17-39.

    Lee C.C. Fuzzy logic in control systems: Fuzzy logic controller. I. Systems, Man and Cybernetics // IEEE Transactions. - 1990 a. - Vol. 20, N 2. - Р. 404-418.

    Lee C.C. Fuzzy logic in control systems: Fuzzy logic controller. II. Systems, Man and Cybernetics // IEEE Transactions. - 1990 b. - Vol. 20, N 2. - Р. 419-435.

    Lee C.-P., Leu Y., Yang W.-N. Constructing gene regulatory networks from microarray data using GA / PSO with DTW // Applied Soft Computing. - 2012. - Vol. 12, N 3. - Р. 1115-1124.

    Levinson S.C., Gray R.D. Tools from evolutionary biology shed new light on the diversification of languages ​​// Trends Cogn. Sci. - 2012. - Vol. 16, N 3. - Р. 167-173. - DOI: 10.1016 / j.tics. 2012.01.007.

    LiL., Wunderlich Z. An Enhancer's Length and Composition Are Shaped by Its Regulatory Task // Front. Genet. - 2017. - N 8. - Р. 63.

    LiX.-Y., EisenM.B. Zelda potentiates transcription factor binding to zygotic enhancers by increasing local chromatin accessibility during early Drosophila melanogaster // BioRhiv. -2018. - Р. 3010.1101 / 3808571. - DOI: https://doi.org/10.1101/380857

    269

    Linguistic features of noncoding DNA sequences / Mantegna R.N., Buldyrev S.V., Goldber-ger A.L. et al. // Phys. Rev. Lett. - 1994. - N 73. - Р. 3169-3172.

    LopesF.J.P., SpirovA.V., BischP.M. The role of Bicoid cooperative binding in the patterning of sharp borders in Drosophila melanogaster // Dev Biol. - 2012. - Vol. 370, N 2. - Р. 165-172.

    Lopez Garcia Angel. The Grammar of Genes: How the Genetic Code Resembles the Linguistic Code. - Bern; New York: P. Lang: European semiotics, 2005. - 182 р.

    Mamdani E.H., Assilian S. An experiment in linguistic synthesis with a fuzzy logic controller // International Journal of Man-Machine Studies. - 1975. - Vol. 7, №. 1. - Р. 1-13.

    Mendel J.M. Fuzzy logic systems for engineering: A tutorial // Proceedings of the IEEE. - 1995. -Vol. 83, N 3. - Р. 345-377.

    Mendel J.M. Uncertain Rule-Based Fuzzy Logic Systems: Introduction and New Directions. -Upper Saddle River: Prentice-Hall, 2001. - 555 р.

    Modeling promoter grammars with evolving hidden Markov models / Won K.J., Sandelin A., Marstrand T., Krogh A. // Bioinformatics. - 2008. - N 24. - P. 1669-1675.

    Myasnikova E., Spirov A. Relative sensitivity analysis of the predictive properties of sloppy models // J. Bioinform Comput Biol. - 2018. - Vol. 16, N 2. - Р. 1840008. - Mode of access: https://doi.org/10.1142/S0219720018400085

    Myasnikova E.M., Spirov A.V. Relative sensitivity analysis of the predictive properties of sloppy models // J. Bioinformatics and Computational Biology. - 2018. - Vol. 16, N 2. - Р. 1-18.

    Panne D. The enhanceosome // Current Opinion in Structural Biology. - 2008. - Vol. 18, N 2. -P. 236-242.

    Papatsenko D., Goltsev Y., Levine M. Organization of developmental enhancers in the Drosophila embryo // Nucleic Acids Res. - 2009. - Vol. 37, N 17. - P. 5665-5677.

    Pesole G., Attimonelli M., Saccone C. Linguistic approaches to the analysis of sequence information // Trends Biotechnol. - 1994. - N 12. - P. 401-408.

    Popov O., Segal D.M., Trifonov E.N. Linguistic complexity of protein sequences as compared to texts of human languages ​​// Biosystems. - 1996. - N 38. - P. 65-74.

    Precision of Hunchback Expression in the Drosophila Embryo / Perry M.W., Bothma J.P., Luu R.D., Levine M. // Current Biology. - 2012. - N 22. - P. 2247-2252.

    Prokic J., Wieling M., Nerbonne J. Multiple sequence alignments in linguistics // Proc. of the EACL 2009 Workshop on Language Technology and Resources for Cultural Heritage, Social Sciences, Humanities, and Education. - Athens, Greece: LaTeCH - SHELT&R, 2009. - P. 18-25.

    Quantitative and predictive model of transcriptional control of the Drosophila melanogaster even skipped gene / Janssens H., Hou S., Jaeger J., Kim A.R., Myasnikova E., Sharp D., Reinitz J. // Nat. Genet. - 2006. - Vol. 38, N 10. - Р. 1159-1165.

    Sakakibara Y. Grammatical inference in bioinformatics // IEEE Trans. Pattern Anal. Mach. Intell. -2005. - N 27. - P. 1051-1062.

    Sauer F., Hansen S.K., Tjian R. DNA template and activator - coactivator requirements for tran-scriptional synergism by Drosophila bicoid // Science. - 1995. - N 270. - P. 1825-1828.

    Sauer F., Hansen S.K., Tjian R. Multiple TAFIIs directing synergistic activation of transcription // Science. - 1995. - N 270 (5243). - P. 1783-1789.

    Searching for smallest grammars on large sequences and application to DNA / Carrascosa R., Coste F., Galle M., Lopez, G.G.I. // J. Discrete Algorithms. - 2012. - N 11. - Р. 62-72.

    Searls D.B. A primer in macromolecular linguistics // Biopolymers. - 2013. - N 99. - P. 203-217.

    Searls D.B. Linguistic approaches to biological sequences // Comput. Appl. Biosci. - 1997. -Vol. 13, N 4. - P. 333-344.

    Searls D.B. The language of genes // Nature. - 2002. - N 420. - P. 211-217.

    Searls D.B. Trees of life and of language // Nature. - 2003. - N 426. - P. 391-392.

    Simple Predictive Enhancer Syntax for Hindbrain Patterning Is Conserved in Vertebrate Genomes / Grice J., Noyvert B., Doglio L., Elgar G.A. // PLoS ONE. - 2015. - Vol. 10, N 7.-Р. e0130413. - DOI: 10.1371 / journal.pone. 0130413

    270

    Spirov A., Holloway D. Using EA to study the evolution of GRNs controlling biological development // Evolutionary Algorithms in Gene Regulatory Network Research / N. Noman, H. Iba (eds.). - Wiley Interscience, 2015. - P. 240-268.

    Spirov A.V., Myasnikova E.M., Holloway D.M. Sequential construction of a model for modular gene expression control, applied to spatial patterning of the Drosophila gene hunchback // J. Bioinformatics and Computational Biology. - 2016. - Vol. 14, N 2. - P. 1-24.

    SugenoM. Industrial applications of fuzzy control. - Amsterdam: Elsevier Science Pub. Co., 1985. - 269 p.

    Systematic Ensemble Approach to Thermodynamic Modeling of Gene Expression from Sequence Data / Samee М.A.H., Lim B., Samper N., Lu H., Rushlow C.A., Jimenez G., Shvartsman S.Y., Sinha S.A // Cell Systems. - 2015. - N 1. - Р. 396-407.

    TAFIIs mediate activation of transcription in the Drosophila embryo / Sauer F., Wassarman D.A., Rubin G.M., Tjian R. // Cell. - 1996. - N 87. - P. 1271-1284.

    The words of the regulatory code are arranged in a variable manner in highly conserved enhancers / Rastegar S., Hess I., Dickmeis T., Nicod J.C., Ertzer R. et al. // Dev Biol. - 2008. - N 318. -P. 366-377.

    Thomas R., D'Ari R. Biological Feedback. - Florida: CRC Press, 1990. - 316 p.

    Thomas R., Thieffry D., Kaufman M. Dynamical Behaviour of Biological Regulatory Networks. I. Biological Role of Feedback Loops and Practical Use of the Concept of the Loop-Characteristic State // Bull. Math. Biol. - 1995. - Vol. 57, N 2. - P. 257-276.

    Topics in Grammatical Inference. Ch. 8: Learning the Language of Biological Sequences / Jeffrey Heinz, Jose M. Sempere (Eds.). - Berlin; Heidelberg: Springer Verlag, 2016. - DOI: 10.1007 / 978-3-662-48395-4.

    Verrijzer C.P., Tjian R. TAFs mediate transcriptional activation and promoter selectivity // Trends Biochem. Sci. - 1996. - N 21. - P. 338-342.

    Wang B.H., Lim J.W., Lim. J.S. Gene regulatory network identification from the yeast cell cycle based on a neuro-fuzzy system // Genetics and Molecular Research. - 2016. - Vol. 15, N 3. -P. 15039002. - Р. 1-11. - DOI: http://dx.doi.org/10.4238/gmr.15039002

    Werner E. Genome semantics, in silico multicellular systems and the central dogma // FEBS Lett. -2005. - N 579. - P. 1779-1782.

    Windhager L. Modeling of Dynamic Systems with Petri Nets and Fuzzy Logic. -Ph.D. Dissertation, der Fakultat fur Mathematik, Informatik und Statistik. - Munchen: der Ludwig-Maximilians-Universitat, 2013.

    Wu K., Liu J. Learning Large-scale Fuzzy Cognitive Maps Based on Compressed Sensing and Application in Reconstructing Gene Regulatory Networks // IEEE Transactions on Fuzzy Systems. - 2017. - Vol. 25, N 6. - P. 1546-1560.

    Yanez-Cuna J.O., Kvon E.Z., Stark A. Deciphering the transcriptional cis-regulatory code // Trends Genet. - 2013. - N 29. - P. 11-22.

    Zadeh L.A. Fuzzy logic = Computing with words // IEEE Transactions on Fuzzy Systems. - 1996. -Vol. 4, N 2. - P. 103-111.

    Zeigler R.D., Gertz J., Cohen B.A. A cis-regulatory logic simulator // Bmc Bioinformatics. -2007. - N 8. - P. 272.

    Zelda potentiates morphogen activity by increasing chromatin accessibility / Foo S.M., Sun Y., Lim B., Ziukaite R., O'Brien K., Nien C.Y., Kirov N., Shvartsman S.Y., Rushlow C.A. // Curr. Bio. - 2014. - N 24. - Р. 1341-1346.

    Zolyan S.T., Zhdanov R.I. Genome as a (hyper) text: From metaphor to theory // Semiotica: Journal of the International Association for Semiotic Studies. - 2018. - (accepted for publication).

    271


    Ключові слова: АКТИВНІСТЬ ГЕНА / РЕГУЛЮВАННЯ ГЕНА / МОДЕЛЮВАННЯ РЕГУЛЮВАННЯ ГЕНА / ІНФОРМАЦІЙНО-ЛІНГВІСТИЧНЕ МОДЕЛЮВАННЯ / МОДЕЛІ НЕЧІТКОЇ логіки / GENE ACTIVITY / GENE REGULATION / GENE REGULATION MODELING / LINGUISTIC MODELING / FUZZY LOGIC MODELS

    Завантажити оригінал статті:

    Завантажити