Эти мощные инструменты позволяют выявить "рычаги

Ускоряя выявление участков ДНК, контролирующих экспрессию генов, новые технологии позволяют понять «грамматику» регуляторного генома — и дают ученым возможность его переписать.

Несмотря на то, что ученые говорят о «расшифровке генома», суровая реальность заключается в том, что геном на самом деле написан не на одном языке. Ученые свободно владеют кодонами из трех нуклеотидов, составляющими кодирующие белки гены в ДНК, но они составляют лишь около 2% геномного текста. Остальная часть написана на совершенно ином языке, который исследователям еще предстоит разгадать.

«Каждый раз, когда мы секвенируем человека, мы получаем около 3,5 миллиона вариантов, и только 0,6% из них будут находиться в кодирующих областях», — объясняет генетик Надав Ахиту. Эта часть, по словам Ахитува, относительно проста для интерпретации, но что касается остального, «мы действительно не понимаем, для чего это нужно — у нас нет регуляторного кода». Однако исследователи добиваются успехов в расшифровке регуляторных участков генома и изучении «грамматики» элементов, определяющих, когда и где гены включаются и выключаются. Для этого они прибегают к комплексу методов, известных как массово-параллельные репортерные анализы (massively parallel reporter assays - MPRAs). Эти инструменты позволяют измерить, как миллионы изолированных генетических элементов или вариантов последовательностей влияют на экспрессию специально выбранного «репортерного» гена. Это помогает исследователям выявлять рычаги управления геномом и распутывать их функции, не перегружаясь информацией обо всех остальных частях генома. «Это упрощает задачу до уровня синтетической системы», — говорит генетик Райан Тьюхи. «Но при этом сохраняется достаточная сложность, чтобы исследовать [геномное] пространство, которое мы не до конца понимаем, и это своего рода золотая середина».

MPRAs могут помочь прояснить генетические основы заболеваний, выявить изменения, вызванные эволюцией, и направлять разработку терапевтических средств нового поколения. Их можно даже использовать для обучения систем искусственного интеллекта проектированию генетических контуров с применением в здравоохранении и других секторах. Индивидуализированные регуляторные элементы могли бы, например, усилить контроль над генными терапиями и обеспечить, чтобы лечение активировалось только в определенных тканях и при определенных условиях, сводя к минимуму вездесущую угрозу побочных эффектов. «Мы действительно пытаемся создать механизмы, которые можно было бы включать очень легко и просто, и даже без лекарств», — говорит Ахитув.

Конечно некодирующий геном — это не полностью «черный ящик». Исследователи идентифицировали тысячи белков, называемых факторами транскрипции, которые играют установленную роль в экспрессии генов, и точно определили последовательности ДНК, с которыми они связываются. Составляя карту этих последовательностей по всему геному, ученые могут предсказать, какие из них инициируют экспрессию генов — они известны как промоторы — а какие действуют как регуляторы интенсивности, или энхансеры, усиливая эту экспрессию в определенных условиях. Они также могут искать признаки регуляторных элементов, исследуя участки генома, в которых ДНК открыта и готова к транскрипции. Хромосомная ДНК обернута вокруг белков, образуя материал, называемый хроматином. Элементы в плотно упакованном хроматине, как правило, недоступны для регуляторных белков и, следовательно, неактивны.

Но проверка этих предсказаний исторически предполагала кропотливый процесс тестирования того, как различные мутации в отдельных энхансерах или промоторах влияют на соседние гены. «Я понял, что если мы когда-либо захотим действительно проанализировать и предсказать энхансеры с помощью вычислений, нам понадобится не несколько энхансеров, а сотни тысяч», — говорит Александр Старк, вычислительный биолог из Исследовательского института молекулярной патологии в Вене. За последние 15 лет Старк и другие ученые разработали ряд методов, известных под общим названием MPRA, которые позволяют проводить такие функциональные оценки в прежде невообразимых масштабах.

Основные принципы этих анализов были сформулированы в 2009 году. Джей Шендур и его коллеги с помощью клонирования создали библиотеки небольших кольцевых фрагментов ДНК, известных как плазмиды, в которых репортерный ген был физически связан с сотнями вариантов конкретного промотора. Эти варианты представляли все возможные однонуклеотидные мутации в данной регуляторной последовательности, что позволило исследователям изучить роль каждого нуклеотида в отдельности. Для идентификации каждый вариант был связан с уникальным ДНК-«штрих-кодом». Исследователи инкубировали in vitro свою библиотеку с молекулярными компонентами, необходимыми для транскрипции, а затем секвенировали транскрибированные РНК, чтобы определить уровень экспрессии, вызванный каждым вариантом промотора, по количеству связанного с ним штрих-кода.

Сегодня MPRAs обычно проводятся на культивируемых клетках. Они вводятся либо с помощью «эписомального» подхода на основе плазмид, которые никогда не встраиваются в геном хозяина, либо с помощью лентивирусов, которые интегрируют библиотеки в случайные участки хромосом. Тьюхи предпочитает эписомальный метод из-за его высокой эффективности. «Как правило, в любой отдельной клетке получается гораздо больше копий, поэтому можно протестировать гораздо больше конструкций», — говорит он. Но у лентивирусов есть свои преимущества — например, они могут инфицировать типы клеток, которые, как правило, устойчивы к доставке плазмид, такие как стволовые клетки.

Хотя штрих-кодирование необходимо для работы MPRAs, оно также представляет собой одну из основных проблем этой технологии. Многие из тестируемых регуляторных вариантов различаются всего на один или два нуклеотида, тогда как типичный штрих-код охватывает 20 оснований, что потенциально создает еще более значительные помехи. «Эффект штрих-кода перевешивает эффект варианта», — объясняет генетик Хеджунг Вон. В результате исследователи обычно используют от 10 до 100 штрих-кодов для каждой тестируемой последовательности. Кроме того, для интерпретации результатов исследователям необходимо знать, какой штрих-код связан с каждым вариантом последовательности. Но процесс обмена ДНК, известный как рекомбинация, может спутать эти связи.

В качестве решения Старк и его коллеги разработали альтернативный формат MPRA, названный STARR-seq. Этот подход использует преимущества того факта, что энхансеры часто расположены в генных последовательностях и, таким образом, включаются в транскрибируемую РНК. «Вы клонируете только одну библиотеку фрагментов и эта библиотека затем становится собственным штрих-кодом», — говорит Старк, добавляя, что этот подход может снизить стоимость и сложность анализа.

Современные MPRA можно проводить в огромных масштабах, что позволяет проводить поистине широчайшие исследования регуляторного ландшафта всего генома. «Самый крупный MPRA, который мы проводили, насчитывал в общей сложности около двух миллиардов фрагментов», — рассказывает Бас ван Стинсел, исследователь в области геномики из Нидерландского института рака в Амстердаме. Многие из этих экспериментов были сосредоточены на картировании расположения энхансеров по всему геному и изучении того, как они управляют экспрессией генов в конкретных тканях. Старк говорит, что когда его группа начала проводить STARR-seq на клетках плодовой мухи и млекопитающих, она обнаружила множество элементов, которые остались бы незаметными при использовании других методов, поскольку они обычно находятся в неактивном состоянии в плотно упакованном хроматине. Но в упрощенных условиях анализа STARR-seq их можно легко обнаружить. «Они все еще могут работать как «голая» ДНК», — говорит Старк.

В прошлом году исследователи под руководством Ахитува представили систематический анализ почти всех известных регуляторных последовательностей в геноме человека. Они проверили, как различные комбинации промоторов и энхансеров влияют на активность репортерного гена в трех линиях клеток человека. Группа ван Стинсела использовала MPRAs для изучения взаимодействия между регуляторными элементами генома. «Энхансеры и промоторы демонстрируют определенную степень совместимости — степень того, могут ли они взаимодействовать друг с другом», — говорит он. «Это не черно-белая картина — это градиентные уровни совместимости».

A 3D computer illustration of the structure of a RNA polymerase II elongation complex with upstream nucleosome extracted from human nuclei. — Регуляторные элементы в ДНК (коричневого и оранжевого цвета) часто плотно обернуты вокруг белков. Источник: Изображение Mol* из базы данных RCSB PDB (RCSB.org) с идентификатором PDB 8XRJ (T. Kujirai et al./Nature Commun.)

Его исследовательская группа часто создает библиотеки, просто разбивая хромосомную ДНК на мелкие фрагменты, что позволяет изучать естественный геномный ландшафт. Однако когда цель состоит в том, чтобы понять, почему тот или иной элемент функционирует именно так, иногда предпочтительнее синтезировать ДНК, содержащую комбинации известных регуляторных последовательностей. Ахитув говорит, что его группа начинает с нейтральных последовательностей. «Затем мы начинаем добавлять к ним «слова», такие как сайты связывания факторов транскрипции, и экспериментируем с расстояниями, порядком, количеством, ориентацией, наблюдая, что работает, а что нет». В качестве альтернативы его группа может систематически мутировать конкретный энхансер или промотор, чтобы определить последствия.

Однако MPRA могут исследовать лишь ограниченную часть геномного ландшафта. Синтетические библиотеки ДНК становятся сложными и дорогостоящими в производстве по мере увеличения их длины, а размер ДНК, который можно упаковать в плазмиду или лентивирус, ограничен. Ван Стинсел отмечает, что библиотеки MPRA редко содержат последовательности длиной более 1000 нуклеотидов — это серьезное ограничение, поскольку естественные регуляторные области генома могут быть гораздо больше.

Таким образом, MPRA дают редукционистское представление о регуляции генов. Например, остаются открытыми вопросы о том, насколько хорошо различные конструкции MPRA воспроизводят естественное распределение хроматиновых белков на данной последовательности в самом геноме, а поведение геномных элементов в MPRA может не отражать то, как они работают в своем нормальном геномном контексте. «Репортерные анализы показывают, что может делать последовательность, но не обязательно то, что она на самом деле делает в геноме», — отмечает Тьюхи. Таким образом, MPRA требуют значительной валидации — которую можно провести, например, с помощью стратегий редактирования генов на основе CRISPR или трансгенных моделей животных.

Появляются альтернативные дизайны анализов, которые могут дать более значимые с биологической точки зрения результаты. В прошлом году лаборатория Ахитува описала метод под названием Capture-C, в котором исследователи сначала идентифицируют регуляторные элементы, которые физически взаимодействуют, а затем используют их в качестве строительных блоков для проведения эксперимента MPRA. По данным Ахитува, этот метод оказался особенно эффективным для выделения элементов-сайленсеров, которые подавляют, а не стимулируют экспрессию генов. «В ходе нашего анализа мы обнаружили более 1000 сайленсеров, которые исторически было очень сложно охарактеризовать».

Регуляция генов зависит от местоположения, времени и условий окружающей среды, и анализ MPRA, проводимый на статичной клеточной культуре, неизбежно упускает из виду элементы, которые активируются только при определенных условиях. Соответственно, многие исследователи разрабатывают различные экспериментальные подходы, чтобы выяснить, как различные триггеры влияют на регуляторную активность. Специалист по вычислительной биологии Анат Креймер использует данные MPRA для изучения регуляторных путей, лежащих в основе нормального и аномального развития мозга. В ходе одной серии исследований она и её коллеги собрали данные MPRA за несколько временных точек, чтобы зафиксировать изменения в активности энхансеров по мере того, как эмбриональные стволовые клетки развиваются в предшественники зрелых нейронов. «Мы разработали вычислительную модель, чтобы понять, какие факторы транскрипции имеют значение для нейронной дифференцировки», — объясняет Креймер. Она, Ахитув и их коллеги использовали эти данные для реконструкции регуляторной схемы развития мозга и показали, что как временные параметры, так и клеточная среда модулируют активацию или репрессию генов различными регуляторными доменами.

Другие группы изучают, как различные регуляторные элементы реагируют на конкретные физиологические и средовые триггеры. Группа Тьюхи, например, разрабатывает MPRAs для отдельных клеток, которые оценивают влияние вариантов регуляторных последовательностей в отдельных клетках, а не в клеточных популяциях. Они используют этот подход, чтобы понять, как различные варианты регуляторных последовательностей или мутации приводят к аномальной активации Т-клеток в контексте аутоиммунных заболеваний.

MPRAs также могут помочь понять генетику, лежащую в основе заболеваний человека. Десятилетия популяционных геномных ассоциативных исследований выявили бесчисленное количество вариантов, имеющих явную связь с такими заболеваниями, как болезнь Альцгеймера, диабет и рак. Но многие из этих вариантов находятся за пределами кодирующих белок последовательностей. В прошлом году Вон и ее коллеги разработали MPRA для анализа почти 18 000 генетических вариантов, связанных с восемью психическими расстройствами. Тщательно сравнивая эти данные друг с другом и с различными последовательностями отрицательного контроля, ее группа выявила подгруппу мутаций, которые оказывают явное влияние на экспрессию генов. Эти мутации «продемонстрировали практически все свойства, которые только можно представить для причинных вариантов», — говорит Вон, добавляя, что варианты, выявленные таким образом, в конечном итоге могут быть использованы для разработки более эффективных инструментов диагностики и прогнозирования риска.

Другие группы также применяют MPRAs для изучения генетических основ заболеваний. Например, ван Стинсел входит в состав голландского консорциума, который исследует, как мутации в регуляторных последовательностях способствуют развитию различных видов рака. А многонациональный консорциум «Влияние геномных вариаций на функции» (Impact of Genomic Variation on Function Consortium) использует MPRAs для оценки потенциального воздействия более миллиона вариантов регуляторных последовательностей на здоровье человека.

MPRAs даже открывают окно в эволюцию. В 2021 году исследователи под руководством эволюционного генетика Дэвида Гокмана использовали этот анализ для оценки функционального влияния последовательностей, отличающихся между геномом современного человека и геномами неандертальцев и денисовцев. Они обнаружили сотни регионов с измеримым регуляторным влиянием в клетках мозга и костей. Ахитув, соавтор исследования, говорит, что он и Гохман продолжают изучать, как эти и другие варианты повлияли на характерные физические и когнитивные особенности современных людей.

Учитывая объем и сложность данных, получаемых в ходе типичного эксперимента MPRA, многие группы обратились к машинному обучению, чтобы разобраться в результатах. «Это действительно начинает приносить результаты», — говорит ван Стинсел. В феврале группа под его руководством представила модель регуляции активности промотора (PARM). После обучения на данных MPRA, включающих десять миллионов геномных фрагментов, PARM смогла точно предсказывать последовательности, которые активируют или подавляют транскрипцию как в исходном состоянии, так и в ответ на триггеры, такие как изменение температуры и воздействие определенных химических веществ. PARM также оказывается полезным инструментом в исследованиях ван Стинсела в области рака, позволяя его группе моделировать последствия различных мутаций. «Можно просто ввести в модель любую мутантную форму ДНК и она покажет, насколько она активна — и обычно прогнозы оказываются довольно точными», — говорит он.

Другие модели позволяют исследователям развивать эти принципы. «Меня особенно вдохновляет процесс генерации, при котором с помощью этих моделей можно проектировать синтетические последовательности, способные решать задачи, которые, возможно, не имеют аналогов в геноме человека», — говорит Тьюхи. В 2024 году он смог доказать, что модель глубокого обучения, обученная на данных MPRA, способна проектировать регуляторные элементы, управляющие тканеспецифической экспрессией генов. Исследователи проверили эти последовательности с помощью флуоресцентных репортерных генов в культивируемых клетках и на живых животных, продемонстрировав, что эти элементы экспрессировались специфически в тканях печени и нейронах эмбрионов мышей. Эти модели все еще находятся в зачаточном состоянии, но Тьюхи видит возможности для улучшения их эффективности путем постоянного переобучения на новых экспериментальных данных.

Однако на данный момент эти модели с трудом обобщают свои прогнозы на широкий спектр типов клеток и экспериментальных условий. «Вопрос на миллион долларов: как обучить модель предсказывать регуляторную активность на типе клеток, который ранее не рассматривался в MPRA?» — говорит Креймер. Ответ, отчасти, заключается в «большем объеме данных», и хорошая новость заключается в том, что уже имеется достаточно учебного материала. Например, репозиторий MPRABase группы Ахитува включает более 17 миллионов последовательностей из 129 экспериментов, проведенных несколькими лабораториями. Но Вон предупреждает, что разнообразие методов MPRA может затруднять прямое сравнение — и, следовательно, объединение — результатов разных экспериментов.

Если эти проблемы будут решены, выгода может быть огромной. Ахитув особенно воодушевлен перспективами для терапевтических средств следующего поколения — от генных терапий, обеспечивающих точную тканевую специфичность и превосходный контроль над уровнями экспрессии, до генетических манипуляций, которые избирательно заставляют опухолевые клетки самоуничтожаться или раскрывать себя иммунной системе. «Есть много направлений, где ИИ был бы невероятно полезен», — утверждает он.