Умное программное обеспечение раскрывает регуляцию генов в

Когда нужно изучить, как устроены регуляторные цепи клетки, некоторые исследователи используют пипетки. Эмили Миральди обращается к клавиатуре.

Компьютерный и системный биолог в Детской больнице Цинциннати в Огайо, Миральди использует математику, чтобы понять, что заставляет клеточные системы работать, и предсказать, как они могут реагировать на окружающую среду. В качестве постдока она работала с вычислительным биологом Ричардом Бонно и иммунологом Дэном Литтманом в Нью-Йоркском университете. В 2006 году Бонно и его коллеги создали программу для компьютерного моделирования под названием Inferelator, которая использует данные о генной экспрессии для вывода о том, как ДНК-связывающие белки, называемые транскрипционными факторами, контролируют экспрессию определенных генов. Исследователи могут использовать полученные карты сетей для отслеживания потока информации в клетке, выявления - и, возможно, даже обратного конструирования - регуляторов, контролирующих ключевые процессы.

Однако определить структуру этих цепей довольно сложно. Даже самые простые данные по экспрессии генов могут быть объяснены различными сетевыми архитектурами, а взаимодействия, которые кажутся прямыми, могут таковыми не являться. Факторы транскрипции часто работают согласованно, модифицируются ферментами и могут действовать на расстоянии десятков или сотен тысяч оснований ДНК от своего целевого гена. Хотя в геноме человека идентифицировано около 1600 факторов транскрипции, информация о точных последовательностях (или "мотивах"), где они связываются с ДНК, для многих из них отсутствует. Кроме того, геномная ДНК в клетке упакована белками в комплекс, называемый хроматином, который может препятствовать связыванию транскрипционных факторов.

Чтобы решить некоторые из этих проблем, команда Бонно использовала другой тип экспериментальных данных для усовершенствования Inferelator. Они использовали информацию, полученную с помощью метода, который позволяет определить, какие области хроматина в геноме не упакованы и доступны для связывания транскрипционных факторов. Метод называется ATAC-seq - анализ доступного для транспозазы хроматина с помощью высокопроизводительного секвенирования. Перенастроив программное обеспечение для использования этих данных, исследователи смогли выяснить, какие гены меняют экспрессию в тандеме, и какие мотивы связывания ДНК транскрипционного фактора доступны для влияния на эту экспрессию.

В исследовании Миральди и ее коллеги использовали обновленный Inferelator для отслеживания сетей, состоящих из тысяч транскрипционных факторов в Т-хелперах 17-го типа. Они обнаружили, что транскрипционные факторы STAT3 и FOXB1 в этих клетках являются ключевыми регуляторами генов, которые связаны с воспалительными заболеваниями кишечника. "Эта работа стала первым случаем, когда мы смогли подтвердить, что если начать с данных РНК-секвенирования и ATAC-секвенирования, то можно получить более точную генно-регуляторную сеть по сравнению с данными только по экспрессии генов", - рассказывает Миральди.

Сегодня Inferelator является лишь одним из быстро растущей коллекции программных инструментов для анализа генно-регуляторных сетей (GRN), будь то на уровне популяций или отдельных клеток. Они могут опираться только на данные о генной экспрессии, но некоторые используют другие типы данных или моделируют систематическое нарушение регуляторных сетей. Другие помогают выявить сиквенсы, которые направляют активность транскрипционных факторов. "Если вы хотите предсказать поведение клеток, - говорит Миральди, - вам нужно понять, как они устроены".

Вопрос умозаключения

Исследователи могут выявить регуляторные сети экспериментально. Используя такие методы, как иммунопреципитация хроматина (при которой антитела определяют, где и когда транскрипционные факторы связываются с ДНК) и анализ экспрессии генов, исследователи могут соотнести связывание транскрипционных факторов с экспрессией генов и определить участки ДНК, где они действуют. После этого они могут построить сети для объяснения данных. Но эти методы трудоемки и могут потребовать антител, которые либо не были созданы, либо имеют низкое качество. Они, как правило, сосредоточены на одном белке за один раз. А интересующий тип клеток может быть недоступен или непрактичен для получения в лаборатории. Метод GRN позволяет исследователям обойти эти проблемы путем анализа данных о генной экспрессии и вычисления этих сетей. Полученные сети могут быть использованы при разработке эксперимента, что, в свою очередь, позволяет уточнить вычислительные модели.

Простейшие подходы к анализу GRN основываются на корреляции - тенденции к синхронному повышению и понижению экспрессии пар генов. "Если я вижу, что от клетки к клетке эти два гена всегда повышаются и понижаются вместе, то есть они всегда коррелируют, то высока вероятность того, что между ними существует регуляторная связь", - объясняет Сювей Чжан, компьютерный эксперт из Технологического института Джорджии, которая создала свои собственные инструменты для GRN-интерпретации.

По словам Сеппе де Винтера, аспиранта Левенского католического университета в Бельгии, который помог его разработать, еще один инструмент GRN-индукции под названием SCENIC+ использует машинное обучение. Кроме того, исследователи могут свести GRN к математическим уравнениям. В январе Джоанна Хандзлик, в то время аспирантка факультета вычислительных наук Университета Северной Дакоты, использовала подход к моделированию под названием "генные схемы" - систему связанных дифференциальных уравнений, каждое из которых описывает один ген - для вывода регуляторных связей между дюжиной транскрипционных факторов и генов-мишеней, участвующих в созревании клеток крови.

Поскольку такие модели требуют больших вычислительных мощностей, исследователи обычно упрощают их, включая меньшее количество белков или сводя их к Булевым уравнениям, в которых каждое взаимодействие либо включено, либо выключено. Однако Хандзлик бросила все силы на решение этой проблемы. В течение нескольких дней она параллельно запускала 100 вычислительных ядер на высокопроизводительном вычислительном кластере университета, решая уравнения десятки миллионов раз, пока не пришла к набору параметров для своей модели, которые отражали экспериментальные данные. Затем Хандзлик смоделировала, что произойдет, если она устранит или уменьшит экспрессию одного из двух транскрипционных факторов, называемых PU.1 и GATA1. "Мы увидели, что модель действительно согласуется с экспериментальными данными", - говорит она.

Момент "а-га!"

Авив Регев, пионер в области биологии единичных клеток, большую часть своей карьеры посвятила поиску GRN. По ее словам, один из мотивов, побудивших ее группу к созданию все более тонких методов обработки и профилирования одиночных клеток, "был обусловлен тем, насколько важной для меня была эта тема".

Предположим, говорит она, что вы нарушаете работу одного гена в популяции клеток. Наблюдая за тем, какие гены подвергаются воздействию, вы можете смоделировать регуляторную цепь. Но чтобы подтвердить свою гипотезу, вам может понадобиться нарушить десятки или даже сотни других генов. Это быстро становится непрактичным, говорит она, но не на одноклеточном уровне, где каждая клетка - это собственный набор данных. "Мы подумали, что в геномике единичных клеток мы сможем сделать то, что просто не могли сделать в большом количестве".

Регев и ее коллеги применили одноклеточные методы и новые вычислительные подходы для изучения того, как 18 специализированных иммунных клеток из костного мозга, называемых дендритными клетками, реагируют на компонент клеточных стенок бактерий. Эти 18 клеток, по их словам, фактически представляют собой две популяции. Сосредоточившись на более крупной субпопуляции, они обнаружили, что, хотя все они были стимулированы бактериальной молекулой в одно и то же время, не все отреагировали на нее в одинаковой степени. Используя эти тонкие различия между клетками, команда вывела простую связанную цепь, которая обозначила транскрипционные факторы STAT2 и IRF7 как "главные регуляторы" противовирусной активности.

"Вы можете понять довольно много, основываясь только на этих различиях между отдельными клетками", - говорит она.

Для Энтони Гиттера, специалиста по вычислительной биологии из Университета Висконсин-Мэдисон, работа Регев стала моментом "а-га". Изучив профиль каждой отдельной клетки в поисках подсказок об их относительном положении на пути клеточной дифференцировки, он увидел, что можно организовать их в хронологическом порядке в "псевдовремени".

"Псевдовремя позволяет упорядочить клетки, чтобы увидеть, какие причины предшествуют следствиям", - поясняет Гиттер. Он пытается "оценить временную точку для каждой клетки, используя измерения экспрессии этой одной клетки относительно других". Затем исследователи могут использовать эти оценки псевдовремени для построения GRN.

Команда Гиттера создала инструмент под названием SINGE на основе этой идеи и применила его к эмбриональным стволовым клеткам мыши, когда они развивались в эндодермальные клетки. Это сработало, но результаты, по его словам, были недостаточными. "Похоже, существует некий фундаментальный предел того, как много можно узнать о регуляции генов, если единственными данными, которые вы собираетесь изучать, является экспрессия генов".

Проблема, говорит Джейсон Буэнростро, содиректор Обсерватории регуляции генов в Массачусетском технологическом институте, заключается в том, что одни только данные о генной экспрессии не могут в достаточной степени "ограничить" количество возможных сетей, которые могли бы объяснить эти данные. Например, два коррелирующих гена могут регулироваться одним и тем же транскрипционным фактором или двумя разными, регулируемыми третьим, независимым транскрипционным фактором.

В исследовании, опубликованном в 2020 году, компьютерный ученый Т. М. Мурали из Вирджинского технологического института описал вычислительный конвейер под названием BEELINE, который они использовали для тестирования десятка методов GRN-интерпретации на основе секвенирования РНК в единичных клетках на стандартных и синтетических наборах данных. "Большинство методов относительно плохо справляются со своей задачей", - утверждает Мурали, по крайней мере, когда дело доходит до взаимодействий - они работают примерно так же хорошо, как случайное предсказание, отмечает он. Решение, по его словам, состоит в том, чтобы включить дополнительные данные.

Сотрудники Буэнростро, например, разработали вычислительную систему под названием FigR. Она использует данные секвенирования РНК единичных клеток и ATAC-seq для интеграции экспрессии транскрипционных факторов и их целевых генов с идентификацией белок-связывающих мотивов и данными о доступности хроматина. "Когда мы это сделали, мы начали очень хорошо видеть, что многие транскрипционные факторы, которые коэкспрессируются с нашим любимым геном, на самом деле не имеют сиквенса, обогащенного нашим любимым геном". Это означает, что фактору транскрипции негде связываться и регулировать ген, поэтому "они исключаются из анализа", - говорит он. "Мы также видим много сиквенсов, которые обогащены, но транскрипционный фактор даже не экспрессируется".

Последняя версия Inferelator также использует данные ATAC-seq единичных клеток. Но она дополнительно ограничивает эту информацию, учитывая активность транскрипционного фактора.

"Уровень экспрессии транскрипционного фактора ничего не говорит о том, что он делает в тот момент, когда вы наблюдаете его по данным секвенирования, - объясняет Клаудия Скок Гиббс, которая руководила разработкой обновленной версии. Это потому, что некоторые из них действуют с партнерами или должны быть химически модифицированы, чтобы стать активными. Или же их сайты связывания могут быть недоступны для связывания. Inferelator 3.0 рассматривает уровень экспрессии целевых генов вместе с базами данных мотивов транскрипционных факторов и хроматиновой доступностью потенциальных сайтов связывания в геноме. Это означает, что он может определить, какие транскрипционные факторы доступны для стимуляции или репрессии целевого гена в данном типе клеток. Затем эти показатели активности вставляются в один из трех алгоритмов построения сети.

Но для компьютерных моделей, чем больше переменных они включают, тем лучше они работают, говорит Бонно. Во многих случаях это увеличение производительности сводится к помехам. Чтобы сбалансировать эти конкурирующие силы, говорит он, программное обеспечение начисляет "штраф" каждому белку в модели - если только этот белок не активен в интересующем нас гене. "Если у этого транскрипционного фактора есть сайт связывания вблизи гена-мишени, который также открыт в данных ATAC-seq для этого типа клеток, мы говорим, что ему не придется платить такой большой штраф".

Скок Гиббс использовал Inferelator 3.0 для выявления регуляторов в клетках мозга, называемых трансмедуллярными нейронами у плодовых мушек дрозофилы. Эти нейроны имеют несколько форм, и можно преобразовать одну из них в другую, изменив экспрессию одного гена. "Мне удалось показать, что я могу найти конкретный транскрипционный фактор и гены, на которые он нацелен, которые отвечают за это", - говорит она.

Данные о генетической изменчивости также могут помочь сделать вывод о GRN. За последнее десятилетие сетевой биолог Джон Квакенбуш из Гарвардской школы общественного здравоохранения и его коллеги создали виртуальный "зоопарк" алгоритмов с такими названиями, как PANDA, LIONESS и CONDOR. Эти методы используют стратегию машинного обучения, называемую передачей сообщений, а также знания о том, где в геноме могут связываться факторы транскрипции, чтобы угадать и затем оптимизировать GRN. Последняя разработка, EGRET, использует информацию о генетических вариантах для адаптации GRN к конкретным людям и типам клеток. Это происходит, по сути, за счет учета того, как вариации сиквенса, называемые полиморфизмами, могут влиять на связывание транскрипционных факторов.

Полученные сети могут показать, как варианты в некодирующих частях генома могут привести к заболеванию. В ходе анализа 119 человек, потомков народа йоруба из Западной Африки, Квакенбуш и его коллеги показали, что полиморфизмы, связанные с ишемической болезнью сердца, в основном влияют на GRNs в сердечных клетках, а полиморфизмы, связанные с аутоиммунными заболеваниями, влияют на иммунные клетки. "Мы видим предсказанные нами нарушения в регуляции генов связанных с заболеваниями транскрипционных факторов в наиболее релевантных типах клеток, которые мы рассматривали", - говорит соавтор исследования Дебора Вейхилл.

Планы по нокаутам

В 2016 году Регев и клеточный биолог Джонатан Вайсман из Массачусетского технологического института, а также их коллеги стали авторами двух исследований, описывающих Perturb-seq - метод объединенного скрининга на основе технологии редактирования генов CRISPR. Perturb-seq позволяет исследователям сокращать или выключать выбранные гены, используя секвенирование РНК одной клетки в качестве показаний. По словам Вайсмана, предыдущие подходы к CRISPR-скринингу, как правило, использовали либо генетические репортеры, либо рассматривали конкретные фенотипы. Но многие биологические аспекты будут проходить под контролем таких стратегий. "Мы с Авивом независимо друг от друга пришли к идее, что с помощью секвенирования РНК можно наблюдать за всеми транскрипционными реакциями одновременно", - говорит Вайсман. "Это даст вам гораздо больше информации и позволит понять, какова реальная базовая функция гена".

В одном из исследований исследователи использовали Perturb-seq для анализа влияния 24 транскрипционных факторов на гены, участвующие в стимуляции дендритных клеток, полученных из костного мозга. В другом они нацелились на гены, связанные с клеточным стрессом, называемым реакцией развернутого белка. С тех пор Регев перенес этот метод на животных и соединил его с количественным определением белков в методе под названием Perturb-CITE-seq. Тем временем команда Вайсмана распространила Perturb-seq на весь геном, отключив почти 10 000 человеческих генов в более чем 2,5 миллионах клеток. "Теперь вы как бы встряхиваете клетку всеми возможными способами и задаетесь вопросом, как она реагирует?" - поясняет Вайсман.

В качестве альтернативы исследователи могут нарушить генетические сети in silico. Кенджи Камимото, биолог по стволовым клеткам и развитию в лаборатории Саманты Моррис в Медицинской школе Вашингтонского университета, создал CellOracle - программное обеспечение, которое объединяет данные секвенирования РНК одной клетки и ATAC-seq, чтобы сначала определить GRN, а затем нарушить ее. Изучая изменения в полученных картах судьбы клеток, исследователи могут визуализировать, как нарушение транскрипционных факторов может изменить популяцию клеток.

Камимото применил CellOracle для систематического исследования белков, которые могут перепрограммировать клетки соединительной ткани таким образом, чтобы они образовывали другие типы клеток, выявив факторы, которые могут значительно повысить эффективность этой трансформации. По словам Морриса, этот инструмент также использовался по меньшей мере в 5 рецензируемых исследованиях и 13 препринтах. В одном из них биомедицинский инженер Тим Херпелинк и его коллеги использовали CellOracle для моделирования потери транскрипционного фактора Sox9 при развитии костей. "Эксперименты с нокаутами занимают огромное количество времени, особенно если вы хотите проводить их in vivo, - говорит Херпелинк. А Sox9 особенно сложен для такого анализа, добавляет он, поскольку потеря гена приводит к летальному исходу у развивающихся эмбрионов.

Валидировать, валидировать, валидировать

Чтобы правильно использовать данные ATAC-seq, исследователи должны знать, где находятся сайты связывания транскрипционных факторов. Обычно, говорит Миральди, исследователи находят их, используя, по сути, алгоритм сопоставления текста. Но в июле она и ее коллеги описали другой вариант: использование глубоких нейронных сетей для поиска этих сайтов в данных ATAC-seq. По словам Миральди, исследователи могут использовать алгоритм, названный maxATAC, для имитации иммунопреципитации хроматина и секвенирования ДНК в редких клетках, для которых нецелесообразно проводить такие эксперименты, в том числе в образцах пациентов. Команда Миральди использовала maxATAC для выявления влияния транскрипционных факторов MYB и FOXP1 на распространенное аутоиммунное заболевание - атопический дерматит.

По словам Миральди, алгоритм оказался примерно в четыре раза лучше, чем обычное сканирование мотивов транскрипционных факторов при поиске сайтов связывания. Это должно "напрямую отразиться на улучшении выводов о генно-регуляторных сетях, поскольку вы намного точнее определяете сайты связывания транскрипционных факторов". Но он не может найти все: maxATAC включает модели только для 127 из почти 1 600 идентифицированных человеческих транскрипционных факторов.

Чтобы устранить этот пробел, исследователи могут снова обратиться к глубинному обучению. В 2021 году вычислительный биолог Аншул Кундадже из Стэнфордского университета и Джулия Цайтлингер из Института медицинских исследований Стоуэрса описали конволюционную нейронную сеть под названием BPNet. Она использует форму данных иммунопреципитации хроматина под названием ChIP-nexus для изучения с однонуклеотидным разрешением, с какими именно последовательностями ДНК связываются транскрипционные факторы - по крайней мере, в клетках, по которым у исследователей есть данные.

Они применили этот подход к четырем транскрипционным факторам, используемым для создания индуцированных плюрипотентных стволовых клеток - Oct4, Sox2, Klf4 и Nanog - и обнаружили неожиданные тонкости в том, как эти белки связываются с ДНК в стволовых клетках. Например, оказалось, что Nanog обычно связывается с Sox2, но только если сайты связывания белков расположены на расстоянии 10,5 оснований друг от друга, что соответствует периодичности спирали ДНК. "Даже для четырех очень хорошо изученных факторов плюрипотентности мы находим новые способы кооперативности", - комментирует Кундадже.

Какой бы метод GRN вы ни выбрали, в конце концов, это всего лишь гипотеза. Как и все проблемы биоинформатики, заключение GRN всегда даст ответ. Но чтобы определить, имеет ли этот ответ смысл, говорит Моррис, необходимо "валидировать, валидировать, валидировать".

По словам Регева, по мере усложнения методов проблема становится масштабной: в какой-то момент становится невозможно проверить все переменные и их комбинации. "В мире недостаточно клеток", - говорит она. Однако, отмечает она, возможно, удастся разработать достаточно эффективные эксперименты, чтобы исследователи могли предсказывать другие результаты экспериментов, не испытывая их на практике.

Другой способ использования Perturb-seq предлагает одно из решений, рассматривая эффект нескольких нарушений в одной и той же клетке. Например, в своей работе 2016 года Регев и коллеги обнаружили некоторые клетки, которые получили целых три CRISPR-мишени РНК на клетку. Сравнивая их с клетками, получившими всего одну или две РНК-мишени, они обнаружили случаи, когда эффект был синергичным, что свидетельствует о регуляторном взаимодействии. Такие комбинаторные исследования, по ее словам, "являются передовыми - это то, куда движется наука". И как только исследователи смогут разработать клеточную схему, они смогут с ней работать, чтобы конструировать клетки или восстанавливать их.

"Возможно, - говорит Буэнростро, - это самая важная проблема в биологии".

Умное программное обеспечение раскрывает регуляцию генов в клетках