Искусственный интеллект расшифровывает грамматику генома

Авторы/авторы:
Искусственный интеллект расшифровывает грамматику генома
Иллюстрация: The Project Twins
-A
+A
25 августа 2025
36
0

Ученые пытаются расшифровать роль некодирующей ДНК в геноме человека с помощью инструментов искусственного интеллекта.

   В 1862 году Виктор Гюго написал своему издателю письмо, в котором поинтересовался, как продается его недавно опубликованный роман “Отверженные”, задав вопрос одним символом: "?" Ответ был: “!”. Эта история одной из самых кратких в мире переписки является не совсем недостоверной, но некоторые системы искусственного интеллекта (ИИ), ориентированные на геном, могут, подобно издателю французского писателя, осмысленно реагировать на столь же короткие запросы.

   Вместо подробных запросов, необходимых для эффективного использования чат-бота ChatGPT, Evo, модель искусственного интеллекта, обученная примерно 300 миллиардам нуклеотидных оснований, включая 80 000 полногеномных последовательностей микроорганизмов, по запросу с помощью "#" придумает новую последовательность ДНК. Это делается на основе других подобных биологических систем с которыми сталкивалась модель. Получив запрос, например, "030", инструмент искусственного интеллекта regLM может выдать последовательности из 200 оснований, которые, как ожидается, проявят регуляторную активность в любой из трех клеточных линий человека.

   Evo и regLM являются частью быстро растущего набора инструментов, направленных на декодирование, интерпретацию и развитие "грамматики генома" - особенно той его части, которая не кодирует белки. Когда Google DeepMind выпустила AlphaFold в 2020 году, компания заявила, что ей удалось решить "грандиозную задачу", стоявшую перед биологией десятилетиями, - предсказать трехмерную форму белка только по его последовательности. Но некодирующая часть генома может оказаться еще более сложной задачей.

   Данная последовательность аминокислот, как правило, складывается в одну и ту же форму, независимо от клеточного контекста. Такая предсказуемость не характерна для генома, в котором короткие функциональные последовательности — промоторы и энхансеры генов, участки запуска и остановки транскрипции — могут быть разбросаны по длинным участкам ДНК, которые кажутся бесцельными. Эти мотивы могут перекрываться, взаимодействовать на больших расстояниях, связываться с конкурирующими белковыми факторами или реагировать на сигналы, которые присутствуют только в определенных клетках или на определенных этапах развития. Они также плотно заключены в хроматин, комплекс ДНК и белка, который может быть более или менее доступен для внешних белков в зависимости от того, что делает клетка.

 “Как белки кодируются в геноме, как экспрессируются гены, когда и где, в каком количестве — это одна из самых захватывающих проблем в биологии”, 

   - говорит Стейн Аэртс, специалист по вычислительной биологии в Центре искусственного интеллекта и вычислительной биологии Католического университета Левена (Бельгия). Но с помощью обучения инструменты искусственного интеллекта могут обнаруживать тонкие различия между последовательностями и предсказывать, что они делают и как себя ведут, выявляя ключевые мотивы и даже оценивая влияние их изменения. Исходя из этого, модели искусственного интеллекта могут попытаться предсказать физиологическое воздействие генетических вариантов и даже направлять разработку новых последовательностей с заданными функциями.

   Эти инструменты несовершенны, и исследователи даже не могут прийти к единому мнению о том, как лучше всего оценить их эффективность. Но это делает эту область особенно интересной. "Совершенно очевидно, что это разрешимая проблема", - отмечает Джулия Цейтлингер, специалист по разработке и вычислительной биологии из Института медицинских исследований Стоуэрса (США), которая разработала модель искусственного интеллекта под названием BPNet и использует ее для расшифровки правил последовательности регуляции генов, - "но не совсем ясно, как именно ее разрешить".

   DeepSEA, один из первых инструментов геномного искусственного интеллекта, был разработан десять лет назад биологами-вычислителями Цзянь Чжоу и Ольгой Троянской из Принстонского университета (США). DeepSEA — это конволюционная нейронная сеть (CNN) - такая же архитектура глубокого обучения, которая используется для обучения компьютеров классифицировать изображения, например, кошек или собак. Чжоу и Троянская обучили модель на основе данных эпигенетики, включая связывание факторов транскрипции, доступность хроматина и модификации гистонов, в рамках исследовательского проекта "Энциклопедия элементов ДНК" (ENCODE). Модель научилась предсказывать наличие тех или иных признаков в 1000 базовых сегментах ДНК, с которыми она никогда не сталкивалась.

   Обучение DeepSEA позволило выявить биологические последствия и их тяжесть, вариантов последовательностей, связанных с заболеваниями человека. Например, один из вариантов последовательности, ассоциированный с раком молочной железы, называемый rs4784227, по-видимому, усиливает ДНК-связывающий белок FOXA1, в то время как вариант, ассоциированный с заболеванием крови - α-талассемией, создает возможный сайт связывания для GATA1, фактора транскрипции, участвующего в развитии клеток крови.

   С тех пор в этой области произошел настоящий скачок. Дэвид Келли, главный исследователь биотехнологической компании Calico Life Sciences (США), создал самостоятельно или совместно с другими разработчиками множество моделей искусственного интеллекта, многие из которых получили названия, вдохновленные собаками. К ним относятся Akita (для предсказания трехмерного сворачивания генома), Basset и Basenji (для предсказания регуляторных последовательностей) и Borzoi, который предсказывает экспрессию гена по всей длине. Эти модели породили множество разновидностей: Бассет породил Малинуа, а Борзая породила Скуби. Другие исследователи создали свои собственные (не собачьи) модели, в том числе Puffin, ChromBPNet и другие.

   Не все они являются CNN. Enformer — модель, которая предсказывает экспрессию генов и эпигенетические данные на больших расстояниях, а Borzoi “использует как конволюционные, так и трансформерные блоки”, - поясняет Келли, чья лаборатория разработала обе модели. “Конволюционные блоки отлично подходят для сбора локальных шаблонов последовательности, а затем трансформерные блоки помогают охватить более обширную область, чтобы рассмотреть локальные шаблоны в более широком контексте, прежде чем прогнозировать данные”. 

   Но какой бы ни была архитектура, они бывают двух основных форм, комментирует Аншул Кундадже, исследователь компьютерной геномики в Стэнфордском университете (США). Контролируемые модели и модели, работающие в соответствии с последовательностью, обучаются функциональным геномным данным - например, экспрессии генов или доступности хроматина - и учатся предсказывать функцию последовательностей ДНК, с которыми они никогда не сталкивались. Часто работая с разрешением в один нуклеотид или около того, эти модели могут идентифицировать ключевые мотивы, такие как функционально важные сайты связывания с белками, и прогнозировать значимость их изменения. Одна из них - DeepSEA; другая - ChromBPNet, которая предсказывает области доступности хроматина.

   Другой класс моделей - это неконтролируемые или самоконтролируемые "модели геномного языка" (GLM). Как и в случае с ChatGPT, они обучаются работе с огромным количеством текста — в данном случае с данными о геномных последовательностях — и получают задание либо предсказать следующее основание (или "токен") в последовательности, либо заполнить недостающие основания на основе окружающего контекста. Эти модели “не пытаются предсказать активность последовательности, они пытаются предсказать ее состав”, - поясняет Авантика Лал, специалист по машинному обучению в биотехнологической фирме Genentech (США).

   Совместно с ученым по машинному обучению Гекченом Эрасланом и их коллегами из Genentech Лал разработала regLM - языковую модель, которую они обучили, обозначив регуляторные последовательности краткими маркерами активности - например, "04<последовательность>", указывающими на сильную экспрессию в одной клеточной линии и низкую активность в другой. Таким образом, по словам Эраслана, эта модель не является полностью неконтролируемой — он называет ее моделью "от функции к последовательности". Но те же самые метки могут быть использованы для того, чтобы побудить regLM создавать новые последовательности с предсказуемым поведением.

   Evo 2, анонсированный 7 февраля этого года, был разработан на основе 9,3 триллионов пар оснований ДНК — “репрезентативного снимка геномов, охватывающего всю наблюдаемую эволюцию”, как говорится в препринте bioRxiv. Среди прочего, эта модель могла бы идентифицировать границы между интронами и экзонами, предсказывать последствия мутаций и генерировать "реалистичные" геномные последовательности. 

   По словам Кундадже, геномные модели ИИ также можно различать по типу регуляторных взаимодействий, которые они предсказывают. Модели "последовательность-функция" в основном идентифицируют важные мотивы ДНК (поскольку их функция зависит от их близости к регулируемому гену их называют "действующими в cis"), независимо от биологии, которая там происходит. Trans-модели, напротив, направлены на то, чтобы определить, какие гены регулируют другие гены, например, чтобы разделить сети генной регуляции. (Они называются транс-моделями, потому что факторы, которые опосредуют эту регуляцию, действуют на расстоянии). Но это, по словам Кундадже, “все еще очень проблематично”, поскольку транс—модели, которые обычно обучаются на таких данных, как экспрессия РНК, должны выводить причинно—следственные связи без данных, которые могли бы выявить эти причинно-следственные связи. Нет никакой гарантии, что два гена напрямую связаны только потому, что их экспрессия повышается и снижается в тандеме. Даже если это так, не всегда очевидно, в каком направлении работает взаимосвязь: регулирует ли A ген B или наоборот? Если затем эти модели просят предсказать влияние изменений — например, что произойдет, если данный ген будет отключен, — и модели часто дают сбой.

   Модели могут включать как цис–, так и транс-элементы, поясняет Сушмита Рой, специалист по вычислительной биологии из Университета Висконсин-Мэдисон, например, путем построения регуляторных сетей на основе данных о доступности хроматина и оценки этих прогнозов с учетом экспрессии генов. Но, возможно, первой моделью, которая по—настоящему преодолела этот разрыв, по словам Кундадже, является Scooby - версия Borzoi для единичных клеток. Используя как доступность хроматина, так и данные о транскрипции из одних и тех же клеток, Скуби одновременно предсказывает особенности генома и состояние клеток. “Это одна из первых цис-транс моделей”, - говорит он.

   Модели зависимости последовательности от функции могут также исследовать другие аспекты регуляции генов. В 2024 году группы под руководством Чжоу, Кундадже и Чарльза Данко, специалиста по вычислительной биологии из Корнеллского университета (США), независимо друг от друга описали модели зависимости последовательности от функции, способные предсказывать сайты инициации транскрипции. Чжоу использовал модель Puffin, разработанную его группой, для определения общих черт и расположения ключевых регуляторных элементов вокруг сайтов инициации транскрипции, включая сайты связывания транскрипционных факторов YY1, SP1, CREB и инициатора. Группа Данко обучила свою ИИ-модель на основе сопоставленных последовательностей генома и данных об инициации транскрипции от 58 человек, создав набор моделей, которые, по его словам, “впервые показали, как различия между индивидуумами в последовательности их генома влияют на характер инициации транскрипции”.

   В совокупности, по мнению Чжоу, эти исследования начинают выявлять мотивы, которые регулируют расположение и силу инициации транскрипции, включая фактор транскрипции TFIID. TFIID — это важный белковый комплекс, который связывается с промоторным элементом, известным как ТАТА-бокс, несмотря на то, что большинство эукариотических промоторов, по-видимому, не содержат ТАТА-боксы. “Одна из интерпретаций заключается в том, что TFIID выбирает наилучший из ”плохих вариантов", когда выбирает сайт в промоутере без TATA", - объясняет Данко.

   Большинство геномных моделей делают такие прогнозы на основе относительно небольших исходных данных — от нескольких сотен до нескольких тысяч оснований. Но регуляция генов может происходить на гораздо более протяженных участках геномного пространства, и некоторые модели способны делать прогнозы в таких масштабах. Например, Borzoi использует 524 килобаз исходной ДНК, а Evo 2 и недавно анонсированный Google DeepMind AlphaGenome могут работать с мегабазой. Эти модели могут преобразовать последовательности в обширные наборы оценочных данных. Например, при входной последовательности из 196 608 оснований ДНК человека, Enformer выдает 2131 прогноз связывания факторов транскрипции, 1860 модификаций гистонов, 684 прогноза доступности хроматина и 638 прогнозов экспрессии генов с разрешением в 128 оснований.

   Тем не менее, несмотря на обширные "поля применения" этих моделей, они все еще могут что-то упускать, говорит Джейкоб Шрайбер, специалист по вычислительной биологии из Научно-исследовательского института молекулярной патологии в Вене, потому что энхансеры могут оказывать биологически значимое воздействие, но невидимое для ИИ.  Другая проблема заключается в том, что, каким бы обширным он ни был, геном человека ограничен — например, в нем всего около 20 000-25 000 генов, и только часть из них регулируется специфичным для каждого типа клеток образом. Это означает, что на все эти миллиарды оснований приходится относительно немного примеров стратегий регулирования из которых модель может извлечь уроки.

“В ДНК может быть задействовано так много различных биохимических механизмов, что, вероятно, очень большое количество из них встречается только один или даже ноль раз в последовательности нашего генома”,

   - говорит инженер-биомедицин Карл де Бур из Университета Британской Колумбии (Канада).

   Один из подходов к расширению базы знаний ИИ-моделей заключается в том, чтобы предоставить им нечто большее, чем просто эталонные геномы. Например, некоторые разработчики моделей обучают свои инструменты на данных от нескольких индивидуумов или по всему филогенетическому древу, чтобы дать моделям представление о генетическом разнообразии.

   Другой подход, предложенный де Буром и Юсси Тайпале, системными биологами из Кембриджского университета (Великобритания), заключается в том, чтобы выйти за рамки естественных геномов и использовать полностью искусственные ДНК. Будучи постдоком Массачусетского технологического института, де Бур и его коллеги протестировали около 100 миллионов случайных последовательностей, каждая из которых имела длину 80 нуклеотидов — “примерно столько же, сколько в геноме человека” — на их способность стимулировать экспрессию флуоресцентного белка в дрожжах (Saccharomyces cerevisiae). (Геном дрожжей состоит примерно из 12 миллионов оснований, по сравнению с примерно 3 миллиардами в геноме человека.) По словам де Бура, такой подход “на самом деле намного лучше” для понимания грамматики генома, чем использование геномной ДНК, “потому что все сигналы, которые вы видите в случайной ДНК, являются причинно-следственными”. Если вы видите флуоресценцию, последовательность активна. Геном, напротив, является продуктом эволюции, а это означает, что элементы могут располагаться в результате селективного воздействия, а также функционирования.

   По мнению де Бура, эксперимент с дрожжами позволил сделать два ключевых вывода. Во-первых, он подтвердил, что “вероятно, в регулирующих областях происходят широко распространенные биофизические взаимодействия”. Функциональные мотивы не были случайным образом расположены в активных последовательностях; они были расположены в определенных конфигурациях — например, в соответствии с расстоянием между витками двойной спирали ДНК. Второе открытие касалось важности взаимодействия низкоаффинных транскрипционных факторов с ДНК. Исследователи обнаружили, что даже слабые взаимодействия могут оказывать большое влияние на регуляцию генов, точно так же, как относительно слабые химические взаимодействия могут удерживать два белка вместе.

   Помимо изучения геномной грамматики и регуляции генов, исследователи могут использовать модели искусственного интеллекта для точного генетического картирования - определения того, какие генетические варианты человека, выявленные в ходе пангеномного исследования ассоциаций (GWAS), являются причиной определенного фенотипа. До 95% различий в последовательностях, выявленных в GWAS, обнаружены в некодирующей ДНК. Исследователи также могут использовать инструменты геномного ИИ для исследования мутаций in silico, чтобы лучше понять влияние генетических вариаций.

   Затем следует разработка дизайна последовательности. С инженерной точки зрения, успешное создание последовательности с нуля демонстрирует, что исследователи (или их модели искусственного интеллекта) узнали что-то фундаментальное о геноме, говорит Чжоу. “Мы можем использовать это как способ проверки нашего понимания”, - говорит он. С практической точки зрения, он также может быть использован для создания индивидуальных последовательностей, которые могут ограничить экспрессию генов определенным временем и местом, например, для применения в генной терапии, или для разработки последовательностей, реагирующих на определенные стимулы. “Я думаю, что разработка генной и клеточной терапии совершенно очевидна”, - говорит Лал.

   Этот подход был продемонстрирован в нескольких статьях. В 2024 году Аэртс и биолог-транскрипционист Александр Старк из Научно-исследовательского института молекулярной биологии в Вене независимо друг от друга сообщили об использовании моделей последовательности-функции в качестве "оракулов" для выбора и эволюции последовательностей, которые обеспечивали бы желаемое поведение плодовых мушек (Drosophila melanogaster), а в случае Аэртса - и человеческих клеток. Генетик Райан Тьюи из лаборатории Джексона (США), и его коллеги использовали данные репортерного анализа для обучения модели, которую они затем использовали для разработки последовательностей, активных в клетках крови, печени и нейронов, а также у рыбок данио и мышей.

   Кундадже отмечает, что в этих исследованиях, как правило, используются сильно отличающиеся друг от друга типы клеток. Практические применения, например, в генной терапии, вероятно, потребуют нацеливания на конкретные типы клеток на определенных этапах развития, что является более твердым орешком. Тем не менее, полученные в результате данные могут выявить удивительные тонкости. Например, группа Аэртса наблюдала за перекрывающимися регуляторными кодами и обнаружила, что можно изменить фрагмент регуляторной ДНК таким образом, чтобы функционировал только один код. Они также обнаружили "близкие энхансеры", которые могут быть преобразованы в регуляторную ДНК с помощью нескольких мутаций — наблюдение, которое подчеркивает, как одно генетическое изменение может непреднамеренно активировать ранее молчавшие гены. “Создать новый энхансер не так уж сложно”, - говорит он. И его группа показала, что она может разработать последовательности, нацеленные на разные клетки из одной и той же исходной последовательности.

   Это не значит, что модель ИИ сама по себе создает ДНК. Скорее, эти стратегии, как правило, берут начальную последовательность, используют ИИ для отбора лучших стратегий, модифицируют каждое основание in silico и экспериментируют. Чтобы оптимизировать этот процесс, Шрайбер совместно со Старком и специалистом по вычислительной биологии Уильямом Ноблом из Вашингтонского университета разработали алгоритм под названием Ledidi. Шрайбер объясняет, что вместо того, чтобы проводить компьютерное тестирование каждой возможной мутации, Ledidi ищет минимальный набор изменений, необходимых для обеспечения желаемого результата.

   По словам Шрайбера, программное обеспечение может использовать несколько алгоритмов для оптимизации нескольких видов деятельности одновременно. В результате с помощью Ledidi можно вносить чрезвычайно тонкие изменения, такие как снижение доступности хроматина в определенной области, не влияя на связывание определенного белка. Он также может создать набор решений, называемых каталогом аффинности, которые помогут исследователям лучше изучить биологию транскрипции. Evo 2 и regLM, напротив, являются генерирующими: получив запрос, они выдают новую последовательность с нуля. Например, в одном исследовании инженер–химик Брайан Хи из Стэнфордского университета и его коллеги использовали одну из версий Evo для создания новых пар белков токсин-антитоксин, которые некоторые бактерии используют в качестве защиты от вирусов.

   Аэртс также протестировал генеративную модель в своем исследовании, найдя ее эффективной, но менее интересной для расшифровки цис-регулирующего кода. Используя итеративный процесс проектирования, объясняет он, можно исследовать последовательности после каждого цикла изменений, чтобы получить представление о биологии регуляторной ДНК. Так, в экспериментах Шрайбера с каталогом аффинностей, который он создал для фактора транскрипции GATA217, изучая различные решения, предложенные моделью, он обнаружил, что некоторые относительно слабые последовательности содержат больше мотивов GATA2, в то время как более сильные - нет. “Модель изучила действительно сложный цис-регуляторный код”, - говорит он. “Мы использовали сходство этих мотивов, их расположение относительно друг друга и наличие сопутствующих факторов”.

   Исследователи сходятся во мнении, что модели "последовательность-функция" в целом работают так, как предполагается. Но для чего они и другие модели искусственного интеллекта могут и должны использоваться, остается предметом дискуссий. В двух исследованиях, опубликованных в конце 2023 года, биологи-вычислители Нила Иоаннидис из Калифорнийского университета и Сара Мостафави из Вашингтонского университета и их коллеги независимо друг от друга продемонстрировали, что геномные модели сталкиваются с ключевой задачей: объяснить, почему вариации в экспрессии генов различаются у разных людей — почему у одного человека экспрессия данного гена выше, чем у другого, учитывая уникальное сочетание вариантов генов у каждого человека. 

   Иоаннидис отмечает, что существующие критерии эффективности искусственного интеллекта не обязательно отвечают на вопросы, которые хотят задать исследователи, особенно в отношении межличностных генетических вариаций. Группа Кундадже создала свой собственный инструмент тестирования под названием DART-Eval, который поможет сделать оценку моделей более систематичной и всеобъемлющей. То же самое сделал Иоаннидис со своим инструментом GUANinE. 

   Кундадже не впечатлен неконтролируемыми моделями. Хотя они хорошо работают с кодирующими последовательностями и небольшими геномами, когда речь заходит о регуляторной ДНК млекопитающих, он говорит: “Я бы счел их катастрофическими неудачами”. Неконтролируемые модели в основном не знают о многих уровнях эпигенетической регуляции, таких как связывание факторов транскрипции и модификация гистонов, которые заставляют геномы работать. Они понятия не имеют, что происходит, когда нарушаются последовательности. И, конечно, не каждое основание в геноме имеет смысл. 

   Тем не менее, сторонники геномики и ИИ видят многообещающее будущее. Кейси Грин, биоинформатик из медицинского кампуса Университета Колорадо, предвидит тот день, когда инструменты искусственного интеллекта смогут создавать чрезвычайно точно настроенный фрагмент ДНК точно так же, как инструкции на естественном языке могут генерировать код сегодня, этот процесс иногда называют вайб-кодингом. (Вайб-кодинг (англ. vibe coding) — метод программирования, при котором разработчик описывает задачу на естественном языке, а искусственный интеллект генерирует соответствующий код - прим.пер.)

   “Я хочу вайб-кодировать геном”, - говорит он. Сможет ли он сделать это, еще предстоит выяснить.

Источник:

Nature, 18 Aug.,2025

Комментариев: 0
Узнайте о новостях и событиях микробиологии

Первыми получайте новости и информацию о событиях