У биологов-синтетиков есть ноу-хау и амбиции, чтобы полностью переделывать геномы. Но скрытая сложность биологических систем продолжает удивлять их.
Когда Патрик Ичжи Цай размышляет о состоянии синтетической геномики, он вспоминает конкурс Big DNA Contest. Это соревнование, начавшееся в 2004 году, поставило перед биологами-синтетиками задачу разработать новую, функциональную последовательность ДНК из 40 000 пар оснований, которую спонсор конкурса, американская компания Blue Heron Biotech (сейчас Eurofins Genomics Blue Heron), должна была изготовить бесплатно.
Это был совсем не маленький приз: в то время создание такого скромного участка ДНК - менее 1% длины генома кишечной палочки - обошлось бы примерно в 250 000 долларов США. Цель компании заключалась в том, чтобы вдохнуть новую энергию в зарождавшуюся тогда область синтетической биологии. «В итоге было получено ноль заявок», - рассказывает Цай, биолог-синтетик из Манчестерского университета. «Это говорит о том, что даже если бы вы могли создавать синтетическую ДНК бесплатно, 20 лет назад на это ни у кого не хватило бы фантазии".
Сегодня постоянный прогресс в геномике и вычислительной биологии - не говоря уже о синтезе и сборке ДНК - дал множество примеров того, чего можно добиться амбициозными, полными изобретательности усилиями по написанию генома. Синтетический бактериальный штамм JCVI-syn3A, разработанный в Институте Дж. Крейга Вентера (JCVI) (США), представляет собой усовершенствованную версию Mycoplasma mycoides, которая выживает и реплицируется, несмотря на то, что у нее удалено несколько сотен несущественных генов. Различные группы разрабатывают штаммы E. coli, в которых генетический код изменен таким образом, что позволяет производить белки, содержащие аминокислоты в количестве, превышающем 20, обычно встречающихся в природе. А в прошлом году в рамках многонационального проекта Synthetic Yeast Genome Project (Sc2.0) было завершено создание сильно модифицированных версий каждой хромосомы эукариотических почкующихся дрожжей Saccharomyces cerevisiae - всего около 12 миллионов пар оснований.
По признанию Акоса Ньергеса, исследователя в области синтетической геномики, участвовавшего в работе по переписыванию E. coli в Гарвардской медицинской школе, эти усилия стали бесценным опытом обучения. «Вы можете имитировать и проверять эволюционные шаги на которые в противном случае ушли бы миллиарды лете, говорит он. Но они также обнажили то, как много мы до сих пор не понимаем в фундаментальном языке генома. Каждая программа по переписыванию генома до сих пор сталкивалась с серьезными и неожиданными проблемами и эра геномов, создаваемых по заказу, остается недостижимой». Когда дело доходит до сильно измененных геномов, говорит Ньергес, «мы недооценили, насколько сложна биология».
Назад к основам
Большинство проектов по созданию синтетического генома - это работа «сверху вниз\с конца в начало», в ходе которой берется естественный организм и удаляется или изменяется его ДНК. Это дает ценную начальную основу по сравнению с подходами «снизу вверх», в которых целью является создание работающего генома с нуля. В конце концов, объясняет Фаррен Айзекс, геномный инженер из Йельского университета, когда дело доходит до работы с геномом, возможность ошибиться очень велика.
«Если вы допустите ошибку в важном гене, вы уничтожите организм».
Ключевой целью проектов JCVI и Sc2.0 было определить, какие гены действительно важны - характеристика, которую на удивление трудно предсказать. Джон Гласс, руководитель программы синтетической биологии JCVI, говорит, что когда он и его коллеги опубликовали в 2016 году отчет о своей первой минимизированной клетке, почти треть оставшихся в ней генов (149 из 473) не имели никакой известной функции. «Сейчас их уже 78», - добавляет он. Чтобы определить, какие гены необходимы, в обоих проектах использовался случайный мутагенез - по сути, введение ненаправленных возмущений в геном и выяснение, какие из них клетки могут выдержать, а какие серьезно подрывают их жизнеспособность.
Однако важность того ли иного гена - понятие зыбкое, особенно если учесть, что большинство геномов содержат избыточность и "отказоустойчивые" механизмы, минимизирующие влияние отдельных мутаций. Гласс и его коллеги столкнулись с десятками случаев, когда мутагенез выявлял пары, казалось бы, несхожих генов, которые неожиданно выполняли дублирующие функции. В результате не существует одного минимального генома, объясняет он. «Вы убираете один [ген], и с каждым выбором вы идете по другому пути к немного другой минимизированной клетке". Кроме того, многие бактериальные гены выполняют несколько функций, что затрудняет распознавание основной функции. Гласс приводит в пример энолазу - фермент с хорошо известной ролью в углеводном обмене, который, как выяснилось, также помогает деградировать нежелательную РНК.
Все более сложные вычислительные «модели полной клетки» могут помочь устранить некоторые догадки из будущих усилий по редактированию генома. В 2020 году математик Лючия Маруччи и биолог-синтетик Клэр Гриерсон (обе из Бристольского университета, Великобритания) возглавили работу по моделированию стратегий сокращения генома в цельноклеточной модели Mycoplasma genitalium - близкого родственника микроорганизма, отредактированного JCVI3. Их анализ, в котором использовались тщательно проработанные модели клеточных процессов и их взаимодействий, позволил предложить два варианта редизайна с разными наборами удаленных генов, каждый из которых давал геном, примерно на 40% меньший, чем естественный геном M. genitalium.
Совсем недавно Маруччи и Гриерсон начали работать со сложными цельноклеточными моделями E. coli. Как говорится в препринте, опубликованном в 2024 году, их нынешние усилия сочетают теоретические модели с машинным обучением для предсказания последствий манипуляций с геномом по широкому спектру биологических функций. Они описываются тысячами взаимосвязанных уравнений, что позволяет получить чертежи бактерий, которые имеют на 40% меньше генов, чем E. coli дикого типа. «Теперь у нас есть масса минимизированных уменьшенных геномов, которые мы хотим протестировать в лаборатории», - говорит Маруччи.
Найти и заменить
Вместо того чтобы создавать сокращенные издания генома, другие группы пытаются тонко переформулировать генетический текст, сталкиваясь с совершенно иными проблемами. Белковые кодирующие последовательности состоят из нуклеотидных триплетов, называемых кодонами. При наличии 61 возможного кодона для 20 встречающихся в природе аминокислот, а также 3 «стоп»-кодонов, завершающих синтез белка, в результирующем коде имеется значительная избыточность. Различные группы ученых показали, что, всесторонне преобразовав каждый экземпляр данного кодона в один из его «синонимов», можно перепрофилировать этот кодон. Например, в этом месяце Айзекс и его коллеги описали штамм E. coli под названием Ochre, в котором два стоп-кодона были переназначены для включения неприродных аминокислот пара-ацетил-л-фенилаланина и Nε-Boc-l-лизина. Эти аминокислоты обладают химическими свойствами и функциями, не существующими в природе, но перекодировка может служить «брандмауэром», препятствующим взаимодействию и обмену генетическим материалом с другими организмами в естественной среде.
Такая работа может показаться не сложной - просто заменить один кодон на другой, - но перекодировка генома требует большого планирования и усилий. После того как исследователи найдут все случаи кодона, который они хотят удалить, они должны придумать, как заменить его, не нарушив работу затронутых генов или регуляторных механизмов. Бактериальные гены часто содержат регуляторные последовательности, кодирующие белок, поясняет Ньергес, и ген на одной нити ДНК может перекрываться с геном на противоположной нити. Таким образом, кажущиеся незначительными изменения могут иметь серьезные и неожиданные последствия.
Ньергес, Черч и их коллеги решают эту проблему в беспрецедентных масштабах, поскольку они завершают работу над сильно перекодированным вариантом E. coli, который использует только 57 из 61 встречающегося в природе кодона аминокислот. Эти усилия повлекли за собой более 73 000 изменений в 4-мегабазовом геноме штамма, что неизбежно приводит к непредвиденным последствиям. «Некоторые изменения происходят легко и не влияют на рост или приспособленность, в то время как другие оказывают поразительное воздействие, - говорит Ньергес. Некоторые изменения отключают существующие регуляторные элементы или невольно создают новые; другие приводят к появлению новых последовательностей, кодирующих белки. «И мы узнаем об этом только сейчас».
Решение этих вопросов само по себе является серьезной задачей. Например, в процессе перекодировки штамма Ochre Айзекс и его группа использовали обширные «мультиомические» анализы, чтобы охарактеризовать бактерию. «Мы собирали данные метаболического профилирования в различных условиях [культивирования]», - говорит он. «Мы также собрали данные протеомики, сравнив перекодированную клетку с несколькими различными предшественниками, включая клетки дикого типа». Таким образом, они систематически изменяли геном до тех пор, пока клетки не стали расти в стандартных условиях примерно с той же скоростью, что и немодифицированные бактерии - нетривиальный результат, учитывая, что перекодировка генома часто ухудшает рост. Ньергес и его коллеги также обратились к мультиомике, чтобы разобраться с 57-кодоновым геномом. Помимо этого они использовали экспериментальную стратегию, которая стимулирует быструю эволюцию бактерий в культуре, чтобы способствовать отбору геномных мутаций, улучшающих приспособленность.
Алгоритмические инструменты также помогают исследователям заранее моделировать и предсказывать результаты некоторых экспериментов по переписыванию генома. Например, сотрудники синтетического биолога Говарда Салиса из Университета Пенсильвании используют количественные данные, полученные в ходе высокопроизводительных анализов генетически модифицированных клеток и нитей синтетической ДНК, для разработки алгоритмов, которые позволяют определять, характеризовать и даже конструировать последовательности, управляющие такими процессами, как транскрипция и трансляция. "Типичный результат для нас сегодня - это от 10 000 до 100 000 различных определенных, разработанных экспериментов", - делится Салис. Результаты используются для извлечения проверяемых физических принципов, которые позволяют алгоритмам предсказывать, например, как изменения в последовательности промотора гена влияют на его последующую экспрессию.
«Вы можете проверить все на практике», - говорит Салис. «И мы можем объединить наши существующие модели для разработки следующих экспериментов, чтобы понять оставшиеся непонятные вещи». Действительно, лаборатория Черча использовала несколько методов Салиса для разработки своего 57-кодонового микроба. Ньергес говорит, что такие алгоритмы оказались существенным подспорьем - хотя и недостаточным, чтобы предотвратить значительные проблемы.
«Даже совсем крошечные изменения могут в совокупности привести к значительным проблемам с жизнеспособностью, когда вы вставляете в геном тысячи генов», - говорит он.
Прогресс в эукариотах
Маленькие и самодостаточные бактериальные геномы - идеальный полигон для разработки инструментов синтетической геномики. Но замечательные успехи коллектива Sc2.0 показывают, что подобных подвигов можно достичь и в эукариотах.
В отличие от E. coli, у которой единственная круговая хромосома состоит примерно из 5 миллионов пар оснований, геном S. cerevisiae включает в себя более 12 миллионов оснований в 16 линейных хромосомах. С 2011 года группа Sc2.0, возглавляемая генетиком Джефом Бёке из Нью-Йоркского университета, систематически перепроектирует, конструирует и отлаживает синтетические версии всех этих хромосом. Среди целей проекта - перекодировка генома для освобождения одного из трех стоп-кодонов для альтернативного использования, удаление транспозонов и других мобильных элементов, а также перемещение всех генов, кодирующих трансферные РНК, в 17-ю «неохромосому».
Кроме того, в проекте Sc2.0 использовалась система SCRaMbLE, в которой гены дрожжей, считающиеся несущественными, фланкируются последовательностями ДНК, позволяющими вырезать их и перестраивать под действием ферментов. SCRaMbLE позволила исследователям сгенерировать и протестировать варианты хромосом, содержащие различные делеции генов и структурные перестройки, обеспечив платформу для тестирования на пригодность. «В инженерном деле очень сложно представить, что можно построить миллиард самолетов и попытаться полетать на них, чтобы увидеть, какой из них не разобьется, - говорит Цай. Но исследователи смогли сделать именно это с дрожжами, систематически проверяя, насколько сильно можно подправить геном, прежде чем он сломается.
Некоторые инженерные задачи у дрожжей оказались проще, чем у бактерий - например, в дрожжевых геномах меньше генетической скученности. «Мы не обнаружили признаков перекрывающихся генов или промоторов, встроенных в гены», - говорит Бёке. Тем не менее, по оценкам Цая, две трети усилий специалистов были направлены на отладку, а не на конструирование, и неожиданности случались часто. По наблюдениям Бёке, многие проблемы возникли из-за плохой аннотации генома дрожжей, который специалисты первоначально использовали для проектирования. «По крайней мере, в одной хромосоме было много ошибок», - рассказывает он. Также было несколько случаев, когда при использовании SCRaMbLE для удаления несущественных генов невольно нарушалась функция или регуляция других, близлежащих генов, играющих более важную роль в клетке.
Исследователи отлаживали свои конструкции, используя последовательность циклов «проектирование-строительство-тестирование». «Мы использовали рекомбинацию, чтобы шаг за шагом заменять последовательность дикого типа», - поясняет Юэ Шэнь, главный научный сотрудник отдела синтетической биологии BGI Research в Шэньчжэне (Китай), чья лабораторная группа работала над тремя дрожжевыми хромосомами для Sc2.0. Это позволило исследователям оценить специфическое влияние каждого участка перекодированной хромосомы. Параллельно исследователи Sc2.0 использовали стратегию мультиомики, аналогичную той, что применяется в бактериях для диагностики и исправления проблем жизнеспособности и здоровья клеток.
Но Sc2.0 также борется с комбинаторными эффектами, которые возникают только при одновременном введении в клетку нескольких переписанных хромосом. В 2023 году Бёке и его коллеги описали диагностику и исправление одной из таких ошибок системы, возникшей из-за неожиданной несовместимости синтетических хромосом III и X - модифицированный ген на одной хромосоме нарушал трансляцию важного гена на другой. «Мы надеемся, что таких случаев не будет слишком много», - говорит Бёке. На данный момент группа объединила 7,5 синтетических хромосом в одной клетке, что составляет более 50% генома дрожжей, и Бёке надеется завершить процесс сборки всех 17 хромосом в течение следующих 6 месяцев.
На перепутье
Сегодня область синтетической геномики находится на перепутье. В то время как многие исследователи планируют глубже изучить выбранные ими модельные организмы, другие присматриваются к новым объектам. Например, группа Цая стремится переделать хромосомы человека и картофеля, а некоторые группы рассматривают возможности для настоящего геномного дизайна «снизу вверх». Салис видит в этом захватывающую возможность создания оптимизированных организмов для биотехнологических целей, позволяющих создавать гораздо более сложные организмы, чем те, которые можно было бы создать, просто изменяя существующие геномы. «Вы можете взять лучшее из лучшего, что вам нужно, и, что важно, вы будете точно знаеть, что вы туда вложили», - говорит он.
Однако для достижения прогресса потребуется решить ряд насущных проблем. Например, стоимость крупномасштабного прецизионного синтеза ДНК остается высокой. По оценкам Цая, коммерчески синтезированные строительные блоки ДНК длиной до 10 килобаз могут стоить примерно 0,10 доллара за основание. Но многие эукариотические геномы содержат повторяющиеся элементы, которые трудно синтезировать, и Цай говорит, что сборка всех компонентов «может легко удвоить стоимость исходного материала». Именно поэтому одна из инициатив в BGI Research направлена на разработку масштабируемых решений для эффективного производства строительных блоков генома. «Мы надеемся, что для следующего синтетического генома дрожжей мы сможем закончить его за 2-3 года, а не за 12», - говорит он.
Сложные алгоритмы проектирования с большей предсказательной силой могут сократить эти расходы за счет создания более точных геномных чертежей, которые упростят процесс тестирования и оптимизации. Например, несколько групп продемонстрировали потенциал генеративного искусственного интеллекта (ИИ) для создания функциональных молекул ДНК, основанных на шаблонах, полученных из огромных обучающих наборов данных о последовательностях. Однако Салис опасается слишком полагаться на ИИ: «Это уже не наука - это буквально черный ящик». Вместо этого он надеется увидеть прогресс в создании моделей машинного обучения, которые тренируются на четко определенных, тщательно аннотированных экспериментах. Но это медленный и дорогостоящий процесс, и, по оценкам Салиса, модели сложных эукариотических геномов «вероятно, отстают от аналогичных моделей микроорганизмов примерно на 25 лет».
Тем не менее, возможностей много. Цай сравнивает современный уровень развития синтетической биологии с ранними этапами освоения компьютерного кодирования. «В первые дни вы просто пытались написать приложение, скомпилировать его и надеялись, что ошибок не будет», - говорит он. Но я думаю, что как только вы пройдете первый этап, следующий будет гораздо более ориентированным на достижение цели».