Модель, похожая на ChatGPT, самостоятельно учится создавать новые белки и генетические последовательности.
ChatGPT, знаменитый чатбот на основе искусственного интеллекта (ИИ), может кратко изложить «Моби Дика», написать компьютерный код и предложить рецепт приготовления цыпленка по-королевски, потому что большая часть текстовой информации в Интернете находится у него на кончиках кремниевых пальцев. А что, если бы он мог делать то же самое с ДНК?
Об этом говорится в новом исследовании, опубликованном на днях в журнале Science. Исследователи описывают модель искусственного интеллекта, созданную на основе миллиардов строк генетических последовательностей, которая может определить, как работают бактериальные и вирусные геномы, и использовать эту информацию для проектирования новых белков и даже целых микробных геномов. Модель, получившая название Evo, может помочь ученым исследовать эволюцию, изучать заболевания, разрабатывать новые методы лечения и, возможно, ответить на множество других биомедицинских вопросов. «Эта работа чрезвычайно важна, - говорит специалист по вычислительной биологии Арвинд Раманатан из Аргоннской национальной лаборатории, который не принимал участия в исследовании. По его словам, тесты, которым авторы подвергли Evo, дают "отличную возможность для применения" ИИ.
Исследователи уже разработали специализированные модели ИИ, которые выполняют конкретные задачи, связанные с определенными типами молекул. Известным примером является AlphaFold, который предсказывает структуру белков по их аминокислотным последовательностям. Но ChatGPT и многие другие ИИ - это программы общего назначения, которые некоторые исследователи называют базовыми моделями. Их универсальность выгодна тем, что ученым не нужно создавать и обучать разные модели для каждой задачи, что экономит время и деньги. ChatGPT известен как большая языковая модель (LLM), поскольку он работает практически с любыми документами, содержащими слова, будь то правительственный отчет или рецепт. В молекулярной биологии нет ничего более фундаментального чем ДНК и ученые разработали несколько базовых моделей, которые анализируют последовательности ДНК, как если бы они были словами в LLM. Однако эти ИИ могут интерпретировать и предсказывать только относительно короткие участки ДНК.
Разработанный для преодоления этих ограничений Evo - детище биолога-компьютерщика Брайана Хайе из Стэнфордского университета и его коллег, включая некоторых исследователей из недавно созданного Arc Institute, который финансируется несколькими филантропами и занимается высокорискованными и высокодоходными проектами. Одно из усовершенствований команды заключалось в увеличении так называемой длины контекста - окна поиска, которое модель использует, пытаясь найти закономерности в ДНК. Увеличение длины контекста повышает способность модели выявлять связи между генами или другими последовательностями ДНК. Кроме того, эта модель позволила увеличить разрешение Evo до уровня отдельных нуклеотидов - строительных блоков ДНК, в то время как предыдущие модели могли работать только с группами нуклеотидов.
Создав Evo, исследователи дали ей 4 недели на обучение, в течение которых модель изучила 80 000 геномов микроорганизмов, а также миллионы последовательностей бактериофагов и полунезависимых петель ДНК, известных как плазмиды. По словам Хайе, теоретически злоумышленники могут использовать такую модель как Evo, для создания биологического оружия, поэтому исследователи исключили из обучающего набора ИИ последовательности любых вирусов, которые атакуют людей или других эукариот. В целом Evo изучил 300 миллиардов нуклеотидов информации о последовательностях.
Чтобы протестировать ИИ, исследователи попросили его предсказать влияние мутаций на работу белков. Эти знания важны для понимания того, как сбои в ДНК приводят к заболеваниям, и для разработки новых лекарственных препаратов. Группа проверила предсказания Evo, сравнив их с опубликованными экспериментами, в которых другие ученые вызывали те же мутации в бактериальных клетках. Evo превзошел предыдущие модели ИИ, которые делали выводы о влиянии мутаций на основе данных о последовательности ДНК; он работал примерно так же хорошо, как и другие модели ИИ, которые опирались на последовательности белков.
Одна из причин, по которой модели ИИ, подобные ChatGPT, так полезны, заключается в том, что они могут создавать новый контент. «Мы хотели показать, что наша модель обладает такой способностью», - рассказывает Хайе. Поэтому он и его коллеги попросили Evo разработать новые версии геномного редактора CRISPR. Это задание непростое, поскольку CRISPR включает в себя два типа компонентов, которые должны работать вместе: белки Cas, разрезающие ДНК, и молекулы РНК, которые направляют ферменты к местам генома, подлежащим редактированию.
Сначала Evo изучила более 70 000 бактериальных последовательностей ДНК, которые кодируют белки Cas и их партнерские РНК. Затем модель разработала миллионы потенциальных вариантов этих молекул. Исследователи выбрали 11 наиболее перспективных вариантов Cas9, рабочей лошадки Cas в биотехнологии, и синтезировали белки в лаборатории. В лабораторных экспериментах лучший из разработанных Evo ферментов Cas9 разрезал ДНК так же хорошо, как и коммерческая версия белка, обнаружили исследователи. Чтобы усовершенствовать Cas-белки, ученые традиционно ищут бактерии с более эффективными версиями ферментов. "С Evo, - утверждает Хайе, - нам не нужно ждать, пока эволюция создаст новый Cas9". Однако, как и многие LLM, Evo тоже «галлюцинировал», предлагая Cas9, которые не имели шансов на работу. Несмотря на "галлюцинации", говорит Хайе, ИИ все равно лучше находит новые молекулярные варианты, чем «грубый отбор или случайное угадывание».
В той части исследования, которую Хайе называет "самой футуристической и безумной", ученые попросили Evo сгенерировать последовательности ДНК, достаточно длинные, чтобы служить геномами для бактерий. Они обнаружили, что эти макеты геномов содержат многие гены, необходимые клеткам, но в них не хватает других необходимых генов. Тем не менее, Хайе считает, что полученные результаты могут стать шагом к созданию синтетических геномов, разработанных искусственным интеллектом.
Модели геномов важны, потому что «они улучшают нашу способность понимать и характеризовать геном», - поясняет биолог-компьютерщик Рамана Давулури из Университета Стоуни-Брук, который не принимал участия в исследовании. «Я думаю, что это большой шаг вперед по сравнению с существующими моделями». По словам компьютерного биолога Юнхи Хванг из нью-йоркской некоммерческой организации Tatta Bio, которая занимается совершенствованием геномных моделей на основе ИИ, работа выделяется тем, насколько далеко зашли исследователи, чтобы экспериментально подтвердить предсказания модели. «Возможность лабораторной проверки - это очень мощный инструмент», - считает Хванг, не принимавшая участия в исследовании. Огромный объем данных, на которых училась Evo, также отличает это исследование, добавляет статистик Чонг Ву из Онкологического центра MD Anderson Техасского университета. По его словам, чем больше информации поглощает модель, тем она надежнее.
Большая часть работы в области ИИ производится компаниями в тайне. Но исследователи выпустили Evo в открытый доступ, чтобы другие ученые могли использовать ее, и Хайе говорит, что они не планируют коммерциализировать свое творение. «Пока что я рассматриваю это как исследовательский проект».