"Вся вселенная белков": ИИ предсказывает форму почти всех известных белков

Авторы/авторы:
"Вся вселенная белков": ИИ предсказывает форму почти всех известных белков
Иллюстрация: mgpu.ru
30 июля 2022
132
0

С сегодняшнего дня определить 3D-форму практически любого известного науке белка будет так же просто, как выполнить поиск в Google.

   Исследователи использовали AlphaFold - революционную сеть искусственного интеллекта (ИИ) - для предсказания структуры около 200 миллионов белков из 1 миллиона видов, охватывающих почти все известные белки на планете. Полученные данные будут свободно доступны в базе данных, созданной DeepMind, лондонским подразделением Google, разработавшим AlphaFold, и Европейским институтом биоинформатики Европейской лаборатории молекулярной биологии (EMBL-EBI), межправительственной организацией, расположенной недалеко от Кембриджа, Великобритания. "По сути, можно считать, что это охватывает всю белковую вселенную", - сказал на пресс-брифинге генеральный директор DeepMind Демис Хассабис. 

"Мы находимся в начале новой эры цифровой биологии".

   Трехмерная форма, или структура, белка определяет его функцию в клетках. Большинство лекарственных препаратов разрабатывается на основе структурной информации, и точные карты часто являются первым шагом к открытиям о том, как работают белки.

   Компания DeepMind разработала сеть AlphaFold, используя метод искусственного интеллекта, называемый глубинным обучением, и год назад была запущена база данных AlphaFold с 350 000 структурных предсказаний, охватывающих почти все белки, созданные людьми, мышами и 19 другими широко изученными организмами. С тех пор каталог разросся примерно до 1 миллиона записей.

   "Мы готовимся к выпуску этой огромной коллекции", - говорит Кристин Оренго, специалист по вычислительной биологии из Университетского колледжа Лондона, которая использовала базу данных AlphaFold для выявления новых семейств белков. "Получить все данные, предсказанные для нас, - это просто фантастика".

Высококачественные структуры

   Появление AlphaFold в прошлом году произвело фурор в сообществе специалистов по биологическим наукам, которые бросились использовать этот инструмент. Сеть дает высокоточные прогнозы трехмерной формы, или структуры, белков. Она также предоставляет информацию о точности своих прогнозов, чтобы исследователи знали, на какие из них можно положиться. Традиционно для определения структуры белков ученые используют трудоемкие и дорогостоящие экспериментальные методы, такие как рентгеновская кристаллография и криоэлектронная микроскопия.

   По данным EMBL-EBI, около 35% из более чем 214 миллионов предсказаний признаны высокоточными, что означает, что они не уступают экспериментально определенным структурам. Еще 45% были признаны достаточно точными, чтобы на них можно было положиться при решении многих задач. Многие структуры AlphaFold достаточно хороши, чтобы заменить экспериментальные методы для некоторых приложений. В других случаях исследователи используют предсказания AlphaFold для подтверждения и осмысления экспериментальных данных. Плохие предсказания часто очевидны, и некоторые из них вызваны внутренними нарушениями в самом белке, которые означают, что он не имеет определенной формы, по крайней мере, без присутствия других молекул.

   Опубликованные сегодня 200 миллионов результатов предсказаний основаны на последовательностях в другой базе данных, называемой UNIPROT. Вполне вероятно, что ученые уже имели представление о форме некоторых из этих белков, поскольку они включены в базы данных экспериментальных структур или похожи на другие белки в таких хранилищах, говорит Эдуард Порта Пардо, специалист по вычислительной биологии из Института исследования лейкемии в Барселоне. Но, по словам Порты, такие записи, как правило, ориентированы на белки человека, мыши и других млекопитающих, поэтому вполне вероятно, что база данных AlphaFold пополнится значительными знаниями, поскольку в ней собраны данные из гораздо более разнообразных организмов. "Это будет потрясающий ресурс. И я, вероятно, скачаю его, как только он выйдет", - говорит Порта.

   Поскольку программное обеспечение AlphaFold доступно уже год, исследователи уже имеют возможность предсказать структуру любого белка, который они пожелают. Но многие говорят, что доступность предсказаний в единой базе данных сэкономит исследователям время, деньги - и хлопоты. "Это еще один барьер, который вы устраняете", - говорит Порта. "Я использовал много моделей AlpahFold. Но я никогда не запускал AlphaFold сам".

   Ян Косински, специалист по структурному моделированию в EMBL Гамбург (Германия), который работал с сетью AlphaFold в течение последнего года, не может дождаться расширения базы данных. Его команда потратила 3 недели на предсказание протеома - набора всех белков организма - патогена. "Теперь мы можем просто загрузить все модели", - сказал он на брифинге.

Сто терабайт

   Наличие в базе данных почти всех известных белков также позволит проводить новые виды исследований. Команда Оренго использовала базу данных AlphaFold для выявления новых видов семейств белков, и теперь они будут делать это в гораздо более широком масштабе. Ее лаборатория также будет использовать расширенную базу данных, чтобы понять эволюцию белков с полезными свойствами, такими как способность поглощать пластик, или с опасными, такими как те, которые могут вызывать рак. Идентификация дальних родственников этих белков в базе данных позволит точно определить основу их свойств.

   Мартин Штайнеггер, специалист по вычислительной биологии из Сеульского национального университета, который помог разработать облачную версию AlphaFold, рад расширению базы данных. Но он говорит, что исследователям, скорее всего, все равно придется самим управлять сетью. Все чаще люди используют AlphaFold для определения взаимодействия белков, а таких предсказаний в базе данных нет. Также не учитываются микробные белки, выявленные путем секвенирования генетического материала из почвы, океанической воды и других "метагеномных" источников.

   По словам Штайнеггера, некоторые сложные приложения расширенной базы данных AlphaFold могут также зависеть от загрузки всего ее содержимого объемом 23 терабайта, что не представляется возможным для многих ученых. Облачное хранение также может оказаться дорогостоящим. Штайнеггер является одним из разработчиков программного инструмента под названием FoldSeek, который позволяет быстро находить структурно схожие белки и который должен значительно сократить объем данных AlphaFold.

   Даже при включении всех известных белков база данных AlphaFold будет нуждаться в обновлении по мере открытия новых организмов. Предсказания AlphaFold также могут улучшаться по мере поступления новой структурной информации. Хассабис говорит, что DeepMind взяла на себя обязательство поддерживать базу данных в течение длительного времени, и он ожидает, что обновления будут происходить ежегодно. Он надеется, что доступность базы данных AlphaFold окажет долгосрочное влияние на науки о жизни. 

"Это потребует значительных перемен в мышлении".
Источник:
Комментариев: 0
Узнайте о новостях и событиях микробиологии

Первыми получайте новости и информацию о событиях