Одна из самых больших проблем в биологии наконец-то решена

В биологии существует старая пословица: структура определяет функцию.

Для того чтобы понять функции огромного количества белков, которые выполняют жизненно важную работу в здоровом или больном организме, ученые должны сначала определить молекулярную структуру этих белков. Но это нелегко: молекулы белков состоят из длинных, извилистых цепочек, включающих до тысячи аминокислот, которые могут взаимодействовать друг с другом различными способами и принимать огромное количество возможных трехмерных форм. Выяснение структуры одного белка, или решение "проблемы сворачивания белка", может занять годы сложных экспериментов.

Но в начале этого года программа искусственного интеллекта (ИИ) AlphaFold, разработанная компанией DeepMind, принадлежащей Google, предсказала трехмерную структуру почти всех известных белков - всего около 200 миллионов. Генеральный директор DeepMind Демис Хассабис и старший научный сотрудник Джон Джампер были совместно награждены в этом году премией Breakthrough Prize in Life Sciences в размере 3 миллионов долларов за это достижение, которое открывает возможности для применения в различных областях - от расширения нашего понимания основ молекулярной биологии до ускорения разработки лекарств.

DeepMind разработала AlphaFold вскоре после того, как ее ИИ AlphaGo попал в заголовки газет в 2016 году, победив в игре го чемпиона мира Ли Седоля. Но целью всегда была разработка ИИ, который мог бы решать важные проблемы в науке, говорит Хассабис. DeepMind сделал структуры белков почти всех видов, для которых существуют последовательности аминокислот, доступными в публичной базе данных.

Журнал Scientific American поговорил с Хассабисом о разработке AlphaFold, некоторых из его самых интересных потенциальных применений и этических соображениях, связанных со сложным искусственным интеллектом.

Почему вы решили создать AlphaFold, и как вы достигли того, что теперь он может складывать практически все известные белки?

Мы начали работу над проектом примерно на следующий день после возвращения с матча AlphaGo в Сеуле, где мы победили Ли Седоля, чемпиона мира по игре [го]. Я разговаривал с Дэйвом Сильвером, руководителем проекта AlphaGo, и мы обсуждали: "Какой следующий большой проект должна сделать DeepMind?". Я чувствовал, что настало время заняться чем-то действительно сложным в науке, потому что мы только что покорили вершину игрового ИИ. Я хотел наконец-то применить ИИ в реальных областях. Это всегда было миссией DeepMind: разрабатывать алгоритмы общего назначения, которые можно было бы применять действительно широко для решения многих и многих проблем. Мы начали с игр, потому что по разным причинам было очень эффективно разрабатывать и тестировать вещи в играх. Но, в конечном счете, это никогда не было конечной целью. Конечной целью было [разработать] такие вещи, как AlphaFold.

Это был огромный проект - около пяти или шести лет работы до CASP14 [Critical Assessment of Structure Prediction, соревнования по фолдингу белков]. У нас была ранняя версия на конкурсе CASP13, и это была программа AlphaFold 1. Это был уровень техники, намного лучше, чем кто-либо делал до этого, и я думаю, что это был один из первых случаев, когда машинное обучение использовалось в качестве основного компонента системы, чтобы попытаться решить эту проблему. Это придало нам уверенности, чтобы продвинуться еще дальше. Для AlphaFold 2 нам пришлось все перестроить и внедрить кучу новых идей, а также привлечь в команду еще нескольких специалистов - биологов, химиков и биофизиков, которые работали в области сворачивания белков, и объединить их с нашей командой инженеров и специалистов по машинному обучению.

Я работал и думал об ИИ на протяжении всей своей карьеры, еще в университете. Я обычно записываю научные проблемы, которые, как мне кажется, однажды могут быть применимы к тем типам алгоритмов, которые мы создаем, и сворачивание белков было для меня на первом месте всегда, начиная с 1990-х годов. У меня было много, много друзей-биологов, которые постоянно говорили мне об этом.

Вы были удивлены тем, что AlphaFold оказался настолько успешным?

Да, это было удивительно, на самом деле. Я думаю, что это была самая трудная задача, которую мы решали, и я бы также сказал, что это самая сложная система, которую мы когда-либо создавали. Статья в Nature, в которой описаны все методы, дополнительная информация и технические детали, занимает 60 страниц. Существует 32 различных алгоритма-компонента, и каждый из них необходим. Это довольно сложная архитектура, и она потребовала много инноваций. Вот почему это заняло так много времени. Было очень важно получить все эти различные материалы из разных областей знаний и дисциплин. И я думаю, что в DeepMind мы добились уникальных результатов - мы объединили все это вместе, не только машинное обучение и инженерное дело.

Но после AlphaFold 1 был сложный период. Сначала мы пытались довести AlphaFold 1 до максимального уровня. И примерно через шесть месяцев после CASP13 мы поняли, что он не достигнет той атомной точности, которую мы хотели, чтобы действительно решить проблему и быть полезным для экспериментаторов и биологов. Поэтому я принял решение, что нам нужно вернуться к чертежной доске и использовать полученные нами знания, включая те, где они работали и где не работали, а затем посмотреть, сможем ли мы вернуться почти к стадии мозгового штурма с этим опытом и знаниями и предложить целую кучу новых идей и новых архитектур. Мы так и сделали, и в конечном итоге это сработало. Но в течение примерно шести месяцев или года после перезагрузки дела шли не лучше, а хуже. Система AlphaFold 2, ранняя версия, была намного хуже, чем AlphaFold 1. Это может быть очень страшно в период, когда кажется, что ваша эффективность ухудшается. К счастью, тут-то и пригодился наш опыт в играх и все другие системы ИИ, которые мы создали до этого. Я наблюдал, как мы проходим через эту долину смерти, а затем выбираемся с другой стороны.

Можете ли вы объяснить на самом простом уровне, как работает AlphaFold?

Это довольно сложная штука. И мы сами многого не понимаем наверняка. Очевидно, что AlphaFold 2 учится чему-то тайному о структуре химии и физики. Он как бы догадывается, какие вещи могут быть правдоподобными. Он научился этому, видя реальные белковые структуры, те, о которых мы знаем. Но также, одним из наших нововведений было то, что мы сделали нечто, называемое саморасширением, а именно: получили раннюю версию AlphaFold 2 для предсказания большого количества структур, но также для предсказания уровня доверия к этим предсказаниям.

Одной из вещей, которые мы встроили, было понимание углов химических связей, а также эволюционной истории с помощью процесса, называемого многопорядковым выравниванием. Это привносит некоторые ограничения, которые помогают сузить пространство поиска возможных белковых структур. Пространство поиска слишком велико, чтобы его можно было выполнить грубой силой. Но, очевидно, физика реального мира как-то решает эту проблему, поскольку белки сворачиваются за наносекунды или миллисекунды. По сути, мы пытаемся перестроить этот процесс, обучаясь на примерах. Я думаю, что AlphaFold уловил нечто очень глубокое в физике и химии молекул.

Захватывающая особенность ИИ в целом заключается в том, что это своего рода "черный ящик". Но в конечном счете, кажется, что он изучает реальные законы мира природы.

Да, это почти интуитивное познание. Я думаю, что все больше исследователей будут обращать внимание на участки белков, которые AlphaFold плохо предсказывает, и спрашивать: "Являются ли они на самом деле неупорядоченными в биологии, если белок не имеет четкой формы, если он не взаимодействует с чем-то? Около 30 % белков [из организмов с ядром] считаются неупорядоченными. Многие из этих видов белков связаны с заболеваниями, такими как нейродегенерация, потому что они могут быть запутанными. И вы можете увидеть, как это может происходить, потому что они представляют собой просто беспорядочные нити, а не формируют структуры.

Еще одна очень важная вещь, которую мы сделали в AlphaFold 2, чего мы не делаем с системами машинного обучения, - это вывод доверительного интервала для каждой аминокислоты, потому что мы хотели, чтобы биолог мог знать, на какие части предсказания он может положиться, без необходимости понимать что-либо о машинном обучении.

Каковы некоторые из наиболее интересных приложений AlphaFold?

У нас есть много действительно интересных примеров из практики партнеров - первых пользователей, которые уже год работают с AlphaFold. Они делают невероятно разнообразные вещи, от решения проблемы резистентности к антибиотикам до борьбы с загрязнением окружающей среды пластиком путем разработки ферментов, уничтожающих пластик. Я разговаривал с [пионером CRISPR] Дженнифер Дудна об устойчивости культур люцерны - ее команда пытается создать культуры, которые будут более устойчивыми в условиях изменения климата.

Но есть и множество действительно интересных фундаментальных исследований, проводимых с его помощью. В журнале Science был опубликован специальный выпуск, посвященный комплексу ядерных пор (ядерные поры или ядерные поровые комплексы — крупные белковые комплексы, пронизывающие ядерную мембрану и осуществляющие транспорт макромолекул между цитоплазмой и ядром клетки - прим.пер.). Они раскрыли структуру одного из самых больших белков в организме. И я думаю, что три группы решили ее одновременно на основе данных крио-ЭМ [криогенной электронной микроскопии] - но все они нуждались в предсказаниях AlphaFold, чтобы дополнить данные крио-ЭМ с более низким разрешением в некоторых местах. Таким образом, сочетание экспериментальных структурных данных с AlphaFold оказалось настоящим благословением для структурных биологов, чего мы не ожидали.

А с практической точки зрения, почти каждая фармацевтическая компания, с которой мы общались, использует AlphaFold. Мы, вероятно, никогда не узнаем, каково его полное значение, потому что, очевидно, они держат это в секрете. Но мне нравится думать, что мы помогли ускорить реальное лечение заболеваний и разработку лекарств, возможно, на несколько лет.

Вокруг искусственного интеллекта и всего, что он может сделать, особенно для науки и медицины, было много шумихи. Но у AlphaFold, похоже, есть очевидная польза.

Я хочу сказать, что это решать вам. Но я бы отметил, что многие люди говорили мне, что это самый конкретный и полезный случай применения ИИ в науке. Мне нравится, что мы реализуем надежды ИИ. Можно сказать, что это "шумиха", но мы стараемся, чтобы наша работа говорила сама за себя.

Я помню, когда мы начинали в 2010 году, никто не работал над ИИ. А сейчас, 12 лет спустя, кажется, что об этом говорят все и каждая собака. И в большинстве случаев, как я полагаю, вам приходится сталкиваться с этим постоянно, они словно не знают, что такое ИИ, или неправильно используют этот термин, или не очень представляют, что происходит. Но я думаю, что AlphaFold - это действительно хорошее доказательство концепции или образцовая модель того, что может произойти. И я думаю, что в ближайшее десятилетие мы увидим еще много подобных примеров, когда ИИ действительно поможет ускорить некоторые научные открытия, и мы надеемся стать частью многих других. Думаю, это только начало.

Если немного отвлечься, то в последнее время ИИ часто фигурирует в новостях, будь то создание интеллектуального языка или цифрового искусства. Как вы думаете, стал ли ИИ более укорененным в общественном сознании, и что нам следует думать о его возможных последствиях?

Да, конечно. У нас [в DeepMind] есть собственные внутренние версии больших языковых моделей и систем преобразования текста в изображение, и мы, вероятно, выпустим некоторые из них в какой-то момент в следующем году. Очень интересно наблюдать за бурным развитием событий. AlphaFold, очевидно, имеет огромное значение для научного сообщества. Но с языковыми и образными ИИ это начинает прорываться в мейнстрим, потому что очевидно, что все знают язык и могут оценить изображения. Вам не обязательно обладать какими-то научными знаниями.

Но я думаю, что мы всегда должны думать об этических проблемах, и это одна из причин, по которой мы еще не выпустили свою разработку. Мы пытаемся ответственно подойти к проверке того, на что способны эти модели - как они могут сойти с рельсов, что произойдет, если они окажутся токсичными - все эти вещи сейчас на первом месте. Мы считаем, что некоторые из этих систем не готовы к выпуску для широкой публики, по крайней мере, без ограничений. Но в какой-то момент это произойдет. У нас в DeepMind есть фраза "ответственное новаторство". И для меня это означает применение научного метода при анализе этих систем и их создании. Я думаю, что во многих случаях, особенно в Кремниевой долине, существует такой менталитет хакеров: "Мы просто взломаем это и выложим, а потом посмотрим, что получится". И я думаю, что это совершенно неправильный подход к таким значительным и потенциально мощным технологиям, как ИИ.

Я работаю над ИИ всю свою жизнь, потому что считаю, что он станет самой полезной вещью для человечества, такой как лечение заболеваний, помощь в борьбе с изменением климата, все эти вещи. Но это технология двойного назначения - все зависит от того, как мы, как общество, решим ее использовать, и для чего мы будем ее использовать.