Многие из обнаруженных вирусов весьма причудливы и обитают в соленых озерах, гидротермальных источниках и других экстремальных средах.
Исследователи с помощью искусственного интеллекта (ИИ) обнаружили 70 500 ранее неизвестных науке вирусов, многие из которых были странными и совсем не похожими на известные виды. РНК-вирусы были идентифицированы с помощью метагеномики, при которой ученые берут пробы всех геномов, присутствующих в окружающей среде, без необходимости культивировать отдельные вирусы. Этот метод демонстрирует потенциал искусственного интеллекта для изучения «темной материи» вселенной РНК-вирусов.
Вирусы это вездесущие микроорганизмы, которые заражают животных, растения и даже бактерии, но лишь небольшая часть из них была идентифицирована и описана. По словам Артема Бабаяна, вирусолога из Университета Торонто (Канада), существует «по сути бездонная яма» вирусов, которых предстоит обнаружить. Некоторые из этих вирусов могут вызывать заболевания у людей, а значит, их описание может помочь объяснить загадочные заболевания, говорит он.
В предыдущих исследованиях использовалось машинное обучение для поиска новых вирусов в данных секвенирования. В последней работе, опубликованной на прошедшей неделе в журнале Cell, этот метод используется для изучения предсказанных структур белков. ИИ-модель включает в себя программу для предсказания белков под названием ESMFold, а схожая система искусственного интеллекта, AlphaFold, была разработана исследователями Google DeepMind, которые недавно получили Нобелевскую премию по химии.
В 2022 году Бабаян и его коллеги проанализировали 5,7 миллиона геномных образцов, хранящихся в общедоступных базах данных, и выявили почти 132 000 новых РНК-вирусов. Подобные исследования проводились и другими группами. Однако РНК-вирусы быстро эволюционируют, поэтому существующие методы идентификации РНК-вирусов в данных о геномных последовательностях, вероятно, пропускают многие из них. Один из распространенных методов заключается в поиске участка генома, кодирующего ключевой белок, используемый в репликации РНК, называемый РНК-зависимой РНК-полимеразой (RdRp). Но если последовательность, кодирующая этот белок в вирусе, сильно отличается от любой известной последовательности, исследователи не смогут его распознать.
Ши Манг, эволюционный биолог из Университета Сунь Ятсена (Китай) и соавтор исследования в Cell, и его коллеги занялись поиском ранее нераспознанных вирусов в общедоступных геномных образцах. Они разработали модель под названием LucaProt, используя архитектуру «трансформера», лежащую в основе ChatGPT, и загрузили в нее данные секвенирования и предсказания белков ESMFold. Затем они обучили свою модель распознавать вирусные RdRps и использовали ее для поиска последовательностей, кодирующих эти ферменты, что свидетельствовало о принадлежности этих последовательностей к тому или иному вирусу, в большом массиве геномных данных.
Используя этот метод, они идентифицировали около 160 000 РНК-вирусов, включая некоторые исключительно длинные и найденные в экстремальных средах, таких как горячие источники, соленые озера и воздух. Чуть менее половины из них не были описаны ранее. Они обнаружили «маленькие очаги биоразнообразия РНК-вирусов, которые находятся далеко в глубине эволюционного пространства», - говорит Бабаян.
«Это действительно многообещающий подход к расширению виросферы», - считает Джеки Махар, эволюционный вирусолог из Австралийского центра обеспечения готовности к заболеваниям CSIRO. По ее утверждению, описание вирусов поможет исследователям понять происхождение этих микроорганизмов и то, как они эволюционировали в различных хозяевах. А расширение круга известных вирусов облегчает поиск новых похожих вирусов, говорит Бабаян. «Внезапно вы можете увидеть то, чего раньше просто не замечали».
Исследователи не смогли определить хозяев идентифицированных вирусов и это требует дальнейшего изучения, отмечает Махар. Ученым особенно интересно узнать, инфицируют ли какие-либо из новых вирусов археи - целую ветвь древа жизни, для которой до сих пор не было обнаружено РНК-вирусов. Сейчас Ши разрабатывает модель, позволяющую предсказать хозяев этих недавно обнаруженных РНК-вирусов. Он надеется, что это поможет исследователям понять, какую роль играют вирусы в своих экологических нишах.