Потребовался всего один вирус, чтобы разрушить мировую экономику и убить миллионы людей; однако, по оценкам вирусологов, существуют триллионы еще неизвестных вирусов, многие из которых могут быть смертельно опасны или способны вызвать следующую пандемию.
Есть новый - и очень длинный - список возможных подозреваемых, которых нужно допросить. Просеивая беспрецедентные объемы существующих геномных данных, ученые обнаружили более 100 000 новых вирусов, включая 9 коронавирусов и более 300, схожих с вирусом гепатита Д.
"Это фундаментальная работа, - говорит Дж. Родни Бристер, биоинформатик из Национального центра биотехнологической информации Национальной медицинской библиотеки, который не принимал участия в новом исследовании. Работа на порядок увеличивает число известных вирусов, использующих РНК вместо ДНК для своих генов. Она также "демонстрирует наше возмутительное отсутствие знаний об этой группе организмов", - говорит эколог болезней Питер Дашзак, президент EcoHealth Alliance, некоммерческой исследовательской группы в Нью-Йорке, которая собирает деньги для запуска глобального исследования вирусов. Эта работа также поможет запустить так называемую петабайтную геномику - анализ ранее непостижимых объемов данных ДНК и РНК. (Один петабайт равен 1015 (квадриллион) байт).
Но в начале 2020 года это было не совсем то, о чем думал вычислительный биолог Артем Бабаян - ему было просто интересно узнать, сколько коронавирусов - помимо вируса, который тогда только запустил пандемию COVID-19 - можно найти в сиквенсах существующих геномных баз данных.
Поэтому он и независимый эксперт по суперкомпьютерам Джефф Тейлор изучили облачные геномные данные, которые были внесены в глобальную базу данных последовательностей и загружены Национальным институтом здравоохранения США. На данный момент база данных содержит 16 петабайт архивных сиквенсов, которые получены в результате генетических исследований всего на свете - от рыбы фугу до почвы на фермах и внутренностей человека. (Примерно столько же места заняла бы база данных с цифровой фотографией каждого жителя США). Геномы вирусов, заражающих различные организмы в этих образцах, также фиксируются с помощью секвенирования, но они обычно остаются незамеченными.
Чтобы просеять эти массивы данных, Бабаян и Тейлор разработали набор компьютерных инструментов, специализированных для поиска данных в облаке. С помощью нескольких биоинформатиков, некоторые из которых стали их постоянными сотрудниками, они настроили свое программное обеспечение так, что их анализ стал "намного быстрее, чем кто-либо думал", - вспоминает Бабаян, который сейчас работает в Кембриджском университете.
Вскоре они расширили свой поиск вирусов за пределы коронавирусов и изучили все данные в облаке. Бабаян и его коллеги провели поиск, обнаружив совпадения с центральным ядром гена РНК-зависимой РНК-полимеразы, который является ключевым для репликации всех РНК-вирусов. К таким вирусам относятся не только коронавирусы, но и те, которые вызывают грипп, полиомиелит, корь и гепатит.
Подход Бабаяна был достаточно быстрым, чтобы обрабатывать 1 миллион дата-сетов в день - при вычислительных затратах менее 1 цента на датасет. "Это впечатляющий инженерный подвиг", - говорит К. Титус Браун, биоинформатик из Калифорнийского университета в Дэвисе, который не принимал участия в исследовании. Когда исследователи наконец закончили работу, они обнаружили частичные геномы почти 132 000 РНК-вирусов, о чем они сообщили 26 января в журнале Nature.
В новой базе данных группы нет полной последовательности каждого нового вируса - во многих случаях имеется только ген основного фермента. Но исследователи могут использовать даже частичные сиквенсы для построения родословных, которые показывают, как разные вирусы связаны между собой и как они эволюционируют. Они также могут использовать базу данных, чтобы выяснить, где был обнаружен конкретный вирус и каков его хозяин. Некоторые открытия могут помочь исследователям лучше понять, как возникают человеческие патогены, говорит Браун, или улучшить диагностические тесты для вирусных инфекций. Наконец, когда новый вирус выделяется от больного пациента, исследователям легче определить, был ли он уже найден в другом месте.
"Мы превратили эту [базу данных] в гигантскую сеть наблюдения за вирусами", - говорит Бабаян.
Некоторые находки были неожиданными, включая ранее неизвестные коронавирусы у хорошо изученных рыб фугу и аксолотлей. В нескольких случаях исследователи смогли собрать воедино целые вирусные геномы. А у некоторых водных животных последовательности указывали на то, что геном неизвестного коронавируса состоит из двух отдельных петель, а не из обычной одной нити РНК, сообщают Бабаян и его коллеги.
Группа Бабаяна также обнаружила свидетельства существования более 250 гигантских вирусов, которые заражают бактерии и похожи на те, что встречаются в водорослях. Представители бактериофагов, близкие родственники этих "гигантских фагов", были обнаружены в последовательностях из совершенно разных организмов. Одна группа огромных фагов была обнаружена, например, у человека в Бангладеш, а также у кошек и собак в Великобритании. Эти вирусы достаточно велики, чтобы переносить гены между видами своих хозяев, отмечает Бабаян. С вирусами дело обстоит именно так, говорит Дашзак. "Каждый раз, когда мы начинаем копать, мы обнаруживаем сюрпризы".
Чтобы другие могли воспользоваться результатами работы, коллектив Бабаяна создал публичное хранилище разработанных им инструментов, а также результатов. Объем облачных, общедоступных последовательностей ДНК растет экспоненциально; если он проведет такой же анализ в следующем году, то, по словам Бабаяна, он ожидает найти еще сотни тысяч РНК-вирусов. "К концу десятилетия я хочу идентифицировать более 100 миллионов".