Несмотря на глобальные инвестиции в эпиднадзор за болезнями в рамках программы "Единое здоровье", выявление и мониторинг резервуаров новых зоонозных вирусов в дикой природе остается сложной и дорогостоящей задачей.
Статистические модели могут служить руководством при определении приоритетности целей отбора проб, однако прогнозы любой конкретной модели могут быть весьма неопределенными; кроме того, систематическая проверка моделей проводится редко, а факторы, определяющие эффективность модели, как следствие, недостаточно документированы.
В данной работе мы используем хозяев бетакоронавирусов - летучих мышей - в качестве примера процесса сравнения и проверки прогностических моделей. В начале 2020 года мы создали группу из восьми статистических моделей, которые предсказывали ассоциации хозяин-вирус и разработали рекомендации по приоритетному отбору проб для потенциальных резервуаров бетакоронавирусов летучих мышей и промежуточных хозяев для SARS-CoV-2.
В течение более года мы отслеживали обнаружение 47 новых хозяев бетакоронавирусов летучих мышей, проверяли первоначальные прогнозы и динамически обновляли нашу аналитическую систему. Мы обнаружили, что модели, основанные на экологических признаках, хорошо справляются с прогнозированием этих новых хозяев, в то время как сетевые методы постоянно показывают примерно такие же или худшие результаты. Эти результаты иллюстрируют важность группового моделирования и подчеркивают ценность включения экологии хозяина в прогностические модели.
Наши обновленные модели показали улучшенную производительность по сравнению с исходным алгоритмом и предсказали более 400 видов летучих мышей во всем мире, которые могут быть необнаруженными носителями бетакоронавируса. Мы показываем, что модели машинного обучения могут помочь оптимизировать отбор проб в дикой природе для выявления необнаруженных вирусов, и иллюстрируем, как такие подходы лучше всего реализовать через динамический процесс прогнозирования, сбора данных, проверки и обновления.