Быстрый прогресс в микробиологии неотделим от обновления методов.
В последнее время основные горячие точки исследований в микробиологии включают:
- классификацию сообществ и их экологическую роль,
- регуляцию микробиома кишечника и взаимодействия с хозяином,
- исследование патогенных микроорганизмов и разработка вакцин,
- а также попытки раздвинуть границы между микробиомом и редактированием генома, молекулярной модификацией, экологией и использованием ресурсов, биокатализом и синтезом.
Кроме того, микробиология и мультиомика (включая геномику, эпигеномику, транскриптомику, протеомику и метаболомику) объединились и развили множество масштабных развивающихся областей.
С наступлением эры больших данных актуальные вопросы для исследователей постепенно переросли в то, как быстро и эффективно обрабатывать экспоненциальный рост информации для получения обобщенных качественных данных и как преобразовать массивные данные о микробиоте в легко понимаемые и визуализируемые знания. По сравнению с традиционными исследованиями с недостаточным количеством данных или чисто экспериментальными методами, которые вызывают такие проблемы, как когнитивная предвзятость, низкая воспроизводимость и длительный период времени, современный процесс исследования в микробиологии, скорее всего, будет включать новые технологии и методы работы с большими данными.
Искусственный интеллект (ИИ), идея которого была впервые выдвинута Джоном Маккарти на Дартмутской конференции летом 1956 года, сосредоточен на моделировании расширения человеческого интеллекта, а также на исследовании и разработке теоретических методов, методик и прикладных систем. Внедрение ИИ стимулирует прогресс в микробиологии и обеспечивает новую парадигму (Barredo Arrieta et al., 2020). В сочетании с преимуществами больших данных, автоматизации, моделирования и ИИ микробиология развивается в многомасштабном и многомерном направлении, постепенно переходя к системной биомедицине, системной экологии и т.д.
Машинное обучение (ML), впервые предложенное Артуром Самуэлем (Bell Labs, IBM, Stanford) в 1959 году, является специальной отраслью ИИ, целью которой является поиск характеристик в крупномасштабных разнородных данных. Самое основное - это использование алгоритмов для анализа данных, автоматический анализ закономерностей в данных, а затем использование этих закономерностей для принятия прогнозов и решений в отношении реальных событий. В отличие от традиционных программ, которые жестко закодированы для решения конкретных задач, ML берет большие объемы данных и обучается с помощью алгоритмов, чтобы научиться выполнять задачи на основе данных. При интеграции разномасштабных и сложных микробных сообществ и мультиомики ML можно использовать для систематического представления взаимодействий между микрофлорой или с хозяевами. Процесс извлечения характеристик из многомерных массивов данных, полученных из больших совокупностей данных, способствует изучению функционального потенциала микроорганизмов и расширению исследований в области применения микробных технологий.
Глубинное обучение (DL) - это прорывной подход ML, который моделирует высокоуровневые абстракции данных с помощью глубинной сети с несколькими слоями блоков обработки, которые представляют собой параметрические модели, обученные методом градиентного спада (Lecun et al., 2015). ML - это способ реализации ИИ, а DL - технология реализации ML. Примечательно, что не существует очевидной границы, отделяющей DL от традиционного ML и традиционного статистического анализа. Для обработки сложных, многомерных данных микробиома алгоритмы ML были применены на границах объединения микробиома и вычислительной науки, чаще всего для классификации и прогнозирования (Schmidhuber, 2015).
Исследования в области ML и DL стремительно развиваются, при этом архитектуры, комбинации алгоритмов и вычислительные стратегии быстро меняются. Конечной целью является не только точность прогнозирования, но и раскрытие биологических процессов, лежащих в основе научной проблемы. Мнение о том, что "глубокое обучение может в конечном итоге устранить все другие алгоритмы машинного обучения", является ограниченным и односторонним. Моделирование с помощью глубокого обучения требует большого количества обучающих данных, чтобы продемонстрировать фантастическую производительность, но реалистичные исследования колоний микроорганизмов часто сталкиваются с проблемами, связанными с небольшими объемами выборочных данных. На этом этапе методы DL не справляются с ними, но традиционные методы ML обучения способны с ними справиться.
Данный обзор обобщает применение и развитие ML и DL в области микробиологии, а также показывает и сравнивает преимущества и недостатки различных инструментов алгоритмов в четырех областях: микробиом и таксономия, микробная экология, возбудители и эпидемиология, а также поиск лекарственных препаратов. В обзоре кратко представлены методы ML, этапы обработки данных и алгоритмы, обычно используемые в исследованиях микроорганизмов, обобщены исследования по прогнозированию и применению микроорганизмов на основе ML, обсуждаются преимущества и ограничения методов и инструментальных средств, демонстрируя перспективы развития компьютерной микробиологии с точки зрения ML.
Разработка эффективных аналитических инструментов, включая программное обеспечение для интеллектуального анализа данных и машинного обучения, обеспечивает достоверность данных, их правильное аннотирование и открытый обмен, что позволяет большинству исследований, возникающих на стыке микробиологии и машинного обучения, показывать многообещающие результаты. После интеграции биоинформатики и мультиомики, ML и DL возглавят следующую волну технологий для раскрытия биологических закономерностей.