Машинное обучение - это гибкий набор инструментов для выявления закономерностей и взаимосвязей в сложных данных и принятия решений на их основе.
Модель машинного обучения может обеспечить автономное управление автомобилем или использовать данные секвенирования микробиома кала для прогнозирования возникновения заболевания. Экспериментальные данные, собираемые в современных микробиологических исследованиях, достигли такого уровня сложности, что машинное обучение становится необходимым и открывает возможности для решения самых разных задач - от диагностики в медицине до открытия биомаркеров.
Машинное обучение - это очень широкая дисциплина. В целом его можно разделить на контролируемое машинное обучение, направленное на разработку прогностических моделей на основе обучающих данных, ответы на которые известны, и неконтролируемое машинное обучение, направленное на группировку наблюдений или создание упрощенных представлений основных структур данных. Примерами первого являются определение профиля антибиотикорезистентности изолята по его геному, изучение того, какие компоненты микробных сообществ, ассоциированных с человеком, связаны с определенным заболеванием хозяина, или разработка систем поддержки принятия клинических решений для рекомендации вариантов лечения на основе экспериментальных данных о патогенах или микробиоме. Машинное обучение без контроля применяется в различных областях - от группировки микробных генов со схожими паттернами экспрессии до разделения ампликонов гена 16S рРНК на оперативные таксономические единицы.
Значение машинного обучения в микробиологии растет, а программные инструменты становятся все более удобными и простыми для использования в этой области. Однако микробиологов все еще готовят, уделяя мало внимания количественному анализу и зачастую не имея достаточной статистической подготовки, чтобы раскрыть потенциал машинного обучения в своих областях. Машинное обучение имеет сложную статистическую и теоретическую базу, которая остается недоступной для большинства микробиологов. Однако в настоящее время машинное обучение построено таким образом, что понимание деталей его формальных основ не является необходимым для его использования, если есть четкое понимание того, как правильно его применять.
Цель настоящего обзора - дать микробиологам возможность "управлять" машинным обучением, не обязательно разбираясь в том, как устроен "двигатель автомобиля". Таким образом, микробиологи с ограниченными знаниями в области статистики и информатики должны быть в состоянии понять основные концепции машинного обучения и включить их в свою деятельность, начиная от собственных экспериментов и заканчивая критическими оценками работ, выполненных коллегами.
В этом обзоре мы рассматриваем аспекты, которые считаем наиболее важными для использования микробиологами машинного обучения. В первой части мы представляем контролируемые и неконтролируемые методы машинного обучения (с особым акцентом на высокопроизводительную микробиологию), рассматриваем подходы к снижению размерности, поскольку они часто используются для поисковых микробиологических исследований, а также отбор признаков, который является ключом к выявлению наиболее значимых аспектов микробиологического процесса. Мы упоминаем некоторые конкретные алгоритмы машинного обучения, представляющие интерес, но не ставим целью их глубокое обсуждение и отсылаем заинтересованного читателя к более специализированной литературе.
Во второй части мы рассматриваем основные аспекты выбора модели, которые важны для максимизации возможностей подхода машинного обучения, а затем фокусируемся на ключевых практических аспектах того, как оценить модель машинного обучения и как применить ее в реальных сценариях, минимизируя лежащие в ее основе погрешности. В завершение мы приводим несколько практических примеров доступных программных реализаций, которые могут быть использованы микробиологами с ограниченной компьютерной подготовкой, обсуждаем общие подводные камни, которых следует избегать в этой области, и предоставляем практический контрольный список, который следует учитывать при чтении или оценке работ, основанных на машинном обучении. Темы, представленные в данном обзоре, позволят микробиологам осознать потенциал машинного обучения в своей области и рассмотреть возможность его использования в своих исследованиях. Читатели могут расширить свои знания по этой теме с помощью других соответствующих обзоров.
По мере того как микробиологи будут все больше знакомиться с машинным обучением, эта область будет иметь все больше возможностей для преодоления существующих ограничений. Они варьируют от потребности в значительно больших массивах данных для улучшения прогнозирования в клинически значимых задачах до более точного определения микробиологических аспектов, связанных с соответствующими характеристиками хозяина, и до разработки и внедрения передовых подходов глубинного обучения, которые все еще страдают от высокой размерности и малого объема выборки во многих микробиологических приложениях. Отсутствие точной и всеобъемлющей аннотации метаданных микробиологических образцов и их зачастую очень неполная общедоступность являются другими факторами, которые в настоящее время ограничивают использование машинного обучения в этой области по практическим и этическим причинам. Обновленные принципы, способствующие открытому доступу к данным, а также поддержка подходов машинного обучения, таких как метод полуконтролируемого обучения, могут смягчить эти проблемы в будущем.
Пример применения контролируемого машинного обучения в микробиологии: машинное обучение для выявления резистентности к противомикробным препаратам.
Раннее определение вида микроорганизмов, вызывающих инфекцию, может помочь в выборе антимикробной терапии и дозировки, что имеет решающее значение для исхода инфекции. В клинике необходимы быстрые и точные методы, и в одном из подходов для прогнозирования резистентности к противомикробным препаратам применяется контролируемое машинное обучение с использованием масс-спектров времяпролетной матричной лазерной десорбции/ионизации (MALDI-TOF).
Данные: 300 000 масс-спектров с более чем 750 000 фенотипов резистентности к противомикробным препаратам, полученных из четырех медицинских учреждений.
Характеристики: Масс-спектры MALDI-TOF профилей клинических изолятов.
Прогнозируемая переменная: резистентность к противомикробным препаратам.
Модели машинного обучения: логистическая регрессия, деревья решений с градиентным усилением и нейронные сети.
Обучающие или тестирующие выборки: случайное разбиение на 80% обучающих и 20% тестирующих, стратификация по классу антимикробных препаратов и виду, обеспечение того, чтобы несколько образцов от одного и того же пациента входили либо в обучающую, либо в тестирующую выборку, но не в обе.
Настройка проверки: перекрестная валидация.
Основной результат: площади под кривыми приемных операционных характеристик от 0,80 до 0,74 для выявления резистентных к противомикробным препаратам и клинически важных патогенов, таких как Staphylococcus aureus, Escherichia coli и Klebsiella pneumoniae.