В последнее десятилетие микробиом был признан основным игроком в гомеостазе хозяина и, таким образом, в патофизиологии различных заболеваний.
Одним из основных направлений исследований микробиома является развитие подходов персонализированной медицины, которые потенциально необходимы для лечения полиэтиологических заболеваний с гетерогенными фенотипами. Хотя были предприняты значительные усилия по отбору образцов, секвенированию и анализу множества хорошо описанных когорт больных и контрольных групп, последующий перевод этой информации в клиническую практику, к сожалению, оказался медленнее, чем ожидалось.
Также, перевод знаний о микробиоме в клиническую практику сталкивается с различными проблемами. Например, множество различных методов анализа, специально предназначенных для изучения микробиома, должны быть стандартизированы в связи с тем, что в противном случае методологические факторы, сбивающие с толку, остаются в тени. Вторая проблема заключается в том, что некоторые особенности данных микробиома и управления ими делают разработку оптимизированных и стандартизированных методов, способных работать с такими многомерными данными, особенно сложной.
Машинное обучение (ML) предлагает большой потенциал для применения в анализе этих сложных массивов данных. Основной целью COST Action ML4Microbiome (https://www.cost.eu/actions/CA18131/) является оптимизация, стандартизация и распространение передового опыта использования ML для данных микробиома человека. Это сообщество объединило экспертов по искусственному интеллекту (ИИ)/МЛ и исследователей микробиома для достижения этой цели, что в конечном итоге ускорит прогресс в развитии науки о микробиоме.
Однако эта задача далеко не тривиальна из-за ряда методологических проблем, которые необходимо сначала преодолеть. Микробиомные данные по своей природе отличаются неоднородностью, существует несколько различных типов данных и в большинстве случаев гораздо больше характеристик (таксонов, генов и т.д.), чем образцов.
Для того чтобы описать текущее состояние дел в области ML с микробиомными данными, в работе Macros-Zambrano et al. был проведен обзор применения ML для отбора признаков, идентификации биомаркеров, прогнозирования заболеваний и лечения. Обзор сосредоточился на реальных приложениях ML и описал соответствующее программное обеспечение и хранилища данных микробиома с сопутствующими исследовательскими работами, направляющими реализацию будущих усилий ML в этом пространстве.
Более того, члены ML4microbiome также выразили свою точку зрения на прошлое, настоящее и будущее использования ML в микробиоме в сопроводительном обзоре (Moreno-Indias et al.). Основными недостатками были названы малый размер используемых на сегодняшний день баз данных, необходимость сочетания статистических методов, специально адаптированных к особенностям данных микробиома, и потребность в более удобных для пользователя версиях этих подходов для облегчения использования широким кругом специалистов из разных областей знаний.
Исследователи в данной области также представили оригинальные исследовательские работы. Опубликованные статьи, как улучшили текущие знания в определенных областях, так и внесли вклад в новые инструменты на основе ML, которые будут применяться в пространстве микробиома.
Другие приложения, представленные по этой теме исследования, - это два новых инструмента, разработанных на основе двух дисциплин, находящихся в постоянном развитии: изучение вирома и секретома (Fang и Zhou). Здесь авторы использовали подход на основе глубинного обучения для разработки инструмента прогнозирования белков вириона прокариотного вируса (PVVPs) под названием VirionFinder для идентификации полных и частичных PVVPs из белков вириона непрокариотного вируса (non-PVVPs). Идентификация такого рода белков является важным шагом для многих вирусных анализов, таких как классификация видов, филогенетический анализ и изучение того, как прокариотные вирусы взаимодействуют со своими хозяевами. Исследователи обнаружили, что фокусировка только на последовательности из 20 аминокислот, вместо целого или частичного белка, значительно повышает чувствительность. Использование реальных виромных данных еще больше повысило скорость распознавания PVVP-подобных сиквенсов по сравнению с предыдущими инструментами.
Yu et al. представили свои данные по обнаружению секретируемых белков грамотрицательных бактерий, что особенно важно в связи с их участием во взаимодействии бактерий и хозяина. Поскольку в настоящее время сложно различать различные типы, особенно секретируемые эффекторы III типа (T3SEs) и секретируемые эффекторы IV типа (T4SEs), авторы предложили решение на основе глубинного обучения для точного различения T3SEs и T4SEs. Инструмент, названный DeepT3_4, способен достигать точности 80%, обеспечивая перспективный инструмент для анализа секретома.
Несколько статей были посвящены трансляционному подходу. Sudhakar et al. выделили важные вычислительные приложения для преодоления некоторых ограничений, встречающихся в лабораторных исследованиях микробиома, чтобы улучшить наше понимание взаимодействия микроба и хозяина и заполнить большие пробелы в отношении того, как микробиом механистически влияет на функции хозяина на уровне системы и сообщества (Sudhakar et al.). Такое понимание позволяет нам продвинуться в разработке биомаркеров, раскрывающих механизмы терапевтического вмешательства и генерирующих интегрированные сигнатуры для стратификации пациентов.
Другие авторы сосредоточились на конкретных заболеваниях, например, Bakir-Gungor et al. использовали различные контролируемые и неконтролируемые модели ML для изучения микробиоты с целью поиска биомаркеров диабета 2 типа (T2D). Они повысили точность диагностики и выявили несколько видов Bacteroides и других родов, имеющих отношение к заболеванию. Ранее сообщалось, что эти бактерии играют роль в патофизиологии T2D.
Наконец, Vilne et al. представили мини-обзор по использованию ML при ишемической болезни сердца и прогнозировании риска ее развития. Авторы обсудили включение взаимодействия диеты и микробиома кишечника в целях развития персонализированной медицины. Хотя данные микробиома имеют огромное значение для развития прецизионной медицины, они утверждают, что еще предстоит преодолеть несколько препятствий, связанных с унификацией данных, как по микробиому, так и по диете. Как только эти проблемы будут решены, станет возможной разработка носимых биосенсоров для самоконтроля пациентов.
В заключение следует отметить, что внедрение использования ML в исследованиях микробиома все еще находится в зачаточном состоянии, и необходимо провести еще много исследований и разработать новые методы. Эти новые подходы обладают большим потенциалом для прогнозирования состояния здоровья человека, а представленная в этом выпуске тема исследования, как мы надеемся, поможет ускорить этот переход. Программа COST Action ML4microbiome добилась больших успехов в объединении сообществ исследователей микробиома и ML, что может привести к необходимым достижениям в обоих исследовательских сообществах.