За последнее десятилетие секвенирование следующего поколения (NGS) превратилось из исключительно исследовательского инструмента в рутинный метод, применяемый во многих областях, включая диагностику, расследование вспышек заболеваний, устойчивость к противомикробным препаратам, криминалистику и определение подлинности пищевых продуктов.
1.Введение
Технология развивается быстрыми темпами, постоянно улучшая качество и снижая затраты и оказывает значительное влияние на пищевую микробиологию. NGS в пищевой микробиологии используется преимущественно в двух направлениях:
(i) определение последовательности всего генома отдельного культивируемого изолята (например, колонии бактерий, вируса или любого другого организма), что обычно называют «секвенированием всего генома» (WGS), и
(ii) «метагеномика», когда NGS применяется к биологическому образцу, генерируя последовательности множества (если не всех) микроорганизмов в этом образце.
Высокая дискриминационная способность WGS по сравнению с традиционными инструментами молекулярного типирования хорошо известна и WGS получает все большее признание в качестве метода перспективного эпиднадзора за заболеваниями пищевого происхождения. Технология WGS все чаще заменяет традиционные методы типирования и определения характеристик микроорганизмов, обеспечивая более быстрые и точные ответы.
Применение метагеномики для повышения безопасности и качества пищевых продуктов находится в зачаточном состоянии и открывает широкие возможности для прогнозирования присутствия или появления патогенов и микроорганизмов, вызывающих порчу, на основе изменений, наблюдаемых во всех микробных сообществах, а также позволяет охарактеризовать неизвестную микробиоту. В данном обзоре основное внимание уделено недавнему использованию и будущему потенциалу NGS в пищевой микробиологии, а также обсуждению текущих проблем, связанных со всеми заинтересованными сторонами. Целью обзора также является содействие использованию NGS в пищевой промышленности, а также выявление пробелов в знаниях и потребностей в будущих исследованиях для повышения ценности применения технологии NGS для пользователей.
2. Описание технологий
Секвенирование генома микроорганизмов стало основным направлением в пищевой микробиологии благодаря растущей доступности и улучшению скорости секвенирования и качества данных. Это является следствием развития технологий секвенирования, известных как секвенирование следующего поколения. NGS включает в себя как массово-параллельное, так и одномолекулярное секвенирование, которое обеспечивает короткие и длинные чтения секвенирования соответственно.
Секвенирование с короткими прочтениями отличается высокой точностью и дает прочтения длиной 100-300 п.н. (пар нуклеотидов), которые затем собираются в неполные или так называемые черновые геномы. Полные геномы не могут быть получены из коротких чтений, полученных за один прогон последовательности, из-за трудностей в сборке повторяющихся областей и больших геномных перестроек, таких как инсерции, делеции и инверсии. Для многих приложений, включая сравнительную геномику и филогенетику, это не является проблемой, но там, где требуются полные геномы и определение сложных геномных регионов, необходимы более длинные считывания.
При секвенировании с длинными прочтениями получаются прочтения длиной от 10 до 50 Кб (килобаз), но за это приходится платить более высоким числом ошибок. В настоящее время секвенирование микробной ДНК можно проводить на различных платформах, таких как Illumina, Ion Torrent, PacBio и Nanopore.
Выбор технологии зависит от того, для чего будут использоваться данные секвенирования, а также от пропускной способности секвенирования. Максимальное использование высокой пропускной способности приведет к низкой стоимости секвенирования одного образца. Однако количество образцов, секвенированных за один цикл, зависит от желаемой производительности и покрытия, а это зависит от конкретной задачи. Например, анализ однонуклеотидных полиморфизмов (SNP) в бактериальных геномах может проводиться с относительно низким покрытием, а значит, за один цикл секвенирования можно обработать больше образцов ДНК.
В отличие от этого, метагеномный анализ, направленный на выявление всех микробных генов, присутствующих в образце, требует гораздо большего покрытия, что ограничивает количество образцов, которые могут быть включены в один цикл, и, как правило, увеличивает стоимость секвенирования одного образца.
3. Полногеномное секвенирование изолятов
3.1. Современные применения
WGS микробных патогенов была внедрена в систему эпиднадзора за общественным здравоохранением относительно быстро по сравнению с предыдущими методологическими достижениями: сообщения о ее использовании поступают примерно с 2011 года. Изначально этот метод использовался для ретроспективного анализа вспышек заболеваний пищевого происхождения, выявленных с помощью таких технологий типирования, как импульсный гель-электрофорез, однако в настоящее время WGS микробных патогенов был внедрен для проспективного надзора за бактериальными патогенами пищевого происхождения по крайней мере в четырех странах: Великобритании, Дании, Франции и США.
Через год после внедрения WGS для проспективного надзора за листериозом в США выявлялись все более мелкие вспышки, вспышки стали выявляться раньше, чаще определялся источник вспышек и увеличилось общее число выявленных случаев, связанных со вспышками. В сфере общественного здравоохранения WGS внедряется как технология замены, то есть она заменит большинство существующих методов идентификации и определения характеристик в микробиологической лаборатории, таких как серотипирование, профилирование вирулентности, определение устойчивости к противомикробным препаратам и предыдущие методы молекулярного типирования.
В условиях общественного здравоохранения замена множества традиционных микробиологических методов идентификации и типирования одним эффективным аналитическим рабочим процессом WGS делает внедрение экономически эффективным, а также предоставляет общественному здравоохранению более точные и оперативные данные, чем те, которые собирались ранее.
Следуя примеру здравоохранения, WGS все чаще рассматривается для применения в пищевой промышленности. Это связано не только с необходимостью понимания подходов к здравоохранению, но и с огромными преимуществами и перспективами повышения качества и безопасности пищевых продуктов, которые дает эта технология. Одним из ключевых и непосредственных преимуществ для пищевой промышленности является улучшение анализа первопричины заражения патогенами или микроорганизмами порчи. Например, WGS может помочь отличить новое и повторяющееся внедрение организма в производственную среду. Оно также может быть использовано для прогнозирования таких признаков, как вирулентность или резистентность патогена к противомикробным препаратам, или способность микроорганизма порчи нарушить барьеры сохранности продукта. Несмотря на то, что промышленные испытания безопасности пищевых продуктов не требуют детальной микробной характеристики, необходимой для референс-лабораторий, WGS все чаще используется для отслеживания источника микробной контаминации. Поскольку стоимость секвенирования снижается по мере совершенствования технологий, промышленным предприятиям становится все более целесообразно рассматривать возможность его использования.
3.2. Принципы отслеживания на основе WGS
Методы молекулярного субтипирования оказались бесценными для отслеживания патогенов по пищевой цепи, помогая определить источники инфекции и пути передачи. Это касается и случаев, когда источник инфекции является следствием некачественной работы персонала пищевых предприятий, поскольку молекулярное типирование может показать, что изоляты от больных, персонала пищевых предприятий или среды общественного питания происходят из общего источника. Дополнительная информация, доступная благодаря WGS, значительно расширяет наши возможности по определению источника инфекции. Со временем бактерии накапливают изменения в своей ДНК и это может быть использовано для анализа их эволюции.
Если предыдущие методы молекулярного типирования выявляли изменения последовательности в небольшой части микробного генома, то WGS фиксирует их по всему геному и, таким образом, более точно описывает генетическое родство штаммов. При отслеживании оценивается родство бактериальных последовательностей из вспышек и цепочки производства продуктов питания, чтобы определить, могут ли они быть частью одной и той же цепи передачи. Однако, как это будет обсуждаться в разд. 3.3 данные WGS должны быть подкреплены эпидемиологическими данными, чтобы доказать и охарактеризовать цепь передачи.
В настоящее время существует два основных подхода к анализу геномных данных для определения родства между штаммами, а именно подход, основанный на SNP, и подход, основанный на генах. Анализ данных WGS с помощью любого из этих подходов представляет собой сложный процесс, в котором для получения конечных результатов, таких как матрицы SNP или аллелей и филогенетические деревья, объединяются несколько этапов.
Большой объем данных, генерируемых в WGS, создает трудности для их анализа. Это привело к разработке многочисленных программных решений, в основном в рамках академической деятельности, которые, как правило, требуют специальных знаний и опыта для их внедрения и работы. Однако в последнее время появились коммерческие программы, предлагающие удобный интерфейс, позволяющий проводить анализ не специалистам в области биоинформатики, имеющим соответствующую подготовку как по биоинформатике, так и по интерпретации конечных результатов WGS. Коммерческое программное обеспечение может быть дорогостоящим, но, поскольку для его использования требуются ограниченные биоинформатические знания, оно может оказаться более экономичным решением для многих специалистов пищевой промышленности.
3.2.1. SNP-анализ
При подходе, основанном на SNP, чтения секвенирования выравниваются или сопоставляются с известным секвенированным эталонным геномом, и определяются нуклеотидные различия в кодирующих и некодирующих регионах. Для каждого изолята регистрируется каждый SNP относительно эталонного генома, который затем используется для количественной оценки генетического родства между штаммами. Выбор эталонного генома - критически важный шаг: эталонный геном должен быть как можно более полно секвенирован, т.е. как можно более непрерывным, и близко генетически родственным анализируемым геномам (например, того же серотипа). Отдаленно родственный эталонный геном может привести к недооценке генетического родства исследуемых изолятов, поскольку повышается вероятность неправильного картирования и уменьшается количество регионов, с которыми могут быть сопоставлены считывания.
Изменения в мобильных генетических элементах, таких как плазмиды и профаги, по определению не ограничиваются вертикальным наследованием и поэтому не всегда отражают истинную эволюционную историю между штаммами, а значит не являются надежным показателем эпидемиологического родства. Повторяющиеся регионы, такие как профаги и инсерционные элементы, часто исключаются неявно из-за неоднозначного картирования (т.е. чтения секвенирования могут соответствовать нескольким местам в эталонном геноме и поэтому игнорируются) или явно, путем маскирования регионов с высокой плотностью SNP. Несмотря на такие исключения, SNP-анализ обычно проводится с использованием более 95% секвенированного генома.
Количество различий SNP может варьироваться в зависимости от референсного штамма, референсного картирования, а также используемого метода анализа SNP. В открытом доступе есть несколько инструментов для анализа SNP, которые активно разрабатываются, а также появляются новые. Это затрудняет их сравнение, тем более что общепринятых рекомендаций или стандартов для выбора инструментов SNP-анализа не разработано. Пользователям рекомендуется использовать ранее проверенные инструменты для анализа SNP, например, разработанные Управлением по контролю за продуктами и лекарствами США (FDA), Центрами по контролю и профилактике заболеваний (CDC), Общественным здравоохранением Англии (PHE) и Центром геномной эпидемиологии (CGE), которые доступны на Github, и проводить проверку собственными силами, в идеале используя эталонные базы данных, которые становятся все более доступными.
3.2.2. Анализ «ген за геном»
Анализ «ген за геном» заключается в оценке вариаций в кодирующих областях, т.е. генах (или «локусах») бактериального генома. В расширении традиционного 7-локусного мультилокусного типирования последовательностей (MLST) генов либо определенного ядра генома (cgMLST), либо всего генома (wgMLST), который включает более изменчивые вспомогательные гены, сравниваются с эталонной базой данных всех известных вариантов генов (аллелей) для конкретного вида.
Последовательность каждого гена или аллеля сводится к числу и геномы сравниваются на основе количества различий между аллелями, аналогично тому, как используется количество различий между SNP. Поскольку эталон представляет собой базу данных локусов и аллелей из множества штаммов, анализ не зависит от выбора близкородственного эталонного штамма для точной оценки родства генетически сходных изолятов.
Часто перед анализом гена за геном считывания секвенирования собираются, как правило, с использованием подхода de novo, в более длинные непрерывные последовательности (называемые контигами), которые представляют собой черновой геном (т.е. геном, который все еще содержит пробелы). Чтобы присвоить тип MLST, собранные короткие чтения сравниваются с помощью BLAST с базой данных эталонных аллелей (схема MLST), содержащей все известные аллельные варианты для каждого локуса, определенного для конкретного вида. Вариации, включая SNPs, инделы (инсерции и делеции) и рекомбинации в одном гене, рассматриваются как одно аллельное отличие.
В некоторых системах MLST определение аллелей завершается определением аллелей без сборки, при этом необработанные чтения секвенирования сопоставляются с аллелями в базе данных. Выбор варианта сборки или выбора аллелей без сборки обычно зависит от того, существует ли уже сборка de novo или чтения были сопоставлены с эталонным геномом. Ценный анализ различных программных средств MLST для данных секвенирования NGS был проведен Page et al. (2017) с использованием валидированного набора данных, который предоставляет информацию о точности, ограничениях и вычислительной производительности.
Традиционный 7-генный MLST обеспечивает широкое филогенетическое разделение вида на типы последовательностей (ST) и клональные комплексы (CC), тогда как cgMLST предоставляет высокодетальную филогенетически значимую информацию о генетическом родстве вида. wgMLST обеспечивает еще большую дискриминацию, чем cgMLST, и это может быть ценным для кластерных исследований, чтобы различать близкородственные изоляты. Однако, поскольку он включает данные о последовательностях, возможно, полученных в результате горизонтального переноса, анализ wgMLST может быть не столь филогенетически значимым по сравнению с филогенией, полученной с помощью cgMLST. Таким образом, хотя гены на мобильных элементах обычно включаются в wgMLST, они часто, как и в SNP-анализе, отфильтровываются в окончательном анализе. Для сравнения рекомендуется использовать общедоступную базу данных с общей номенклатурой, но можно создавать и специальные базы данных, если указанная ссылка недоступна или недостаточна.
3.2.3. Филогенетический анализ
Генетические вариации, обнаруженные с помощью SNP или генного анализа, могут быть использованы для вывода о филогенетических отношениях между бактериальными изолятами, что обычно отображается в виде филогенетического дерева. Дерево представляет собой рассчитанную эволюционную модель (полученную с помощью различных возможных алгоритмов вывода дерева, таких как парсимония, максимальное правдоподобие, байесовский метод или метод расстояний) изолятов в виде серии ветвей от корня или общего предка. Изоляты, сгруппированные вблизи ветвей дерева, более тесно связаны между собой, чем изоляты в других частях дерева.
3.2.4. Сравнение SNP и cg/wgMLST
Выбор того или иного сравнительного геномного подхода зависит от потребностей конечного пользователя и эпидемиологического контекста. В то время как методы SNP или «ген за геном» могут быть использованы для изучения фиксированного числа штаммов, связанных с определенным событием контаминации, cgMLST может быть более подходящим, если нескольким пользователям необходимо систематически анализировать каждый новый изолят, добавляемый в общую базу данных, например, в сети эпиднадзора за вспышками, особенно если информация о последовательностях не может быть раскрыта в публичном доступе.
Для изучения филогении использование cgMLST или cgSNP может обеспечить более надежный анализ, чем wgMLST или wgSNP, поскольку включает только области генома, присутствующие у всех штаммов, однако использование wgMLST или wgSNP может обеспечить более высокое разрешение для дискриминации штаммов. Методы SNP и «ген за геном» оценивают генетическую изменчивость несколько по разному, поэтому их следует рассматривать как взаимодополняющие и использовать, когда один метод не дает однозначного ответа или когда требуется более убедительное подтверждение ассоциации между изолятами, например, для подтверждения источника вспышки и поддержки нормативно-правовых мер.
На сегодняшний день доказано, что оба метода одинаково дискриминационны при определении родства штаммов и эпидемиологически согласуются при расследовании вспышек. Однако сравнение этих двух подходов с использованием данных WGS по более широкому кругу пищевых патогенов в различных условиях вспышек было бы ценным, и в настоящее время эта работа ведется.
Основное преимущество cg/wgMLST заключается в том, что его можно стандартизировать и гармонизировать, используя базу данных аллелей со стандартизированным вызовом аллелей, и этот подход применяется в PulseNet International, чтобы обеспечить глобальное сравнение штаммов в интересах общественного здравоохранения. Базы данных аллелей cg/wgMLST должны контролироваться для поддержания качества, и, хотя в большинстве случаев контроль может быть автоматизирован, если новые аллели отклоняются от пороговых значений качества, определенных для автоматизированного контроля, требуется ручной контроль экспертом в области cg/wgMLST и микробиологии.
Важным различием между подходами SNP и «ген за геном» является уровень необходимой вычислительной поддержки. SNP-анализ традиционно выполняется с использованием программного обеспечения с открытым исходным кодом, требующего экспертной биоинформатической поддержки, в то время как cg/wg MLST реализован как с помощью программного обеспечения с открытым исходным кодом, так и коммерческих решений с удобными интерфейсами.
Максимальная польза от WGS пищевых патогенов будет достигнута, если секвенированные геномы будут депонированы в публичных базах данных в режиме реального времени. Несмотря на общее согласие с этим принципом, в настоящее время не все агентства, организации и компании могут поделиться своими данными секвенирования. Необработанные данные секвенирования могут быть представлены в международный общедоступный архивный ресурс Sequence Read Archive (SRA) либо через Национальный центр биотехнологической информации (NCBI) (www.ncbi.nlm.nih.gov/sra), Европейский институт биоинформатики (EBI) (www.ebi.ac.uk/ena) или в Японском банке данных ДНК (DDBJ) (trace.ddbj.nig.ac.jp), причем данные совместно используются всеми тремя организациями.
Веб-сайт NCBI по обнаружению патогенов, который ежедневно предоставляет филогенетические деревья на основе SNP для всех общедоступных данных, также доступен для тех, кто может обнародовать свои данные о последовательностях патогенов, поскольку NCBI требует, чтобы пользователи предоставляли свои последовательности в их общедоступное хранилище до использования их инструментов. Пользователи могут загружать свои геномы и получать результаты на следующий день, используя онлайновые средства просмотра веб-страниц. Дополнительные соображения по поводу обмена данными рассматриваются в разделе 5.
Для анализа данных WGS бактериальных изолятов доступен широкий спектр биоинформатических инструментов, включая приложения для первичной обработки исходных данных, например, для оценки качества, обрезки и фильтрации исходных данных о последовательностях, а также для вторичной обработки, например, сборки или выравнивания последовательностей. Существуют также инструменты для более детального анализа данных, например, для видовой идентификации, обнаружения маркерных генов, вызова вариантов и филогенетического анализа.
3.3. Интерпретация результатов
Биологическая интерпретация генетического родства изолятов с помощью данных о последовательностях часто не вызывает затруднений, если все параметры контроля качества последовательностей находятся в пределах ожидаемых значений и известна генетическая стабильность бактерий, например, скорость спонтанных мутаций. При анализе WGS количество различий SNP/аллелей используется для построения филогенетических деревьев, дающих информацию об эволюционной истории изолятов. В биологическом смысле высокое сходство последовательностей при анализе WGS означает, что изоляты имеют недавнего общего предка, а низкое сходство - что нет.
В молекулярной эпидемиологии существует фундаментальное предположение, что филогения отражает эпидемиологическое родство, т. е. клинические изоляты или клинические и пищевые или экологические изоляты, которые филогенетически тесно связаны, скорее всего, эпидемиологически или причинно-следственно связаны. Хотя это предположение часто верно, это не всегда так из-за сложных или косвенных связей, которые могут возникать в любой точке континуума от фермы до стола. Поэтому очень важно, чтобы эпидемиологические и пищевые данные использовались для поддержки и облегчения правильной интерпретации результатов анализа WGS.
Ключевой вопрос, который необходимо задавать каждый раз, когда сравниваются последовательности: имеет ли филогенетический результат эпидемиологический смысл, т. е. означает ли совпадение последовательностей между изолятом, полученным с предприятия по производству пищевых продуктов/розничной торговли/службы общественного питания, и клиническим изолятом, что пациент заразился, употребляя продукты питания, произведенные на этом предприятии/розничной торговле/службе общественного питания? Анализ WGS предоставляет надежные доказательства генетического родства изолятов, но это не обязательно означает, что клинический случай заболевания произошел непосредственно от продуктов питания или конкретного помещения, где были получены совпадающие по WGS изоляты. Важно, чтобы имелись эпидемиологические данные, подтверждающие филогенетические выводы, определяющие продукт питания, первоначальный источник контаминации и способ передачи.
Из-за присущего различным видам бактерий разнообразия, различных эпидемиологических контекстов и различных подходов к анализу WGS невозможно, да и нецелесообразно, определять видоспецифичные генетические пороговые значения, при которых штаммы считаются близкородственными. Некоторые виды или серотипы более клональны, чем другие, например, Salmonella ser. Enteritidis является высококлональной, в то время как ser. Typhimurium - нет. Кроме того, среда, в которой обитает вид бактерий, может оказывать эволюционное давление, влияя на скорость мутаций и время генерации.
Таким образом, интерпретация генетического родства штаммов на основе различий SNP/аллелей должна быть подкреплена экспертными знаниями о конкретном патогене, включая понимание его генетического разнообразия в среде от фермы до стола и репрезентативности исследуемых изолятов. Анализ WGS каждого сценария вспышки пищевой инфекции должен оцениваться независимо от эпидемиологических исследований и исследований пищевой цепи, чтобы предоставить как можно больше информации для интерпретации.
В целом, если последовательности двух изолятов пищевых патогенов сильно связаны, например, в пределах 0-20 различий SNP/аллелей, вероятно, изоляты имеют недавнего общего предка и, вероятно, происходят из одного источника. Если такие высокородственные изоляты получены из разных мест на предприятии по производству пищевых продуктов, наиболее вероятным сценарием является то, что один и тот же штамм каким-то образом распространился в производственной среде. Однако необходимы дополнительные исследования для установления фактической цепи передачи, чтобы наиболее эффективно решить проблему.
Если последовательности двух изолятов сильно отличаются, например, >50-100 SNPs/аллелей, в большинстве случаев считается, что изоляты не связаны друг с другом, и маловероятно, что они происходят из одного источника. Конечно, такие результаты могут отражать общую проблему, требующую изучения: ранее множественные штаммы были связаны со вспышками, связанными с потреблением одного и того же пищевого продукта («поликлональные вспышки»), а присутствие множественных штаммов в среде производства пищевых продуктов может свидетельствовать об общих проблемах с гигиеной.
Изоляты не всегда попадают в вышеуказанные пороговые значения SNP/аллелей и, таким образом, могут оказаться между высокородственными и неродственными. Например, изоляты на пищевом предприятии могут группироваться отдельно от всех других изолятов в базе данных, но при этом находиться на расстоянии 30 SNP/аллелей друг от друга. Это указывает на то, что изоляты имеют общего предка и, возможно, произошли от резидентного штамма в помещении и потенциально устойчивы. Это может произойти, когда популяции микроорганизмов часто сокращаются (например, в результате уборки и дезинфекции), поскольку случайные мутации могут привести к диверсификации исходного резидентного штамма. Кроме того, в производственных условиях существует несколько различных экологических ниш, что позволяет изолятам в них подвергаться генетическому дрейфу, вызывая диверсификацию штаммов. Обнаружение изолятов с таким типом генетической вариации после очистки и дезинфекции помещений для производства пищевых продуктов указывает на то, что штамм не был уничтожен в результате использованных процедур очистки/дезинфекции или постоянно заносился в помещение из внешних источников, которые поддерживали условия для диверсификации штамма.
Аналогичным образом, при вспышках, связанных с источником, который позволяет распространять изоляты, определение последовательности штамма вспышки может быть более широким (до 50 SNPs/аллельных различий или более). Это часто наблюдается, например, при зоонозных вспышках. Так было в случае вспышки в США, связанной с контактом с домашними черепахами, в которой участвовали три серотипа Salmonella - Poona, Pomona и Sandiego. Связанные со вспышкой изоляты серотипа Poona отличались друг от друга до 17 SNP, а изоляты ser. Pomona - до 30 SNP. Аналогично, 401 изолят, ассоциированный с многонациональной европейской вспышкой Salmonella Enteritidis 14b, обусловленной употреблением яиц, имел максимум 23 SNPs между любыми геномами.
При расследовании вспышек очень важно и обычно необходимо собрать подтверждающие эпидемиологические данные, такие как опросы пациентов, подтверждающие употребление подозреваемого пищевого продукта, совпадение сроков, отслеживание пищевых продуктов и инспекции регулирующих органов, доказательства нарушения мер безопасности пищевых продуктов на предприятии-производителе, а также филогенетическую информацию, полученную с помощью WGS-анализа изолятов, чтобы установить причинно-следственную связь пищевого продукта с заболеванием. Наличие таких эпидемиологических данных в дополнение к подтверждающим данным WGS может также связать пищевой продукт с клиническими случаями в прошлом.
В заключение следует отметить, что, поскольку биологическое родство, например сходство последовательностей, плохо коррелирует с экологией/эпидемиологией, при интерпретации данных о последовательностях необходимо учитывать все имеющиеся исходные данные об источниках изолятов и причине проведения сравнения. Иногда для понимания данных о последовательности необходимо собрать дополнительные описательные данные. Поэтому для целей безопасности пищевых продуктов и расследования вспышек сами по себе данные о последовательности не могут служить доказательством эпидемиологической связи между изолятами.
3.4. Необходимость стандартизации
Чтобы получить максимальную выгоду от WGS, генерируемые данные должны быть точными, надежными и глобально сопоставимыми независимо от платформы секвенирования, биоинформатического подхода и используемого программного обеспечения. Стандартизация - это процесс, с помощью которого это достигается, и если для генетического секвенирования человека существуют стандарты и руководства, то для микробиологического WGS их мало. В основном это связано с тем, что геномика патогенов - быстро развивающаяся область и включает в себя такие направления, как биоинформатика, которые ранее не подвергались процедурам стандартизации в микробиологических лабораториях. Тем не менее, многие принципы и практики качества, разработанные для секвенирования человека, в равной степени применимы и к анализу микробных WGS, и в настоящее время появляются специальные критерии и стандарты качества микробного WGS.
Как и методы субтипирования микроорганизмов, которые они заменяют, микробные WGS требуют валидации и верификации и должны быть подвергнуты всем процедурам обеспечения качества, которые составляют надлежащую лабораторную систему управления качеством. Рабочий процесс WGS состоит из трех компонентов: пробоподготовки, секвенирования и анализа данных, и весь процесс, от начала до конца, должен быть валидирован по сравнению с существующими методами типирования, с четко определенным набором штаммов, чтобы убедиться, что метод работает по целевому назначению для конечного пользователя; это также облегчает разработку интерпретационных рекомендаций для последующей интерпретации результатов.
Валидация устанавливает такие характеристики, как точность, прецизионность, воспроизводимость, повторяемость, чувствительность и специфичность, а также дискриминационную способность и эпидемиологическую согласованность. Процедуры контроля качества необходимы для всех компонентов процесса WGS, включая качество и количество ДНК образца, показатели качества последовательностей, включая глубину покрытия последовательностей, длину прочтений и качество последовательностей, а также использование известных положительных и отрицательных контролей образцов. Как и в случае с другими компонентами WGS, процесс биоинформатического анализа, после его оптимизации, должен контролироваться по версиям, и любые последующие изменения потребуют определенной ревалидации. После валидации всего процесса WGS необходима регулярная независимая оценка его эффективности, то есть верификация, которая может быть достигнута путем использования внутреннего контроля качества, внешнего контроля качества и участия в квалификационных испытаниях.
В настоящее время разрабатываются квалификационные тесты (КТ) для микробного WGS-анализа, например, Глобальный микробный идентификатор (GMI) предоставляет КТ для микробного WGS с 2015 года (http://www.globalmicrobialiden...). Кроме того, был опубликован опрос конечных пользователей, который позволил получить информацию о возможностях, отношении и практике членов сообщества GMI. Эта схема предоставляет штаммы бактерий для комплексного тестирования, выделенную ДНК для секвенирования и оценки анализа данных, а также данные о последовательностях, полученные из одного и того же штамма, для биоинформатического анализа.
Другие инициативы в области качества включают мероприятия по эталонному тестированию, в ходе которых предоставляются хорошо охарактеризованные наборы штаммов для оценки производительности биоинформатических механизмов. Недавно в открытом доступе появился эталонный набор данных о вспышках, состоящий из данных о последовательностях, метаданных образцов и соответствующих известных филогенетических деревьев для L. monocytogenes, S. enterica ser. Bareilly, Escherichia coli и Campylobacter jejuni, а также один симулированный набор данных (https://github.com/WGS-standar...), которые лаборатории могут использовать для оценки своих биоинформатических инструментов и конвейеров.
Также была проведена работа в рамках финансируемого EFSA проекта Engage (http://www.engage-europe.eu) для бенчмаркинга конкретных биоинформационных инструментов. Стандартный набор данных секвенирования был использован для оценки различных инструментов сборки de novo для предсказания серотипов Salmonella, а также инструментов профилирования генов резистентности к противомикробным препаратам. Результаты этих сравнительных исследований показывают, что серотипирование и прогнозирование резистентности к противомикробным препаратам у Salmonella с использованием данных WGS является вполне осуществимой задачей.
3.5. Меры в области общественного здравоохранения и регулирования на основе результатов WGS
Регулирующие органы в области пищевых продуктов и ученые в области общественного здравоохранения все чаще проводят мониторинг баз данных последовательностей для выявления идентичных изолятов от пациентов, пищевой цепи и кластеризованных клинических изолятов, которые могут указывать на вспышку инфекции пищевого происхождения. Такие находки оправдывают изучение потенциальной связи между случаями заболевания и пищевым изолятом(ами). Использование профиля WGS в качестве составляющей определения случая при расследовании вспышки позволяет исключить или не исключить случаи из вспышки с более высокой степенью достоверности, чем это было возможно ранее.
Доказательства принадлежности изолятов к одному и тому же штамму, полученные с помощью WGS, позволяют отнести случаи к вспышкам за более длительные промежутки времени и связать случаи из более обширных географических областей, чем это было возможно при использовании предыдущих методов типирования. Например, можно доказать, что изоляты L. monocytogenes из случаев листериоза, имевших место в течение нескольких лет, являются одним и тем же штаммом; изоляты Salmonella Enteritidis из случаев в разных европейских странах, как показал SNP-анализ, одинаковы и произошли от общего предка.
Более надежное определение конкретного случая повышает эффективность последующих эпидемиологических анализов, таких как исследования «случай-контроль», поскольку неродственные случаи, которые ранее могли быть включены в состав вспышки, больше не мешают анализу. Данные о последовательностях изолятов из вспышек могут быть сопоставлены с известными базами данных последовательностей и могут быть обнаружены совпадения с изолятами, связанными с различными географическими сигнальными точками, что может дать указания на возможный первоначальный источник заражения и, таким образом, помочь направить исследования пищевой цепи и окружающей среды.
Возросшие возможности анализа WGS для демонстрации безусловного генетического родства обеспечивают более надежные доказательства для принятия мер в области общественного здравоохранения и могут позволить вмешаться на более ранней стадии. Однако, как уже говорилось ранее, эпидемиологические данные жизненно важны вместе с данными WGS для обеспечения принятия соответствующих мер в области общественного здравоохранения и регулирования. Там, где WGS регулярно используется для эпиднадзора за пищевыми патогенами, выявляется большее количество кластеров или вспышек, многие из которых не были бы обнаружены традиционными методами типирования. Очевидно, что это имеет значение для последующих расследований, и приоритеты, на которых следует сосредоточить внимание, должны определяться с помощью подхода, основанного на оценке риска, с учетом различных факторов, таких как тяжесть заболеваний, вирулентность возбудителя, инфицирующая доза, количество случаев, время и географическая группировка случаев, а также вероятность контакта с источником в будущем.
При расследовании вспышек, выявленных с помощью WGS, используются те же подходы, что и ранее, при этом больных опрашивают на предмет их пищевых контактов, а в рамках аналитических эпидемиологических расследований проводятся исследования типа «случай-контроль» или «случай-случай» для получения подтверждающих доказательств потенциального пищевого источника. Органы по контролю за качеством пищевых продуктов будут проводить расследования по отслеживанию соответствующих пищевых продуктов, чтобы подтвердить или опровергнуть связь со вспышкой, а если связь установлена, то выявить основную причину вспышки, чтобы можно было принять эффективные меры контроля.
Помимо того, что WGS дает огромное количество доказательств при расследовании вспышек, она также помогает предотвратить ложноположительную ассоциацию продуктов питания со вспышкой. Если патоген был идентифицирован в пищевом продукте или в среде его производства, последовательность изолята можно сравнить с базой данных изолятов человека, чтобы проверить, есть ли совпадения. Однако независимо от того, выявлено ли заболевание человека, присутствие патогена в готовом продукте (пище) или в важнейшей среде производства пищевых продуктов означает нарушение профилактического контроля или гигиенических условий и может послужить поводом для проведения расследования и/или принятия мер по соблюдению требований со стороны регулирующих органов.
3.6. Управление безопасностью пищевых продуктов
Точное отслеживание источника в ходе расследования случая заражения - одно из основных применений WGS в управлении безопасностью пищевых продуктов. Понимание того, является ли обнаруженный патоген или возбудитель порчи результатом спорадического или повторяющегося события контаминации, необходимо для понимания основной причины контаминации и облегчает внедрение или проверку мер контроля. Это позволит промышленности сосредоточиться на приоритетных областях для вмешательства либо на предприятии, либо на уровне поставщика и обеспечить эффективный мониторинг, чтобы определить, были ли действия успешными. WGS можно использовать для улучшения управления поставщиками и сырьем и оптимизации усилий по программам проверки патогенов окружающей среды. Улучшенный анализ первопричин приведет к лучшему пониманию путей передачи и выявлению новых источников заражения. Полученные результаты, внесенные для улучшения производственных и сельскохозяйственных практик, могут быть распространены на весь пищевой сектор, а не только на предприятие, на котором произошел случай заражения.
Помимо прямого сопоставления изолятов из окружающей среды с контаминацией, промышленность также может сравнивать изоляты с записями в публичных базах данных, используемых органами здравоохранения и регуляторами пищевой промышленности. В зависимости от базы данных, используемой для сравнения, можно получить ценную информацию, такую как идентификация потенциальных новых источников (что может дать представление о первоначальном пути проникновения в помещения для производства пищевых продуктов), географические сигналы о возможном происхождении контаминации и связи с заболеваниями людей.
WGS также может дать ценные сведения для уточнения этапа «выявления опасности» в процессе оценки микробного риска. Существующие знания об организмах чаще всего получены путем изучения хорошо охарактеризованных лабораторных штаммов, которые не всегда реально представляют фенотипическое разнообразие более широкой популяции. Например, Maury et al. выявили дополнительные новые факторы вирулентности у L. monocytogenes, сравнив геномы клинических и пищевых штаммов. Yahara et al. изучили влияние различных этапов производственной цепочки птицеводства на популяции Campylobacter с помощью WGS и геномных исследований ассоциаций (GWAS). Ассоциированные с заболеваниями SNPs различались в комплексах ST-21 и ST-45, а изучение функций генов, содержащих ассоциированные элементы, продемонстрировало роль в метаболизме форматов, аэробном выживании, окислительном дыхании и сохранении нуклеотидов, что позволяет установить потенциальную связь между устойчивостью к воздействию окружающей среды и вирулентностью.
Использование данных WGS для фенотипического прогнозирования может принести пользу многим дисциплинам, включая прогностическую пищевую микробиологию и термическую обработку. Существует целый ряд веб-инструментов и общедоступных баз данных, которые можно использовать на местах для этих целей. Эти программы определяют интересующие гены путем выравнивания черновых геномов с базой данных генов. Например, геномные данные, полученные в результате рутинного секвенирования повседневных изолятов, могут быть запрошены для прогнозирования таких признаков, как профиль вирулентности, термоустойчивость, реакция на стресс, образование биопленок, резистентность к антимикробным препаратам и биоцидам путем параллельного изучения их фенотипических характеристик. Важно понимать, что подробная геномная информация не обязательно означает знание экспрессии генов.
Еще одна область использования WGS для оценки риска - атрибуция источников спорадических заболеваний пищевого происхождения, т. е. количественная оценка относительного вклада различных животных, окружающей среды и пищевых источников, включая конкретные продовольственные товары и источники производства, в заболевание человека. До сих пор лабораторная часть этой деятельности основывалась на фенотипических методах и более старых молекулярных методах субтипирования путем поиска характеристик, которые однозначно идентифицируют бактериальные штаммы для любого конкретного источника. Однако недавно для определения вероятных источников инфекции стали использовать геномные данные. Например, анализ 1810 генов, составляющих пан-геном из 884 геномов C. jejuni, выявил 15 новых генетических маркеров, специфичных для хозяина, которые были использованы для отнесения клинических изолятов из Франции и Великобритании к курице и жвачным животным, что позволило выявить возможные географические различия в относительной важности этих источников. Кроме того, сравнение генов C. jejuni по генам позволило связать финские изоляты, вызывающие заболевания людей, с изолятами из куриных скотобоен, имеющими временную связь.
С учетом филогенетической значимости WGS можно делать более надежные выводы об общем происхождении и, следовательно, источнике штаммов со схожими профилями WGS. Однако для этого необходимо разработать новые подходы к моделированию, способные обрабатывать огромные объемы данных о последовательностях. Как только это будет сделано, атрибуция источников станет чрезвычайно мощным инструментом, определяющим области производства продуктов питания, которые связаны с большинством заболеваний людей. Это поможет пищевой промышленности и другим организациям определить приоритетность мероприятий по обеспечению безопасности пищевых продуктов, которые с наибольшей вероятностью приведут к созданию более безопасных продуктов питания и, таким образом, к снижению бремени заболеваний пищевого происхождения.
3.7. Принципы внедрения в промышленность
На предприятиях промышленности и розничной торговли с классически подготовленными микробиологами и ограниченными ресурсами перед внедрением WGS необходимо учитывать не только точность, но и практичность, простоту и стоимость метода. В идеале новый метод должен быть дешевле или, по крайней мере, не уступать тем, которые используются в настоящее время. Простота означает, что, помимо обработки образцов, любые программные решения должны быть простыми и удобными как в настройке, так и в использовании.
Наиболее вероятным путем внедрения в промышленность является подход начального уровня, использующий cg/wg MLST с WGS третьей стороны или полный анализ сторонними организациями. Существует ряд коммерческих решений и некоторые из них включают в свои конвейеры как cg/wg MLST, так и SNP-анализ с целью выявления первичных кластеров с помощью MLST-анализа и SNP-анализа для подтверждения родства между изолятами в кластере.
Ключевым моментом для внедрения WGS в рутинное применение является упрощение анализа и, самое главное, упрощение конечной отчетности. В идеале конечный отчет о результатах анализа типирования с помощью WGS должен содержать следующие данные: соответствие: Да/Нет/Может быть и анализ: Успех/Неуспех, то есть параметры, которые может интерпретировать неквалифицированный специалист. Отчет также должен включать объяснение результатов с описанием предостережений и обоснованием окончательной интерпретации.
Важным моментом для внедрения WGS в промышленности является то, что рутинное микробиологическое исследование пищевых продуктов не всегда требует детальной характеристики, которую дает секвенирование и которую требует здравоохранение. Поэтому использование WGS скорее всего будет осуществляться по мере необходимости, а не для полной замены существующих методов. WGS все шире используется в промышленности для отслеживания происхождения контаминации и можно надеяться, что его успех в этой области в сочетании со снижением стоимости секвенирования будет способствовать его более широкому применению.
3.8. Проблемы, которые будет необходимо решить
Несмотря на то, что WGS произвел революцию в молекулярном типировании патогенов, существует ряд научных пробелов и проблем, которые необходимо решить, чтобы улучшить интерпретацию данных WGS и обеспечить широкое использование WGS в управлении безопасностью пищевых продуктов в пищевой промышленности, включая:
- дальнейшую работу по стандартизации сквозного протокола для обеспечения глобального обмена и сравнения данных WGS.
- исследования для улучшения понимания идентичности изолятов из эпидемиологически несвязанных источников с целью улучшения интерпретации данных WGS.
- изучение роли экологических ниш на скорость мутаций патогенов для поддержки представлений о родстве. Это улучшит интерпретацию данных WGS, в частности, для разработки рекомендаций по значениям отсечения SNP/аллелей, а также для штаммов, которые могут происходить из разных сред и поддерживать разные темпы роста, но должны быть рассмотрены в одном исследовании.
- изучение ценности анализа мобильных генетических элементов (МГЭ) с помощью WGS. Как правило, МГЭ исключаются из анализа WGS, хотя хорошо известно, что они часто способствуют вирулентности и устойчивости к противомикробным препаратам.
WGS бактериальных изолятов - это революционная технология, поскольку она полностью меняет традиционные подходы к микробиологии, в частности к субтипированию. Это, а также значительные аналитические затраты, требования к знаниям и квалификации являются препятствиями для ее более широкого использования в промышленности.
4. Ампликонное секвенирование, метагеномика и метатранскриптомика
4.1. Определение терминов
Для исследования видового и функционального разнообразия микробных сообществ без использования бактериальных культур применяются два подхода с использованием технологий NGS: ампликонное секвенирование или метабаркодирование, которое включает амплификацию и секвенирование определенных семейств маркерных генов, и метагеномика - случайное дробное секвенирование всего геномного содержимого сообществ.
Важно различать эти два подхода, которые иногда ошибочно объединяют под термином «метагеномика». Мы рекомендуем использовать термин «метабаркодирование» при применении ампликонных методов и термин «метагеномика» только при использовании ненаправленного дробового секвенирования. Оба метода исключают необходимость выделения колоний и оказались весьма успешными для идентификации и изучения некультивируемых микроорганизмов.
4.1.1. Профилирование микробного сообщества на основе ампликонов (метабаркодирование)
Эта технология требует выделения ДНК непосредственно из образцов, которые могут включать стартовые культуры, образцы, взятые во время производственного процесса, конечный пищевой продукт и образцы окружающей среды. Выделенная ДНК подвергается направленной ПЦР-амплификации филогенетических маркерных генов: обычно гена 16S рРНК для архей и бактерий, гена 18S рРНК для эукариот (например, протистов) и внутреннего транскрибируемого спейсера (ITS) кластера рибосомальных генов для грибковых видов. Массивное параллельное секвенирование этих ампликонов позволяет получить массив профилирующей информации о часто сложной микробиоте, связанной с пищевыми продуктами. Затем данные секвенирования обрабатываются специальными биоинформатическими пакетами для структурирования и аннотирования этой необработанной информации в знания.
Одним из преимуществ подхода метабаркодирования является возможность проследить за сменой микробных популяций во времени на различных таксономических уровнях. Например, олиготипирование позволяет дифференцировать близкородственные микробные таксоны, используя данные о последовательности гена 16S рРНК. По сравнению с секвенированием методом случайного дробовика (метагеномика), метабаркодирование обеспечивает экономически эффективный обзор таксономического состава образца и уже применяется к различным пищевым продуктам. Использование подходов метабаркодирования для изучения микробиологии производства ферментированных продуктов питания хорошо документировано, а также используется для характеристики микробиоты, вызывающей порчу продуктов питания.
В качестве примера можно привести исследование порчи молочных продуктов термоустойчивыми спорами термофильных бацилл и размножение молочнокислых бактерий в свежесрезанном салате, приводящее к подкислению и потере структуры. Изучение изменений микробиоты в ферментированных продуктах в процессе производства может позволить улучшить процесс производства, улучшив вкус или ускорив созревание, например, путем добавления новых штаммов в соответствующее время или изменения условий окружающей среды для благоприятного развития определенной микрофлоры. Подходы к метабаркодированию для определения характеристик микробных популяций в настоящее время коммерчески доступны через ряд компаний.
4.1.2. Метагеномное профилирование микробиома
Метагеномика генерирует информацию о последовательности генетического материала в образце, позволяет идентифицировать отдельные штаммы и предсказывать функции, кодируемые микробными сообществами. Этот подход уже позволил измерить уровень разнообразия популяций in situ и определить семейства генов, характерные для той или иной среды обитания или обогащенные ими.
Метагеномика также изучается для обнаружения, идентификации и характеристики патогенов в пищевых продуктах и в пищевой цепи. Несмотря на низкие пределы обнаружения бактериальных патогенов в пищевых продуктах, это происходит после нескольких часов обогащения культуры в сочетании с высокой глубиной секвенирования для обеспечения охвата геномного разнообразия в образце. Однако метагеномика дает возможность исследовать разнообразие и динамическое обилие микроорганизмов в образце менее предвзято, чем метабаркодирование, и в настоящее время используется для совершенствования методов обогащения на основе культуры.
Метагеномика методом дробовика может дать ценное и быстрое представление о наличии генетических маркеров, определяющих вид, серотип, гены вирулентности и AMR и т. д., хотя в настоящее время эти маркеры обычно не могут быть отнесены к конкретным бактериальным геномам из-за сложности метагеномных данных. Будущие биоинформационные разработки в области метагеномики и метабаркодирования, вероятно, сделают это возможным и позволят исследовать филогению.
4.2. Метаомика для функциональной характеристики микробиома
Область экологической омики (или метаомики) значительно расширила наши знания о микробных сообществах, что привело к смене парадигмы, когда рассматривается полное микробное сообщество, а не отдельные виды. Важность экологических взаимодействий между микроорганизмами теперь признана и должна быть включена в глобальную структуру для дальнейшего развития моделей функционирования экосистем сообществ. Метагеномика сама по себе является мощным подходом для характеристики микробных сообществ, но она обладает еще большим потенциалом в сочетании с другими дополнительными «омическими» технологиями, такими как измерение экспрессии мРНК (метатранскриптомика), обнаружение и классификация белков (протеомика) и концентрация метаболитов (метаболомика).
Термин «фудомика» был введен для обозначения применения омических технологий в переработке, питании и безопасности пищевых продуктов. В частности, сочетание метагеномики и метапротеомики имеет большой потенциал для исследования производства продуктов питания, оценки их безопасности, подлинности и качества. С помощью методов протеомики на основе масс-спектрометрии можно оценить количество белков и распределение метаболических функций в природных микробных сообществах. Несомненно, внедрение омических технологий в пищевую микробиологию окажет большое влияние на пищевую промышленность. Примечательно, что новые технологии сопровождаются достижениями вычислительной биологии, позволяющими описывать геномы окружающей среды и их экспрессию in situ.
4.3. Компьютерные программы для характеристики микробиома
Большинство биоинформатических программ штрихового кодирования начинается с очистки и качественной фильтрации ампликонов гена 16S рРНК или других консервативных целевых ампликонов перед их кластеризацией в операционные таксономические единицы (OTU), как правило, при 97% сходстве. Такие конвейеры, как mothur и QIIME 2 (http://qiime.org/) выполняют весь анализ от исходных последовательностей до матриц обилия OTU. Выделение OTU полезно для обнаружения отдельных линий, оценки разнообразия и структуры микробного сообщества. Тем не менее, этот подход далек от совершенства и страдает от того, что отсечение идентичности одной последовательности не подходит для разграничения истинных таксономических линий, таких как видовой или родовой уровни, поскольку он переоценивает эволюционное сходство, недооценивает количество замен по сравнению с множественным выравниванием и не учитывает изменчивость гена 16S рРНК или других консервативных целей в рамках дерева или сети жизни.
Привлекательной альтернативой выделению OTU являются подходы олиготипирования. Они используют преимущества постоянно растущего качества чтений, не полагаются на алгоритм кластеризации или пороговые значения идентичности последовательностей для идентификации OTU и позволяют анализировать разнообразие близкородственных, но разных бактериальных организмов, обычно объединяемых в OTU. В настоящее время доступны две реализации олиготипирования: контролируемое «олиготипирование» и неконтролируемое «MED».
Другой многообещающий подход направлен на исправление ошибок секвенирования, что позволяет разрешить мелкомасштабную вариацию чтений 16S рРНК. Пакет DADA2 расширяет алгоритм Divisive Amplicon Denoising Algorithm (DADA), основанный на модели подход для исправления ошибок ампликонов без построения OTU, который, как оказалось, превосходит современные алгоритмы, включая QIIME, mothur и MED. Анализ совпадений и корреляций, примененный к данным метабаркодирования и метагеномики все чаще используются для прогнозирования взаимодействия видов и анализа структуры микробных сообществ. В настоящее время существует множество инструментов для реконструкции экологических сетей, а сетевой анализ позволяет выявить неожиданные виды-ключи, участвующие в ключевых функциях экосистем на глобальном уровне.
Эти инструменты очень полезны для прогнозирования микробных взаимодействий и определения структуры микробных экосистем, но их прогнозы очень сложно проверить из-за отсутствия известных и подтвержденных взаимодействий видов в окружающей среде. Кроме того, прогнозы этих инструментов сильно различаются по чувствительности и точности. Для геномного/метатранскриптомного биоинформатического анализа доступны различные конвейеры для предварительной обработки, сборки, кластеризации и анализа, такие как MOCAT2, MetAMOS и IMP в качестве самостоятельных фреймворков и MG-RAST и Anvi'o как веб-платформы. Для функциональных аннотаций данных метаомики наиболее часто используемыми базами данных остаются KEGG, COG и Pfam для функциональных классификаций. Наконец, не менее важными являются биоинформационные платформы, реализующие полноценные рабочие процессы, такие как Galaxy и EDGE позволяют разрабатывать и внедрять специализированные конвейеры, отвечающие потребностям биологов. Для использования этих инструментов и интерпретации полученных результатов потребуются глубокие биоинформатические знания, хотя возможности настройки и наличие коммерческих решений призваны упростить эти шаги и сделать их более доступными для микробиологов.
4.4. Применение метагеномики в области безопасности пищевых продуктов
Отсутствие хорошо собранной и высококачественной стандартной базы данных геномных последовательностей патогенных, пробиотических и функциональных микробов является значительным препятствием для внедрения метагеномных методов в управление безопасностью пищевых продуктов. Такие группы, как Консорциум по секвенированию цепи поставок продуктов питания (CSFSC), основанный IBM и Mars Incorporated, прилагают усилия для сбора геномной информации о патогенных бактериях в цепи поставок продуктов питания, а также для определения характеристик и количественной оценки микробиома до и после обработки, чтобы использовать геномные и метагеномные данные для обеспечения безопасности, подлинности и прослеживаемости продуктов питания.
Информация о последовательностях ДНК и РНК, собранная CSFSC из образцов продуктов питания, используется для описания микробного фона, представляющего нормальные сообщества микробов, который может быть использован для отслеживания источника контаминации и для аутентификации продуктов питания. Используя данные исследований CSFSC, IBM разрабатывает масштабируемый биоинформационный веб-инструментарий Metagenomics Computation and Analytics Workbench (MCAW), предназначенный для анализа метагеномных и метатранскриптомных данных о последовательностях для оценки микробиологических опасностей и аутентификации продуктов питания в цепочке поставок. Он также предоставляет сервис для хранения и управления необработанными геномными последовательностями и результатами анализа.
Проделанная на сегодняшний день работа в рамках CSFSC и связанный с ним биоинформатический инструмент MCAW представляют собой модель высококачественного сбора геномных и метагеномных баз данных, а также биоинформационный рабочий инструмент, который в конечном итоге может применить NGS для обеспечения безопасности пищевых продуктов. Аналогичные подходы применяются и более мелкими поставщиками услуг, которые стремятся использовать NGS для определения патогенов в пищевых ингредиентах и продуктах. Эти совместные исследования и усилия потенциально позволят по-новому взглянуть на оценку микробиологического риска и создать основу для стратегий по снижению риска, а также повлиять на современные нормы управления безопасностью пищевых продуктов.
4.5. Вопросы и проблемы
Оценка полного функционального репертуара микробной популяции остается сложной из-за неполного характера функциональной аннотации отдельных генов или белков в публичных базах данных. Например, недавний каталог эталонных генов мирового океана был аннотирован примерно на 50% с использованием базы данных ортологичных генов eggNOG и только примерно на 30% с использованием базы данных метаболических путей KEGG. В последние годы подробные функциональные категории, представленные в KEGG и SEED базы данных были использованы для аннотирования и сравнения геномов и метагеномов с помощью сервера автоматической аннотации KEGG (KAAS), Metagenomics Rapid Annotation using Subsystem Technology и системы Metagenome Analyzer.
Однако эти функциональные категории часто остаются широкими и не позволяют разграничить метаболические и физиологические особенности. Необходимы новые инструменты для характеристики потенциальных физиологических и метаболических путей, такие как система MAPLE, которая использует аннотации модулей KEGG, позволяет оценить функциональное обилие и указывает на вероятность работы модуля KEGG на основе результатов коэффициента завершения.
Как и в случае с традиционными микробиологическими методами, отбор проб является чрезвычайно важным первым шагом в сборе соответствующей микробиологической информации из среды переработки пищевых продуктов и конечной продукции. Разнообразие типов образцов отражается в вариациях плотности клеток, их жизнеспособности и наличии биопленок. К сожалению, большое разнообразие матриц в пищевом производстве не позволяет найти универсальное решение. Поэтому необходимо разрабатывать схемы отбора проб с учетом особенностей процесса и продукта. Неправильная интерпретация результатов, особенно в образцах, содержащих малое количество микробных клеток, может быть вызвана загрязнением, которое может происходить от реагентов, используемых для выделения ДНК.
ДНК из мертвых клеток также может дать ложное представление о микробной нагрузке в пищевом продукте или среде обработки. Для обогащения жизнеспособных клеток можно использовать предварительное культивирование. Однако при этом необходимо учитывать, что микроорганизмы требуют особых условий роста, таких как повышенная температура, наличие кислорода и/или специфических питательных факторов, а требования к росту для каждого микроорганизма не всегда известны. В случае метатранскриптомного анализа предварительное культивирование, конечно, нежелательно, так как это может повлиять на физиологическое состояние клеток. Кроме того, образцы необходимо как можно быстрее обработать для выделения РНК, хранить при -80 °C или фиксировать с помощью таких растворов, как RNALater. Это очень важно для получения точной картины микробной активности в образце.
Методы выделения нуклеиновых кислот, несомненно, влияют на характер, а также качество и количество ДНК/РНК, полученных из микроорганизмов, присутствующих в образце, и, следовательно, влияют на результаты эксперимента. Это важно учитывать при интерпретации данных и подчеркивает необходимость использования методов экстракции, оптимальных для данного исследования, или знать, какие погрешности может внести метод экстракции нуклеиновых кислот.
Матрица, из которой очищают ДНК или РНК для метагеномного/метатранскриптомного анализа, также требует особого внимания. В случае выделения ДНК продукт часто содержит нуклеиновые кислоты растительного или животного происхождения, которые также могут дать информацию о последовательностях, тем самым размывая соответствующую информацию о микробных последовательностях. Для решения этой проблемы существуют протоколы удаления немикробной ДНК. Содержимое матрицы также может помешать проведению молекулярного анализа, поскольку оно может ингибировать необходимые биохимические реакции. Потенциальный подход к устранению матричных компонентов заключается в извлечении микробов путем дифференциального центрифугирования и фильтрации из водных растворов. Биопленки иногда обладают высокой жесткостью, что затрудняет гомогенизацию этих сложных микробных сообществ. Варианты раскрытия таких сообществ включают ферментную обработку в сочетании с применением значительных усилий, таких как соникация и взбивание бусинок.
Проблема метагеномных подходов, позволяющих обнаруживать и характеризовать специфические штаммы и признаки в клинических образцах без использования культуры, становится актуальной в здравоохранении, поскольку клинические лаборатории все чаще отказываются от культивирования бактериальных патогенов в пользу их обнаружения непосредственно в образцах с помощью ПЦР или иммуноферментного анализа. Метабаркодирование после амплификации одного или нескольких консервативных генов может быть использовано для выявления различных видов в образце, но не сможет выявить патотипы в пределах вида, включающего комменсалы, например, E. coli, которые включают вероцитотоксин-продуцирующие (токсин Шига-продуцирующие, VTEC/STEC), энтероагрегационные (EAEC), энтеропатогенные (EPEC), энтероинвазивные (EIEC) патотипы и Shigella, а также менее вирулентные варианты патогенных видов, например, не-O1, не-O139 серотипы Vibrio cholerae.
Эту проблему можно было бы решить, нацелившись на гены, кодирующие факторы вирулентности, связанные с этими патотипами или серотипами, но если это возможно в случае генов, кодирующих серотип, то в случае генов, связанных с вирулентностью, которые обычно присутствуют на мобильных генетических элементах, например, плазмидах и фагах, это часто невозможно, поскольку невозможно определить, к какой из нескольких бактерий в образце они принадлежат. Это активно исследуемая в настоящее время область.
Традиционное метабаркодирование обычно не обеспечивает достаточного разрешения для дифференциации различных изолятов или образцов. Это необходимо для отслеживания источника, аналогичного WGS культивированных изолятов. Одним из решений этой проблемы является использование аналогичного и потенциально совместимого с wgMLST подхода для анализа последовательностей культивируемых изолятов. Как можно больше локусов (до нескольких тысяч) выбирается из схем wgMLST для амплификации и секвенирования непосредственно из образца. В настоящее время этот подход тестируется для обнаружения и субтипирования Salmonella с целью разработки независимой от культивирования системы обнаружения и субтипирования, которая приблизится к разрешению схемы wgMLST.
Метагеномное дробное секвенирование также используется для одновременного обнаружения и субтипирования патогенов без культивирования. Это дало результаты в ретроспективных исследованиях образцов из вспышек, где возбудитель уже был идентифицирован с помощью культуры. Однако без предварительного знания патогена необходимо решить ряд вопросов, таких как вышеупомянутое связывание генов на мобильных генетических элементах со штаммами, к которым они принадлежат. Последние разработки в области секвенирования одиночных клеток выглядят многообещающими в решении этой проблемы как для метабаркодирования, так и для метагеномики.
Помимо обсуждаемых здесь проблем, необходимы значительные улучшения в технологиях секвенирования и биоинформатике, прежде чем метабаркодинг или дробовая метагеномика смогут экономически эффективно применяться для диагностики и субтипирования патогенов пищевого происхождения в интересах общественного здравоохранения и безопасности пищевых продуктов. Однако стремительный прогресс в области NGS, вероятно, предвещает гибель культивирования бактерий как одного из основных методов в пищевой микробиологии.
4.6. Валидация и сравнительный анализ
Как и в случае с любой новой технологией, находящейся в стадии быстрого развития, сквозная валидация и стандартизация NGS представляет собой сложную задачу. Однако необходимость в валидации, сравнительном анализе и стандартизации крайне важна для определения рекомендаций и лучших практик для применения в области безопасности и управления качеством пищевых продуктов.
Несмотря на наличие различных лабораторных протоколов и множества специализированных инструментов для анализа данных ампликонов и метагеномного секвенирования, их валидация часто ограничена из-за сложного характера образцов окружающей среды или пищевых продуктов. Разнообразие протоколов и программных решений для NGS продолжает расширяться, что делает валидацию и стандартизацию сложной задачей для конкретных приложений. Тем не менее, было проведено несколько сравнительных исследований для проверки эффективности и бенчмаркинга различных методов и инструментов на различных этапах метаомического исследования, а именно на этапе пробоподготовки, выделение ДНК/РНК, подготовка библиотеки, используемой платформе секвенирования и применяемого биоинформатического подхода.
Тем не менее, стандартизация в этой области все еще находится в зачаточном состоянии, и сравнение и валидация этих протоколов и инструментов необходимы для получения значимой информации и эффективного внутри- и межлабораторного обмена информацией. Что касается биоинформатического анализа, то существуют современные системы, включающие такие важные этапы, как удаление адаптеров, удаление матричных последовательностей генома (мясо, овощи, фрукты и т. д.), фильтрация низкокачественных чтений, сборка контигов и, наконец, поиск по регулярно обновляемым базам данных.
Singer et al. сообщили об использовании определенного имитационного сообщества с полными эталонными геномами для сравнительного анализа и валидации метагеномного секвенирования, а недавно был создан публичный ресурс для биоинформационного сравнительного анализа микробиома. Важность валидации и сравнительного анализа часто упускается из виду, однако они необходимы для правильной интерпретации данных в контексте безопасности пищевых продуктов (например, для идентификации патогенов).
Текущий этап валидации и стандартизации в отношении обнаружения штаммов, а также отнесения маркеров вирулентности и резистентности к конкретным видам или штаммам более продвинут в WGS по сравнению с метагеномикой. Это можно легко объяснить различиями, присущими обоим подходам: WGS позволяет легко получить доступ к геномам по одному, с низкой пропускной способностью, в то время как метагеномика приспособлена для оценки фрагментированных геномов сложных образцов с высокой пропускной способностью. Тем не менее, новые биоинформатические подходы позволяют идентифицировать конспецифические (т.е. принадлежащие к одному виду) штаммы по данным метагеномных последовательностей, хотя эти подходы часто опираются на полную информацию о геноме, доступную в публичных базах данных.
5. Вопросы и проблемы, связанные с обменом данными
Пищевая промышленность является поистине глобальной, она производит и продает товары по всему миру. Переработанные товары и сырье перевозятся между континентами и подвергаются различным исследованиям как в странах-экспортерах, так и в странах-импортерах. Это приводит к тому, что данные генерируются на нескольких этапах и в разных странах разными организациями и компаниями. В связи с этим все чаще применяется NGS, о чем подробно рассказывается в предыдущих разделах. Широко признано, что максимальная польза от NGS будет полностью реализована при глобальном обмене данными о последовательностях вместе с согласованным минимальным набором описательных метаданных.
Промышленность выиграет, если ее изоляты будут включены в научные анализы, что в конечном итоге приведет к более глубокому пониманию глобального микробного разнообразия, экологии и распределения организмов. Здравоохранение выиграет не только от более эффективного обнаружения и ликвидации вспышек, но и от того, что промышленные предприятия будут заблаговременно принимать более эффективные меры профилактики и контроля на основе данных NGS.
В настоящее время промышленность обеспокоена отсутствием гарантий защиты компаний от действий регулирующих органов, а также защиты репутации и бренда компании, что вынуждает компании ограничивать обмен данными до установленного законом минимума, даже несмотря на очевидные преимущества обмена данными. Таким образом, чтобы стимулировать обмен данными, необходимо снизить риски, увеличить выгоды и продемонстрировать ценность. Некоторые из ключевых аспектов, которые необходимо рассмотреть для стимулирования обмена данными, описаны в следующих разделах.
5.1. Правильная интерпретация данных
Данные WGS, которые могут быть неправильно интерпретированы плохо подготовленным персоналом, могут представлять серьезную опасность для пищевой промышленности, особенно в эпоху социальных сетей. Для того чтобы промышленность могла использовать модель открытых данных, необходимо разработать механизмы предотвращения и устранения этих проблем. На это недавно обратил внимание Технический университет Дании, где предварительный анализ показал наличие обезьяньей ДНК в бургерах. После дальнейшего анализа выяснилось, что это ДНК крупного рогатого скота. Ограничения базы данных и короткие чтения, использованные для сравнения данных, были названы причинами ошибочной интерпретации результатов анализа последовательностей, что подчеркивает критическую важность специальных знаний для анализа и интерпретации данных WGS. Кроме того, особенно в области микробной метагеномики, стандарты интерпретации данных отсутствуют или не согласованы, что может привести к противоречивому представлению одних и тех же результатов. Это относится не только к различным подходам и методам анализа данных, но и к случаям, когда используется один и тот же подход, но выводы расходятся.
5.2. Юридическая чистота/должная осмотрительность
В большинстве исследований по отслеживанию источников WGS в анализ включаются данные о последовательностях близкородственных штаммов, чтобы точно определить родство изучаемых изолятов. Обычно это достигается путем запроса интересующих последовательностей в публичной базе данных последовательностей, включающей штаммы, выделенные из множества источников. Это потенциально может привести к кластеризации анализируемого пищевого/экологического изолята с клиническим изолятом. Ситуация усложняется, когда обнаруживается связь между пациентом из прошлого и недавно полученным изолятом из собственной лаборатории, и наоборот, в отношении последующих шагов, которые должны быть предприняты предприятием пищевой промышленности с точки зрения должной осмотрительности.
В США все патогены пищевого происхождения, полученные в ходе эпиднадзора и инспекции, секвенируются и их последовательности загружаются в открытый доступ, где они хранятся в течение всего срока существования базы данных. Совпадения с любыми изолятами, имеющими недавнего общего предка, могут стать причиной дальнейших расследований со стороны федерального правительства. В большинстве случаев без дополнительной информации, касающейся воздействия на продукты питания или нарушений гигиенических норм на этапах от фермы до столовой, регуляторные меры не принимаются. Реакция регулирующих органов зависит от того, что будет обнаружено в ходе проверки и как отрасль отреагирует на проверку и регулирование в соответствии с существующей практикой.
WGS - это лишь новейший инструмент для субтипирования, но по сути принятие решений и действия регулирующих органов остаются неизменными. WGS помогает регулирующим органам раньше распознавать потенциальные проблемы благодаря высокой точности технологии, что позволяет быстрее реагировать на них для повышения безопасности пищевых продуктов и улучшения здоровья населения. Регулирующие органы интересуются тем, когда компания узнала о проблеме контаминации и что было сделано для ее устранения и предотвращения повторения. Однако внедрение технологий NGS в промышленности также позволит промышленным предприятиям более тщательно исследовать потенциальные проблемы гигиены или контаминации в своих помещениях, что облегчит анализ первопричин и даст им возможность более активно бороться с такими проблемами контаминации. Регулярное использование WGS означает, что пищевые компании будут гораздо лучше осведомлены о том, что происходит в их производственных условиях и смогут более активно предотвращать заболевания пищевого происхождения, а не просто реагировать на них.
5.3. Право собственности на данные
Существуют опасения, что использование общедоступных данных WGS может привести к возникновению торговых барьеров и даже к местным судебным разбирательствам из-за того, что страны работают в разных правовых системах. Поэтому существует сильное желание создать и согласовать глобальную, гармонизированную правовую базу для содействия открытому обмену данными. Потенциальными решениями некоторых проблем могут стать согласованные отсрочки в обмене данными или даже «льготный период» без юридических последствий, чтобы способствовать активному обмену данными. Для достижения цели открытого обмена данными WGS необходимы значительные усилия по сотрудничеству и координации в этой области. Для промышленности важно разработать механизмы как обмена, так и защиты конфиденциальной информации, чтобы она могла более комфортно вносить свой вклад в базы данных WGS.
6. Перспективы повышения безопасности пищевых продуктов
6.1. Полногеномное секвенирование
Одним из ключевых применений WGS в пищевой промышленности будет понимание первопричины контаминации, чтобы оперативно устранить ее. Для того чтобы процесс WGS стал широко использоваться в повседневной жизни, необходимо чтобы весь процесс WGS был удобным, быстрым и доступным. Этому будет способствовать дальнейшее развитие простых в использовании биоинформатических конвейеров и гармонизация методов анализа. Для реализации экономической выгоды WGS необходимо использовать не как дополнение к существующим методам микробиологической характеристики, а как замену существующих методов идентификации и типирования.
Промышленность значительно выиграет, если на основе анализа генома можно будет предсказывать фенотипические характеристики, такие как профили роста и инактивации. Однако, поскольку фенотипические реакции часто контролируются также на транскрипционном и посттранскрипционном уровне, мультиомические подходы будут играть ключевую роль в определении характеристик патогенов в будущем. Кроме того, данные, полученные с помощью WGS и метагеномики, вероятно, будут интегрированы с прогностической микробиологией для усиления контроля безопасности и качества пищевых продуктов по всей пищевой цепочке. В будущем геномные базы данных могут быть связаны с веб-сайтами, посвященными прогностической микробиологии, такими как ComBase (http://www.combase.cc/index.ph...).
Максимальная польза для безопасности пищевых продуктов от WGS зависит от обмена данными, и предполагается, что промышленность разработает механизм обмена и защиты конфиденциальной информации, чтобы можно было более комфортно вносить вклад в базы данных WGS. Также необходимо дальнейшее развитие простых в использовании биоинформационных конвейеров и гармонизация методов.
6.2. Метагеномный анализ
Метагеномные инструменты могут улучшить понимание микробной экологии линий по переработке пищевых продуктов. Внутри микробного сообщества взаимодействие между патогенами и соответствующим микробиомом может указывать на существование конкретного вида патогена или влиять на его колонизацию. Изменения факторов окружающей среды, таких как pH, концентрация соли и других факторов, вызванных обработкой и транспортировкой, могут привести к соответствующим изменениям в микробном сообществе. Производители продуктов питания смогут подтвердить или улучшить текущее управление рисками, связанными с микроорганизмами, используя метагеномный подход для мониторинга встречаемости и обилия микроорганизмов и генов в микробном сообществе на линиях переработки пищевых продуктов.
Для управления риском микробной порчи важно отслеживать изменения в микробном сообществе в процессе хранения, чтобы планировать соответствующие условия обработки, переработки и хранения пищевых продуктов. Метагеномные инструменты могут помочь в прогнозировании микробной порчи путем изучения изменений в разнообразии или доле микробов, ассоциированных с порчей, в микробиоте пищевых продуктов, а также отслеживая поведение заквасочных/спойлер-ассоциированных популяций в культивируемых продуктах питания. Эти инструменты позволили исследователям лучше понять дефекты неизвестного происхождения и разработать стратегии устранения таких дефектов, например, дефектов мяса и морепродуктов, колбасного фарша, вина и сыров.
Информация, полученная в ходе этих исследований, была использована для выбора стартовых культур, используемых для производства ферментированных продуктов с более стабильным качеством, для определения биомаркеров созревания и качества, а также для оптимизации условий окружающей среды при производстве сыров, стимулируя формирование микробных сообществ для получения продуктов питания с желаемыми свойствами. Применение метагеномных исследований показало, что различия в почвенной микробиоте влияют на вкусовые качества вин, произведенных в разных географических регионах.
Метагеномные и метатранскриптомные методы также имеют большой потенциал для того, чтобы стать ценными вариантами определения подлинности и целостности пищевых продуктов путем точного описания микробного сообщества конкретного пищевого продукта. Традиционные методики ДНК-штрихкодирования, основанные на (ПЦР) и секвенировании по Сэнгеру, ограничены их низкой пропускной способностью и необходимостью высокой чистоты и концентрации ДНК в пищевых образцах. Эти ограничения устраняются с помощью высокопроизводительных NGS-технологий, включая метагеномные подходы, которые предоставляют больше информации о микробных сообществах и биологических ингредиентах пищевых продуктов, а также позволяют проводить независимое от культуры тестирование.
Программное обеспечение для прогнозирования метагенома также использовалось для понимания влияния модифицированной среды на метаболические пути, чтобы помочь в разработке систем консервации. Эти метагеномные подходы в сочетании с другими «омическими» технологиями, такими как протеомика и метаболомика, способны связать определенные виды в сообществе с функциональными характеристиками, такими как производство аромата или производство вредных метаболитов, таких как биогенные амины в рисовом вине. Существуют проблемы, связанные с использованием метагеномики в пищевой промышленности, включая обнаружение ДНК, происходящей из мертвых микроорганизмов, а также низкую чувствительность обнаружения по сравнению с методами, основанными на культуре, и относительно высокую стоимость, поэтому в этих областях ведутся дальнейшие разработки.
6.3. Влияние применения NGS на торговлю продуктами питания и пищевую промышленность
Применение NGS в управлении безопасностью пищевых продуктов, скорее всего, станет переломным моментом в мировой торговле продуктами питания. В то время как основные игроки продолжают продвигать технологии NGS для глобального управления безопасностью пищевых продуктов, существует также острая необходимость сократить технологический разрыв между менее развитыми странами-производителями пищевых продуктов для содействия глобальной торговле продовольствием. Развивающиеся страны испытывают серьезные опасения по поводу возможного дисбаланса торговых возможностей, поскольку они могут оказаться не в состоянии предоставить такой же объем данных на основе WGS, как и другие страны. Препятствия на пути использования WGS включают отсутствие инфраструктуры, например, базовых коммуникаций и/или доступа в Интернет, а также необходимость подготовки квалифицированных кадров как на уровне регулирующих органов, так и на уровне пищевой промышленности для выполнения и интерпретации данных WGS.
Важно, чтобы международные усилия по содействию переходу от старых технологий к NGS в глобальном масштабе продолжали предоставлять этим странам возможности в плане технологий и обучения, обмена знаниями, реструктуризации системы безопасности пищевых продуктов в странах, а также улучшения местной пищевой промышленности. Появление технологии NGS может стать поворотным моментом для преодоления разрыва между менее и более развитыми странами-производителями продуктов питания. Наконец, конечным результатом воздействия NGS станет снижение затрат на пищевую промышленность. Стоимость генерирования бактериальных геномных последовательностей продолжает быстро снижаться, и ожидается, что в ближайшие несколько лет стоимость применения технологии NGS значительно сократится по сравнению со стоимостью микробиологических культур. Такое снижение затрат является дополнительным преимуществом для пищевой промышленности, которое обеспечит эта новая технология.