fIDBAC: платформа для быстрой идентификации и типирования

Точность идентификации видов имеет решающее значение для успешной таксономии бактерий, обнаружения патогенов и отслеживания источников, а также важна для пищевой промышленности, фармацевтической промышленности, клинической диагностики и формирования микробных ресурсов.

Традиционно идентификация бактерий основывается на фенотипической идентификации, которая страдает от невозможности воспроизведения, трудоемкости и длительного времени. Молекулярные методы устраняют эти недостатки, и ген 16S рРНК стал популярным молекулярным инструментом в таксономии прокариот благодаря его универсальному распространению в геномах бактерий и архей и филогенетическим последствиям.

Несмотря на большое количество данных, ген 16S рРНК не всегда обладает достаточным разрешением для разграничения видов, особенно для близкородственных видов. Кроме того, гетерогенная мультикопия гена 16S рРНК в геноме затрудняет его применение. Ожидается, что чем больше информации о геноме будет использовано, тем точнее будет таксономия и идентификация. Когда полногеномная последовательность содержит полную генетическую информацию данного таксона, она может эффективно иллюстрировать границы видов. Благодаря преимуществам секвенирования следующего поколения, все больше бактериальных геномов становятся доступными в публичных базах данных, что недавно привело к эре геномов в идентификации бактерий. Однако инструменты идентификации, такие как SpeciesFinder, Reads2Type, TaxonomyFinder и rMLST, могут использовать для идентификации только те чтения или сиквенсы, которые соответствуют 16S сиквенсам или маркерным генам из данных секвенирования генома.

Средняя нуклеотидная идентичность (ANI), рассчитанная между двумя полными бактериальными геномами, была доказана с помощью ДНК-ДНК гибридизации и принята в качестве золотого стандарта разграничения видов бактерий.Тем не менее, расчет ANI страдает от вычислительных ресурсов и низкой скорости из-за большого объема выравнивания последовательностей, а парные сравнения не учитываются при тысячах геномов.

Еще одной проблемой для идентификации бактерий является качество геномной базы данных. Во-первых, геномные последовательности типового штамма должны быть включены в базу данных для классификации и идентификации. Тип таксона, особенно типовой штамм вида, который иллюстрирует полные фенотипические и генотипические характеристики оригинального описания вида, играет важную роль в филогенетическом анализе. Во-вторых, неправильно обозначенные геномные последовательности в базе данных представляют значительную угрозу для идентификации.

Ошибки могут возникать, когда пользователь представляет последовательность из изолята, идентифицированного традиционной процедурой; кроме того, существует возможность контаминации в субкультуре или в результате ошибки при передаче материала между различными коллекциями культур. В-третьих, комплектность и контаминация геномов привлекают большое внимание, поскольку они сильно искажают результаты идентификации. Например, контаминация геномных последовательностей может привести к необъективным результатам с высокими значениями ANI между двумя различными видами. Однако комплектность и контаминация чернового генома могут быть нелегко различимы из-за высокой вариабельности размеров генома и содержания генов у разных видов. Наконец, названия могут не соответствовать обновленной номенклатуре Международного кодекса номенклатуры прокариот (ICNP) (Parker et al., 2019).

В данном исследовании мы использовали многоступенчатую стратегию создания базы данных геномов типовых штаммов, удаляя ошибочно помеченные и некачественные сборки геномов и разработали комбинированную стратегию для точной и быстрой идентификации бактерий. На основе этого мы разработали платформу быстрой идентификации бактериальных геномов (fIDBAC), которая объединяет идентификацию видов, автоматическое типирование штаммов и последующий анализ последовательностей бактериальных геномов в единый рабочий процесс. fIDBAC находится в свободном доступе на сайте http://fbac.dmicrobe.cn/.

Цель fIDBAC - обеспечить единый, последовательный и автоматизированный рабочий процесс для идентификации видов, типирования штаммов и последующего анализа, такого как предсказание генов лекарственной резистентности, аннотации генов вирулентности и филогенетического анализа.