Исследователи расходятся во мнениях относительно количества генов в геноме человека, отчасти потому, что определить, что именно представляет собой тот или иной ген, бывает непросто.
Чтобы определить, сколько генов содержится в геноме человека, ученым сначала нужно было собрать полную геномную последовательность. Проект "Геном человека", длившийся с 1990 по 2003 год, представлял собой финансируемую из государственных источников инициативу международного консорциума исследователей, направленную на всестороннее изучение ДНК и создание первой последовательности генома человека. В 2001 году команда проекта "Геном человека" и ученые из частной компании Celera Genomics опубликовали почти полный черновой вариант последовательностей, а затем в 2004 году опубликовали полный геном человека и подсчитали, что геном человека содержит от 20 000 до 25 000 генов. Это число было гораздо меньше, чем предыдущие оценки, предполагавшие наличие 50 000-100 000 генов. Сейчас ученые считают, что число генов, кодирующих белки, составляет около 20 000, но это число все еще меняется, поскольку определение гена может быть различным.
В зависимости от определения, геном можно считать участок ДНК, который служит инструкцией для производства белка, но с другой стороны, участки ДНК, которые не кодируют белки, также могут считаться генами, если они производят некодирующую РНК с биологическими функциями. Определяя количество генов в геноме человека, исследователи проекта "Геном человека" сначала посчитали белок-кодирующие гены - участки хромосомной ДНК, которые транскрибируются в РНК и транслируются в белки. "В дополнение к 20 000 генов, кодирующих белки, у нас есть еще 15 000 или 20 000 некодирующих генов", - поясняет Стивен Зальцберг, биолог из Университета Джонса Хопкинса. Гены некодирующих РНК (ncRNA) транскрибируются, но не транслируются.
Другое определение гена может уменьшить количество некодирующих РНК, включенных в число генов человека; геном может считаться любой участок генома, который производит функциональную РНК или транскрибируется и транслируется в белок. По словам Зальцберга, ученым известны функции менее 5% из тысяч известных некодирующих РНК. "[Некоторые] могут быть просто помехами", - говорит Зальцберг. "Мы должны отказаться от предположения, что транскрипция чего-то означает, что это функциональный ген".
Существует множество типов некодирующих РНК, включая следующие:
- Трансферная РНК (tRNA)
- Рибосомальная РНК (rRNA)
- МикроРНК (miRNA)
- Малая интерферирующая РНК (siRNA)
- PIWI-взаимодействующая РНК (piRNA)
- Малая нуклеолярная РНК (snoRNA)
- Малая ядерная РНК (snRNA)
- Длинные некодирующие РНК (lncRNA)
- Энхансерная РНК (eRNA)
Альтернативный сплайсинг затрагивает большинство генов человека, что приводит к появлению потенциально многочисленных изоформ, которые могут иметь или не иметь значимых биологических функций, что еще больше усложняет оценку генов. "Теоретически мы можем создать гораздо больше белков из наших 20 000 генов", - отмечает Зальцберг. "Количество различных белковых последовательностей, которые мы имеем, колеблется от 80 000 до 120 000, и мы все еще изучаем, сколько из них действительно функциональны".
Чтобы изучить списки известных генов, исследователи обычно обращаются к двум генным базам данных: RefSeq, которую ведет Национальный центр биотехнологической информации США (NCBI), и Ensembl/Gencode, которую ведет Европейская лаборатория молекулярной биологии (EMBL). Кроме того, ученые создают альтернативы двум основным спискам, например CHESS, каталог генов человека, разработанный Зальцбергом и его коллегами из Университета Джонса Хопкинса, который после своего выхода добавил несколько новых генов и более 100 000 новых изоформ генов к существующим базам данных. Эти коллекции генов постоянно обновляются по мере поступления новых данных, и они не совпадают по количеству белок-кодирующих генов, генов некодирующей РНК, других РНК и псевдогенов.
После завершения проекта "Геном человека" наличие в распоряжении исследователей последовательностей позволяет идентифицировать гены и другие геномные элементы. Однако в "полной" последовательности были сотни пробелов, в основном состоящих из повторяющихся участков ДНК, которые было сложно секвенировать. Со временем и с развитием технологий секвенирования ученые из консорциума Telomere-to-Telomere расшифровали последние 8% генома человека, секвенировав повторяющиеся гетерохроматические области, участки вблизи центромер и теломер, а также оставшиеся эухроматические области, кодирующие гены. Они опубликовали первую полную последовательность генома женщины в 2022 году, а затем Y-хромосомы в 2023 году и идентифицировали новые гены в каждой совокупности данных.
Хотя ученые до сих пор не знают точного количества генов в геноме человека, Зальцберг с оптимизмом смотрит на то, что новые технологии помогут уточнить каталог генов. Это особенно важно для медицинских целей.
"Я работал с детскими генетиками, которые пытаются выяснить, почему у детей возникают те или иные генетические заболевания. Если ген не аннотирован, он неизвестен. И они не будут его рассматривать", - говорит Зальцберг.
"Мы хотели бы заверить их в том, что теперь все гены известны".