Инструмент искусственного интеллекта scGPT позволяет определять типы клеток, предсказывать последствия нарушения работы генов и точно определять, какие гены взаимодействуют друг с другом.
Ученые исследуют мишени для борьбы с заболеваниями, изучая данные об экспрессии генов, часто получаемые при анализе всех клеточных популяций. Так, например, с помощью секвенирования больших объемов РНК были обнаружены белки-мишени, ассоциированные с раковыми заболеваниями, а также потенциальные биомаркеры крови для ранней диагностики болезни Альцгеймера. Совсем недавно ученые обратились к секвенированию РНК одной клетки (scRNA-seq), которое позволяет понять, как изменяется экспрессия генов в отдельных клетках. Для анализа данных scRNA-seq ученые обычно используют инструменты машинного обучения, созданные с нуля для решения конкретных задач.
Бо Ванг, специалист по вычислительной биологии, и его группа специалистов по информатике и клеточной биологии из Университета Торонто создали новую модель искусственного интеллекта (ИИ) под названием single cell generative prerained transformer, или scGPT, которая может быть настроена для решения различных задач на основе данных scRNA-seq. К ним относятся прогнозирование эффектов манипуляций с конкретными генами и объединение разных партий данных для выявления не обнаруживаемых в других случаях типов клеток. scGPT является одним из основополагающих инструментов ИИ, поскольку базовая модель может быть построена и доработана до различных версий, выполняющих целый ряд последующих задач. Набирающий популярность ИИ, известный как ChatGPT, работает примерно так же: в то время как чат-бот генерирует следующие слова в предложении, scGPT предсказывает уровни экспрессии генов в клетке.
По мнению Ванга, использование одной базовой модели для решения многих последующих задач выгодно, поскольку применение различных вычислительных моделей для решения разных задач может привести к рассогласованию при сравнении данных, полученных в результате разных методов анализа. Каждый вычислительный подход может делать различные предположения о структуре одних и тех же данных в зависимости от того, как они были построены, и это может привести к менее точным выводам.
В своей недавней работе, опубликованной в препринте, сотрудники Ванга показали, что scGPT анализирует данные scRNA-seq лучше, чем стандартные подходы. Сначала они обучали scGPT в течение четырех дней, загружая в модель данные scRNA-seq из более чем 10,3 млн. клеток крови и костного мозга, включая более 50 типов клеток. Это позволило модели изучить фундаментальные связи между экспрессией генов внутри и между клетками. Поскольку не все гены экспрессируются в данной клетке, а некоторые гены экспрессируются на уровнях, не поддающихся обнаружению с помощью современных технологий секвенирования, каждая клетка предоставляет информацию о нескольких тысячах из 20 000 генов генома человека. В целом модель распознала почти все гены генома.
Одной из задач, для решения которой команда доработала базовую модель, было объединение 10 различных серий данных scRNA-seq, полученных ранее на иммунных клетках человека. Используя часть данных из каждой партии, они научили модель классифицировать одинаковые типы клеток во всех массивах данных в общие кластеры. scGPT также научилась корректировать различия между партиями, вызванные небиологическими факторами, такими как день проведения эксперимента или способ сбора клеток. Подобное объединение массивов данных, называемое интеграцией партий, увеличивает объем данных по каждому типу клеток, что позволяет ученым лучше обнаруживать и характеризовать редкие типы клеток, которые могут играть роль в здоровье или болезни.
Затем исследователи проверили, насколько хорошо работает доработанная версия scGPT и три наиболее популярных метода, используемых для решения этой задачи, при анализе оставшихся ранее непросмотренных данных. scGPT классифицировала типы клеток из разных партий на 5% эффективнее, чем стандартные модели, и корректировала небиологические эффекты так же хорошо, как и широко используемые методы. Команда также проверила, насколько успешно усовершенствованная версия scGPT и стандартная модель GEARS предсказывают влияние изменения более чем 80 генов - по отдельности или парами - на активность других генов. Сфокусировав внимание на экспрессии 20 генов, на которые в наибольшей степени повлияла каждая генетическая манипуляция, Ванг и его коллеги обнаружили, что scGPT оказалась на высоте.
"Действительно ли эти усовершенствования приводят к получению дополнительных биологических знаний? Полезны ли они для генерации новых гипотез?" - задается вопросом Ахмед Махфуз, генетик из Медицинского центра Лейденского университета в Нидерландах, не принимавший участия в исследовании. Несмотря на многообещающие результаты, Махфуз предупреждает, что эти модели имеют миллионы параметров и требуют большого количества данных для обучения. В результате они потребляют много энергии и создают большой углеродный след. Учитывая высокую потребность в энергии при обучении, а также то, что исследователи должны быть знакомы с машинным обучением, чтобы контролировать процесс настройки, пока неясно, насколько широко scGPT может использоваться среди биологов-клеточников.
Тем не менее, "тонкая настройка чрезвычайно эффективна", - считает Ванг.
"Для обработки массива данных, состоящего, скажем, из 10 000 или 20 000 клеток, вам потребуется всего пять-десять минут".
Команда надеется, что это позволит сделать scGPT широко доступной. "Мы сделали код и модель доступными для всех желающих и прилагаем большие усилия для создания образовательных сайтов, предоставляющих множество обучающих материалов с конкретными примерами для каждой задачи, которую она может решить", - сказал он. Коллектив Ванга планирует продолжить работу над scGPT. Хотя первоначальная версия модели пригодна для анализа клеток костного мозга и иммунных клеток, недавно команда выпустила обновленную версию scGPT, которая была обучена на 33 млн. клеток, включая клетки мозга, крови, поджелудочной железы, легких, сердца, почек, рака и кишечника.
Недавно были выпущены и другие фундаментальные модели, аналогичные scGPT, так что вопрос о том, какие из них получат распространение в исследованиях, является лишь вопросом времени. Махфуз считает, что модели, подобные scGPT, скорее всего, дадут ответы на важные биологические вопросы в ближайшем будущем, хотя это может быть доказано только со временем. "Это захватывающее время. К концу года, я думаю, вы будете иметь совсем другую картину, чем та, которую мы видим сейчас", - отметил он.