Как искусственный интеллект меняет диагностику

Авторы/авторы:
Как искусственный интеллект меняет диагностику
Иллюстрация: clpmag.com
30 мая 2025
59
0

Некоторые исследователи утверждают, что модели глубокого обучения произведут революцию в гистопатологии, но другие в этом не так уверены.

   Если вам когда-либо делали биопсию, то вас — или, по крайней мере, ваши удаленные ткани — изучал патолог (в контексте данной статьи имеется ввиду гистопатолог - прим.ред.). «Гистопатология — это краеугольный камень диагностики, особенно когда речь идет о раке», — говорит Бо Ван, компьютерный ученый из Университета Торонто в Канаде. Но патологи все чаще испытывают чрезмерную нагрузку. Во всем мире спрос превышает предложение и многие страны сталкиваются с нехваткой специалистов. В то же время работа патологов стала более сложной. Теперь она включает не только все больше традиционных задач, таких как разрезание и окрашивание тканей, а затем их просмотр под микроскопом, но и тесты, требующие дополнительных методик и знаний, таких как исследования генов и других молекулярных маркеров. Для Вана и других специалистов одним из решений этой растущей проблемы может стать искусственный интеллект (ИИ).

   Инструменты ИИ могут помочь патологам несколькими способами: например, выделять подозрительные участки в ткани, стандартизировать диагнозы и выявлять закономерности, невидимые для человеческого глаза. "Они обладают потенциалом для повышения точности диагностики, воспроизводимости, а также эффективности", — говорит Ван, — "и в то же время открывают новые направления исследований для анализа крупномасштабных патологических и молекулярных данных".

   За последние несколько десятилетий слайды все чаще оцифровывались, что позволило патологам изучать образцы не под микроскопом, а на экране - хотя многие по-прежнему предпочитают микроскоп. Полученные изображения, которые могут охватывать целые слайды, оказались бесценными для компьютерных ученых и инженеров-биомедиков, которые использовали их для разработки ассистентов на основе ИИ. Более того, успех таких чат-ботов с искусственным интеллектом, как ChatGPT и DeepSeek, вдохновил исследователей на применение аналогичных методов в патологии. «Это очень динамичная область исследований, в которой каждый день появляется множество новых работ», - говорит Ванг. «Это очень интересно».

   Ученые разработали модели ИИ для выполнения таких задач, как классификация заболеваний, прогнозирование результатов лечения и выявление биологических маркеров болезни. Некоторые из них даже создали чат-ботов, которые могут помочь врачам и исследователям расшифровать данные, скрытые в окрашенных срезах тканей. По мнению Фейсала Махмуда, компьютерного ученого из Гарвардской медицинской школы (США), такие модели «могут по сути имитировать весь процесс диагностики патологии» - от анализа слайдов и заказа тестов до составления отчетов. «Все это возможно с сегодняшними технологиями», - говорит он. Но некоторые исследователи настроены настороженно. Они утверждают, что модели ИИ еще недостаточно проверены, а непрозрачный характер некоторых моделей создает проблемы для их применения в клинике. «В конце концов, когда эти методы попадут в клинику, к постели больного, они должны обеспечить надежные, точные и достоверные результаты», - говорит Хамид Тижуш, специалист по информатике из клиники Майо (США). «Мы все еще ждем этого».

   Самые первые инструменты ИИ для патологии были разработаны для выполнения четко определенных задач, таких как обнаружение рака в образцах биопсии тканей молочной железы. Но появление «базовых» моделей, которые могут адаптироваться к широкому спектру задач, для которых они не были специально обучены, обеспечило альтернативный подход. Одними из самых известных базовых моделей являются большие языковые модели, на которых работают такие инструменты генеративного ИИ, как ChatGPT. Однако ChatGPT был обучен на большей части текстов в Интернете, а у патологов нет столь же обширного ресурса, на котором можно было бы обучить свое программное обеспечение. Для Махмуда потенциальное решение этой проблемы появилось в 2023 году, когда разработчики выпустили DINOv2 - базовую модель, предназначенную для выполнения визуальных задач, таких как классификация изображений. По утверждению Махмуда, исследование, в котором описывалась модель DINOv2, позволило сделать важный вывод: разнообразие обучающего набора данных важнее, чем его размер.

   Применяя этот принцип, Махмуд и его коллеги в марте 2024 года запустили модель общего назначения для патологии, которую они называют UNI2. Они собрали массив данных, состоящий из более чем 100 миллионов изображений со 100 000 слайдов, представляющих как больные, так и здоровые органы и ткани. Затем исследователи использовали этот массив данных для обучения алгоритма самообучения - модели машинного обучения, которая сама обучает себя выявлять закономерности в больших массивах данных. Исследователи сообщили, что UNI превосходит существующие современные модели в области компьютерной патологии в десятках задач классификации, включая обнаружение метастазов рака и определение различных подтипов опухолей в молочной железе и мозге. Текущая версия UNI 2 имеет расширенный массив обучающих данных, включающий более 200 миллионов изображений и 350 тысяч слайдов.

   Вторая базовая модель, разработанная коллективом, использовала ту же философию в отношении разнообразных баз данных, но включала изображения из слайдов патологии и текст, полученный из PubMed и других медицинских баз данных. (Такие модели называются мультимодальными). Как и UNI, модель, названная CONCH (Contrastive Learning from Captions for Histopathology), могла выполнять задачи классификации, такие как классификация подтипов рака, лучше, чем другие модели, обнаружили исследователи. Например, она может различать подтипы рака, содержащие мутации в генах BRCA, с точностью более 90%, в то время как другие модели в большинстве случаев работают не лучше, чем ожидалось бы по случайности. Она также могла классифицировать и подписывать изображения, находя текст в ответ на запросы к изображениям и наоборот, чтобы создать графики, отражающие закономерности, наблюдаемые при определенных видах рака. Однако в этих задачах она была не так точна, как в классификации. При сравнительной оценке CONCH неизменно превосходил базовые подходы даже в тех случаях, когда для обучения модели было доступно очень мало данных.

   UNI и CONCH находятся в открытом доступе на платформе обмена моделями Hugging Face. Исследователи использовали их для решения различных задач, включая классификацию и субтипирование опухолей, называемых нейробластомами, прогнозирование результатов лечения и выявление биомаркеров экспрессии генов, связанных с конкретными заболеваниями. По утверждению Махмуда, модели, насчитывающие более 1,5 миллиона загрузок и сотни ссылок, «используются так, как я никогда не ожидал, что люди будут их использовать». «Я и не подозревал, что так много людей интересуются вычислительной гистопатологией».

   Другие группы разработали свои собственные базовые модели для патологии. Например, GigaPath4 от Microsoft обучена на более чем 170 000 слайдов, полученных из 28 онкологических центров США, для решения таких задач, как типирование рака. mSTAR (Multimodal Self-taught Pretraining), разработанная компьютерным ученым Хао Ченом из Гонконгского университета науки и технологий и его группой, объединяет профили экспрессии генов, изображения и текст. Также доступный на сайте Hugging Face, mSTAR был разработан для обнаружения метастазов, выделения подтипов раковых опухолей и выполнения других задач.

   Теперь сотрудники Махмуда и Чена создали «дублирующего пилота» на основе своих моделей. В июне 2024 года группа Махмуда выпустила PathChat - универсальный ИИ-помощник, который объединил UNI с большой языковой моделью. Затем полученная модель была доработана и содержит почти миллион вопросов и ответов, используя информацию, полученную из статей в PubMed, историй болезни и других источников. С ее помощью патологоанатомы могут вести «беседы» о загруженных изображениях и генерировать отчеты. Лицензированный биомедицинской фирмой Modella AI (США), чатбот получил сертификат передового устройства от Управления по санитарному надзору за качеством пищевых продуктов и медикаментов США в начале этого года. Аналогичным образом группа Чена разработала SmartPath, чатбота, который, по словам Чена, проходит испытания в больницах Китая. Патологи используют его при оценке рака груди, легких и толстой кишки.

   Помимо задач классификации, PathChat и SmartPath наделены агентскими возможностями - способностью планировать, принимать решения и действовать автономно. По словам Махмуда, это позволяет PathChat оптимизировать рабочий процесс патолога - например, выделять случаи, которые, скорее всего, будут репрезентативными для данного заболевания, заказывать дополнительные тесты для поддержки диагностического процесса и писать отчеты. По оценке Якоба Катера, онколога из Технического университета Дрездена (Германия), модели представляют собой «действительно революционное технологическое достижение» в патологии, хотя они еще не одобрены регулирующими органами. «Я думаю, пройдет еще два-три года, прежде чем эти инструменты станут широко доступными, клинически проверенными продуктами», - считает он.

   Не все убеждены, что фундаментальные модели приведут к революционным изменениям в медицине - по крайней мере, в ближайшей перспективе. Одним из ключевых вопросов является точность. В частности, ее количественная оценка, отмечает Анант Мадабхуши, инженер-биомедик из Университета Эмори (США). Из-за относительной нехватки данных большинство исследований в области патологии с применением ИИ используют метод перекрестной валидации, при котором один фрагмент массива данных отводится для обучения, а другой - для тестирования. Это может привести к таким проблемам, как чрезмерная подгонка, то есть алгоритм хорошо работает на данных, схожих с той информацией, с которой модель сталкивалась ранее, но плохо - на несопоставимых данных. «Проблема с перекрестной валидацией заключается в том, что она имеет тенденцию давать довольно оптимистичные результаты», - объясняет Мадабхуши. «Самый чистый и лучший способ проверки этих моделей - внешняя, независимая проверка, когда внешняя тестовая выборка отделена от обучающей и, в идеале, получена от другого учреждения».

   Кроме того, модели могут работать в полевых условиях не так хорошо, как предполагают их разработчики. В исследовании, опубликованном в феврале, Тижуш и его коллеги подвергли испытанию несколько моделей, включая UNI и GigaPath. Используя подход «нулевого отбора», при котором модель тестируется на базе данных, с которыми она еще не сталкивалась (в данном случае это данные из Атласа ракового генома, содержащего около 11 000 слайдов от более чем 9 000 человек), авторы обнаружили, что оцененные модели в среднем были менее точны в определении рака, чем при подбрасывании монетки, хотя некоторые модели показали лучшие результаты для определенных органов, например почек.

   По мнению Тижуша, расхождение между опубликованными результатами и тем, что наблюдала его группа, может быть связано с «тонкой настройкой». Исследователи обычно настраивают модели перед использованием, предоставляя множество примеров, связанных с конкретным вопросом, но сотрудники Тижуша использовали модели как есть. Тем не менее, по его словам, эти результаты говорят о том, что инструменты ИИ для патологий могут быть не такими революционными, как утверждают их разработчики. «Меня беспокоит, что они слишком много обещают и это вызовет новую волну разочарования в ИИ».

   Несколько групп начали работу по стандартизации процессов валидации и бенчмаркинга. Например, Тижуш вместе с коллегами из Мемориального онкологического центра Слоуна Кеттеринга в Нью-Йорке и Онкологического центра Техасского университета готовят задание, в котором участникам будет предоставлено 150 миллионов изображений для обучения их моделей. Затем они представят модели на независимое тестирование. «Мы надеемся, что в результате этого мероприятия, которое завершится к концу года, появится свод правил и рекомендаций», - комментирует Тижуш.

   Другая группа под руководством компьютерного ученого Франческо Чиомпи из Медицинского центра Университета Радбоуд (Нидерланды) также запустила несколько подобных задач. Одна из них, названная UNICORN (Unified Benchmark for Imaging in Computational Pathology, Radiology and Natural Language), будет тестировать мультимодальные модели на 20 задачах, связанных с патологией, включая оценку биопсий, определение областей интереса и классификацию заболеваний. «Цель состоит в том, чтобы увидеть, насколько хорошо эти базовые модели справляются с задачей без особой настройки», - поясняет Чиомпи.

   Даже те, кто с энтузиазмом относится к базовым моделям, признают, что их проверка - непростая задача. Модели разработаны таким образом, чтобы быть открытыми и адаптируемыми. Самый консервативный способ их оценки, говорит Катер, - это тестирование каждого приложения. «Так, если у вас есть 1000 различных вариантов использования, вам придется собрать сотни образцов тканей для каждого из этих вариантов использования и применить к ним вашу модель». Катер рассказал, что в настоящее время ведутся дискуссии о радикально иных подходах к оценке эффективности. Например, он предлагает, чтобы по мере того, как модели ИИ будут становиться все более похожими на человека по своим возможностям, их можно было бы оценивать так же, как и людей. «Вы не оцениваете человека по одной конкретной ситуации, вы оцениваете его общее понимание вещей - вы выбираете несколько примеров и делаете вывод».

   Есть и другие проблемы, в том числе обобщаемость: убедиться, что эти инструменты работают для самых разных пациентов. Например, в 2021 году молекулярный тест Oncotype DX, позволяющий определить, может ли больной раком молочной железы получить пользу от химиотерапии, попал под шквал критики. Исследователи обнаружили, что, несмотря на то, что тест существует на рынке уже не менее двух десятилетий, его эффективность для чернокожих женщин была гораздо ниже, чем для белых. «Если вы не будете тщательно подходить к разработке и проверке этих алгоритмов, вы столкнетесь с катастрофическими ошибками», - считает Мадабхуши.

   Существует также проблема "галлюцинаций", когда чат-боты фабрикуют ответы на запросы. В медицине неправильный ответ может привести к ошибочному или пропущенному диагнозу. «Как оценить безопасность и интерпретируемость этих моделей, чтобы снизить риски при постановке диагноза пациенту?», - задается вопросом Ванг. «У регулирующих органов, таких как FDA, просто нет никаких рекомендаций для генеративных моделей в сфере здравоохранения». Кроме того, фундаментальные модели - это фактически «черные ящики», а значит, может быть трудно понять, как они пришли к своим выводам. «Фундаментальные модели - это интересно, но нам все еще не хватает понимания того, как они работают», - говорит Мадабхуши.

   Мадабхуши работает над тем, что он называет «объяснимым ИИ» - моделями, основанными на традиционных методах, в которых исследователи программируют алгоритмы для выявления конкретных биологических особенностей, связанных с заболеваниями. Например, его сотрудники разработали модели, которые ищут специфические узоры коллагеновых волокон, определяющие раннюю стадию рака молочной железы, и локализации иммунных клеток, предсказывающее исход у больных раком, получающих иммунотерапию. (Мадабхуши стал соучредителем Picture Health, биотехнологической компании, которая лицензировала эти технологии и работает над их утверждением).

   Другие исследователи стремятся открыть «черные ящики» моделей - по крайней мере, в некоторой степени. Чен, например, рассказал, что он и его группа работают над тем, чтобы проследить шаги, которые предпринимают модели для получения ответов, в надежде пролить свет на то, как эти алгоритмы принимают те или иные решения. «Мы хотим, чтобы наши модели были точными и заслуживали доверия», - говорит он. «А для врачей одна из самых важных вещей - это объяснимость». Этой области предстоит пройти долгий путь, но Чен настроен оптимистично. «Это только начало», - считает он. «Некоторые люди могут переоценить возможности этой технологии, но в долгосрочной перспективе их также легко можно недооценить».

Источник:

Nature technology feature, 23 May 2025

Комментариев: 0
Узнайте о новостях и событиях микробиологии

Первыми получайте новости и информацию о событиях