Растет число исследований о применении искусственного интеллекта и его релевантности для клинической инфекционной практики.
В данной статье мы описываем работу пяти чат-ботов, а именно ChatGPT, Perplexity, Claude, Copilot и Gemini, а также бесплатных и подписных версий ChatGPT, Perplexity и Claude, при ответе на вопросы с множественным выбором (MCQ) и истинные/ложные (T/F) вопросы по клинической микробиологии и инфекционным заболеваниям. Их результаты также сравнивались с результатами преподавателей и студентов-медиков.
Использовались три вопросника с вопросами по клинической микробиологии и инфекционным болезням: вопросник 1 - электронная книга с вопросами T/F; вопросник 2 - электронная книга с вопросами MCQ и вопросник 3 - физическая книга с MCQ. Все вопросы, требующие интерпретации и/или анализа изображения, были исключены. В результате было использовано в общей сложности 2 637 вопросов. Каждый вопрос использовался для тестирования пяти чат-ботов, двух профессоров клинической микробиологии и инфекционных болезней и трех студентов-медиков последнего курса. Правильными считались ответы, предоставленные вопросниками. За каждый правильный ответ начислялся один балл. За неправильные ответы балл не снимался. За ответы на вопросы T/F начислялось 0,5 балла. За ответы на вопросы MCQ начислялось 0,2 балла. Чтобы оценить скорость выполнения, первые 100 вопросов вопросника 2 были сгруппированы в 10 наборов, а первые 25 вопросов вопросника 3 - в пять наборов, и каждый набор вопросов был передан чат-боту. Время выполнения определялось как время между нажатием клавиши «Enter» на чатботе и появлением результатов.
В целом, медианные оценки, полученные пятью бесплатными чат-ботами за вопросы из трех книг, существенно не различались. Три чат-бота (ChatGPT, Perplexity и Claude) доступны как в бесплатной (ChatGPT 3.5, Perplexity и Claude Sonnet), так и в подписной (ChatGPT 4.0, Perplexity Pro и Claude Opus) версиях. Для вопросов на запоминание фактов (вопросники 1 и 2) не было обнаружено существенной разницы между медианными баллами, полученными в бесплатной (85%) и подписной (87%) версиях, но для вопросов клинического сценария (вопросник 3) медианные баллы, полученные в подписной версии (78%), были значительно выше, чем в бесплатной (64%).
В целом, существенной разницы между медианными оценками, полученными чат-ботами (81,5%) и двумя профессорами (84,5%), не было, но оценки, полученные чат-ботами и профессорами, были значительно выше, чем у студентов-медиков (52%). Аналогично, в подгруппе «Вопросы на запоминание фактов» (вопросники 1 и 2) и подгруппе «Вопросы по клиническим сценариям» (вопросник 3) не было значительной разницы между оценками, полученными чат-ботами (85% и 67%) и профессорами (85% и 76%), но оценки чат-ботов и профессоров были выше, чем у студентов-медиков. Среди бесплатных чатботов время генерации ответов было самым продолжительным у Copilot, за ним следовали Gemini и остальные три чатбота. При сравнении бесплатных и подписных версий среднее время генерации ответов в вопроснике 2 и вопроснике 3 было значительно больше для всех подписных версий, чем для их бесплатных аналогов.
В этом исследовании наиболее впечатляющим и обнадеживающим результатом стало то, что чат-боты не уступали опытным профессорам в ответах на вопросы, связанные с запоминанием фактов и анализом клинических сценариев. Два профессора, использовавшиеся в качестве эталонов для сравнения в этом исследовании, являются стипендиатами Королевского колледжа патологоанатомов и Королевского колледжа врачей Тайваня. У них более 20 лет опыта преподавания студентам-медикам; они непосредственно встречались с пациентами на ежедневных консультациях по инфекционным заболеваниям, руководили клинической микробиологической лабораторией и занимались вопросами инфекционного контроля; они хорошо разбираются в клинических и фундаментальных научных исследованиях в области микробиологии и инфекционных заболеваний. Хотя некоторые вопросы не были идеальными, а правильные ответы могли быть спорными, такая проблема была сведена на нет большим количеством использованных вопросов и не должна была оказать существенного влияния на общие результаты. Тот факт, что чат-боты могли работать так же эффективно, как и преподаватели, при анализе клинических сценариев, особенно обнадеживает, поскольку многие из этих вопросов требуют как интерпретации сложных клинических случаев, так и гематологических, биохимических, микробиологических и иммунологических лабораторных данных.
Учитывая экспоненциальный рост производительности чат-ботов, можно ожидать, что в ближайшем будущем они смогут помогать профессорам в решении клинических проблем и ведении пациентов и даже превзойти их. Клиницисты различных специальностей ежедневно консультируются с клиническими микробиологами и врачами-инфекционистами по самым разным вопросам - от выбора и продолжительности приема противомикробных препаратов до лихорадки неизвестного происхождения и интерпретации результатов и т. д. Некоторые из этих клинических проблем очень похожи на вопросы, содержащиеся в вопроснике 3 данного исследования. Однако клинические микробиологи и врачи-инфекционисты могут быть недоступны для клинических консультаций в режиме 24/7, даже в специализированных центрах.
В случае отсутствия клинических микробиологов и инфекционистов врачи могут обратиться к чат-ботам, показавшим хорошие результаты в данном исследовании при анализе клинических сценариев, таким как ChatGPT 4.0, Claude Opus и Perplexity Pro, для получения их мнения о ведении пациента. Несмотря на более высокие оценки, подписным чат-ботам потребовалось значительно больше времени, чем их бесплатным версиям, чтобы ответить на вопросы. Однако мы считаем, что такое замедление реакции вполне допустимо, учитывая тот факт, что они смогли дать значительно более точные ответы, полезные для лечения пациентов.
Вполне возможно, что в ближайшем будущем некоторые функции клинических микробиологов и врачей-инфекционистов частично или полностью возьмут на себя чат-боты, подобно тому как программы распознавания изображений заменяют рентгенологов и гистопатологов при интерпретации рентгенограмм и гистологических срезов. Такое развитие медицины в целом было бы очень экономичным и выгодным для бюджета здравоохранения.