Нейросети в химии и создании лекарств: от идеи до клинических испытаний

Инструменты на основе нейросетей и искусственного интеллекта (ИИ) становятся всё более распространенными в науке. Многие ученые предполагают, что вскоре ИИ займет центральное место в исследовательской деятельности, говорится в опросе, проведенном журналом Nature среди более чем 1600 исследователей по всему миру. Более половины опрошенных считают, что нейросети в следующем десятилетии станут «очень важны» или «необходимы» в их работе. Из списка преимуществ распространения нейросетей две трети опрошенных отметили, что ИИ позволяет быстрее обрабатывать данные; 58% сказали, что нейросети делают возможными вычисления, которые раньше были недоступны, и ускоряют существующие; а 55% обратили внимание на экономию времени и денег. Однако некоторые ученые, напротив, обеспокоены тем, как ИИ меняет методы проведения исследований. Например, наблюдается непропорциональное «заражение» научных статей часто используемыми словами и оборотами речи, характерными для больших языковых моделей типа ChatGPT.

Многие забывают, что нейросети начали применяться в научных исследованиях не сегодня и даже не позавчера, а с середины прошлого века, когда их называли перцептронами. Сейчас нейронные сети кажутся новым секретным оружием для решения множества проблем. Чтобы проиллюстрировать интерес к нейросетям среди исследователей, на рисунке показан резкий рост числа публикаций, посвященных их использованию в химии. Интересно, что за последние 20 лет больше всего научных работ и патентов по ИИ в химии (26,5 и 39% соответственно) опубликовано китайскими исследователями, тогда как США всего лишь на втором месте (17,2 и 21,1%).

Количество публикаций по использованию нейронных сетей в химии за 1988–2020 годы

Одна из жизненно важных сфер использования нейронных сетей — это разработка новых лекарств: от идеи и синтеза первых библиотек потенциально активных веществ до проведения клинических испытаний и крупномасштабного выпуска готовых препаратов.

Для вывода нового препарата на рынок требуется в среднем 10–15 лет и 1,5–2 млрд долларов США. Примерно половина этого времени и инвестиций приходится на проведение клинических испытаний.

Остальные 50% идут на доклинические исследования и испытания препаратов, а также на одобрение регулирующими организациями. Несмотря на то, что фармацевтические и биотехнологические компании на протяжении десятилетий постоянно увеличивали инвестиции в исследования, количество новых препаратов, получающих одобрение регулирующих органов, в расчете на миллиард потраченных долларов снижалось вдвое примерно каждые девять лет. Переиначив закон Мура до полной противоположности, эта тенденция получила название «закон Эрума». Это явление представляет серьезную угрозу для существующей бизнес-модели клинических разработок в эпоху постблокбастерных препаратов.

Одним из главных камней преткновения на пути разработки лекарств является высокий процент неудач в клинических исследованиях. Менее трети всех соединений, прошедших II фазу, переходят в III фазу. Более трети всех соединений III фазы не доходят до одобрения. Вероятность успешного прохождения соединений через стадии клинических испытаний варьируется от фазы к фазе, и только одно из 10 соединений, участвующих в клинических испытаниях, доходит до одобрения. Поскольку эти важнейшие контрольные точки наступают лишь во второй половине цикла разработки, а на наиболее сложные испытания III фазы приходится ~60% всех затрат на исследования, потери в расчете на одно неудачное клиническое исследование составляют порядка 0,8–1,4 млрд долларов.

Высокий процент неудач клинических испытаний является одной из основных причин преобладающей неэффективности цикла разработки лекарств. Это повышает как расходы фармкомпаний, так и конечную стоимость лекарств для пациентов. Компании постоянно работают над тем, чтобы неудач стало меньше. И одним из путей решения проблемы является внедрение нейросетевых технологий. Рассмотрим, чем нейросети помогают ученым на каждом этапе создания лекарств и как в итоге развитие ИИ может повлиять на пациентов.

ИИ в создании лекарств

Первые работы по нейронным сетям середины 1940-х годов были встречены с энтузиазмом, но затем интерес несколько угас. Во-первых, результаты решения практических задач оказались неутешительными. Во-вторых, в 1969 году теоретики показали, что перцептроны имеют очень серьезные ограничения, если применяются в той форме и тем способом, которые использовались до того времени. Ученые утверждали, что даже расширение архитектуры перцептрона до многослойных сетей незначительно улучшит результаты. Это снизило интерес к исследованиям нейронных сетей до тех пор, пока в 1982 году его вновь не подстегнули новые идеи о нелинейности и обратной связи, которые придали большую гибкость устаревшей архитектуре перцептрона. Исследования нейросетей снова вошли в моду не только среди ученых, интересующихся ИИ, но и в большинстве других научных областей, включая химию.

Фактически в химии и смежных областях — биохимии, химической инженерии и фармации — интерес к нейросетевым вычислениям стремительно растет с 1986 года.

Уже тогда нейросети стали находить очень широкий спектр применения. Например, в рентгенофлуоресцентной и инфракрасной спектроскопии; в исследованиях по применению ионоселективных электродов для определения концентраций различных ионов, предсказания неисправностей и диагностики причин при контроле химических процессов и для классификации уровней энергии атомов для определения правильной электронной конфигурации. Что касается биологически активных соединений, то проводились расчеты вторичной структуры белков и QSAR-исследования. Взаимосвязь между структурой и биологической активностью изучалась для различных наборов соединений, включая противораковую активность митомицинов и карбохинонов, антигипертензивную — для арилакрилоилпиперазинов и транквилизирующую — для бензодиазепинов.

Эти первоначальные попытки получили мощное продолжение. Проблема пространственной структуры пептидов и белков является одной из ключевых задач в биологии. Предсказание их структуры важно для разработки лекарств. Участник исследований 1980-х годов описывал расчеты конформационных карт пептидов так: «…нам приходилось придумывать всякие программистские трюки для ускорения процесса счета на электронно-вычислительной машине „Минск-22“ и дежурить при ней по ночам — техника безопасности: а вдруг загорится?».

А в июле 2022 года компания DeepMind выпустила нейросеть для предсказания структуры белков AlphaFold2 для большинства известных молекул, включенных в каталог. Белки на порядки превосходят по размеру пептидные цепочки и играют важную роль в жизни. Их функции во многом зависят от трехмерной структуры. Это наглядно показывает, что ИИ способен значительно усилить прогресс в фундаментальной науке.

Система AlphaFold, обученная на общедоступных данных, достигла беспрецедентной точности. До разработки алгоритма в 2021 году была известна лишь малая часть белковых структур, несмотря на то, что уже охарактеризованы миллиарды белковых последовательностей. DeepMind надеется использовать эти методы для изучения миллионов белков. Так, за ~40 лет возможности расчетной химии выросли не в разы, а на несколько порядков.

Но нейросети годятся не только для теоретических изысканий. В последние годы их начали применять и в экспериментальных работах. Группа исследователей в Университете Глазго разработала алгоритм на основе машинного обучения, который позволяет роботу участвовать в экспериментальных задачах, связанных с кристаллизацией больших самоорганизующихся молекул полиоксометаллатов. Робот и команда исследователей имели одинаковые данные и протоколы экспериментов, чтобы найти условия и методы для синтеза новых полиоксометаллатов и их кристаллизации. В результате робот-химик оказался точнее в предсказаниях.

Ученые, применив нейросети, успешно создали катализаторы для расщепления воды с использованием материалов, найденных в пяти различных типах марсианских метеоритов. Модель управляла роботизированной рукой и лазером для сбора образцов и анализа руды. После расчета 3,7 млн молекул, которые теоретически можно создать из шести обнаруженных в породах металлов, ИИ-химик в течение шести недель создал и протестировал 243 различные молекулы без потребности во вмешательстве человека. Лучший найденный катализатор оказался способен расщеплять воду при экстремально низкой температуре —37 ºC. Этот катализатор интересен не только для потенциальной колонизации Марса, но и для работы в других холодных местах.

Большие языковые модели тоже заинтересовали химиков. Так, ученые из Университета Карнеги — Меллона сделали новую версию языковой модели GPT-4 доступной для химиков, что позволило создать систему Coscientist. Лабораторный робот Coscientist, основанный на ChatGPT, может автономно планировать и проводить сложные химические эксперименты, получая целевые соединения (авторы показали это на примере лекарств — парацетамола и аспирина). С использованием мощных языковых моделей (LLM), таких как GPT-4, Coscientist ищет методики в интернете, а затем разрабатывает пути реакции для создания нужной молекулы. Модель успешно справилась с планированием эксперимента, поиском и использованием документации для выполнения сложных команд в облачной лаборатории, точным управлением лабораторными приборами и оптимизацией задач на основе экспериментальных результатов.

Однако, несмотря на автоматизацию лабораторий, искусственный интеллект в широком толковании этого понятия пока не готов заменить химиков-людей, так как большинство исследовательских вопросов остается за пределами его возможностей. Тем не менее такие ИИ-помощники могут значительно улучшить и ускорить проведение химических экспериментов на всех этапах работы современного химика.

Доклинические испытания

Использование методов машинного обучения в открытии лекарственных препаратов должно обеспечить важные ключевые преимущества. Во-первых, компьютер позволяет работать с высокой производительностью в режиме 24/7, что значительно превосходит ручные методы. Во-вторых, позволяет снизить затраты, поскольку уменьшается количество физически тестируемых соединений. Также можно выявить нежелательные характеристики соединений на ранней стадии, например нецелевые воздействия, зависимость от пола или микробиоты кишечника.

Примером является алгоритм DeepBAR, который использует глубокое генеративное машинное обучение для расчета сродства связывания между соединениями и белками (докинг). DeepBAR оказался более эффективным и ресурсосберегающим, чем ранее известные методы. Нейросети широко применяются в открытии лекарственных препаратов, и такие стартапы, как Atomwise, Benevolent AI и DeepCure, используют их в своей работе. Существует множество методов машинного обучения для QSAR-исследований и поиска лекарств, которые позволяют определить химические атрибуты и предсказать вероятную терапевтическую активность. Выбор алгоритма зависит от желаемого результата. В поиске лекарств всё большую роль играют передовые методы машинного обучения: обучение с подкреплением, обучение с переносом и активное обучение. Активное обучение может быть применено для разработки новых лигандов, идентификации структурно разнообразных молекул и прогнозирования воздействия лекарств на белки. Эти передовые методы могут значительно сэкономить время и ресурсы в процессе открытия лекарств.

Глубокое обучение — еще одна передовая методика, показавшая хорошие результаты в работах по поиску лекарств. От традиционных методов машинного обучения оно отличается своей сложностью, поскольку входные признаки поступают в модель и затем проходят через множество скрытых слоев узлов принятия решений, использующих нелинейные преобразования, что в конечном итоге ведет к предсказаниям на последнем слое. Ключевыми преимуществами глубоких нейронных сетей являются их вычислительная мощность и гибкость для решения многих типов задач.

Уже сейчас известны успешные примеры использования нейросетей в ускоренной разработке лекарств.

Deep Docking использует глубокие модели QSAR, обученные на оценках докинга подмножеств химической библиотеки, для приближенного расчета результатов для еще необработанных молекул и отсева неудачных вариантов. Использование этого метода в сочетании с программой докинга FRED позволило быстро и точно рассчитать докинг для 1,36 млрд молекул по отношению к 12 известным целевым белкам и показало стократное сокращение данных и 6000-кратное обогащение молекул с высокой оценкой (без заметной потери благоприятно состыкованных сущностей). То есть эта модель обеспечила ускорение скрининга в 50~100 раз. Протокол Deep Docking опубликован авторами в открытом доступе.

Поиск агониста рецептора серотонина с пролонгированным действием, который может найти применение в терапии обсессивно-компульсивного расстройства, занял у компании Sumitomo Dainippon Pharma всего год против обычных для такого исследования четырех лет. Исследователи из Массачусетского технологического института (MIT) использовали алгоритм машинного обучения для определения лекарства под названием галицин, которое убивает многие штаммы бактерий. Галицин предотвращает развитие устойчивости к антибиотикам у кишечной палочки, и в лабораторных испытаниях он уничтожил ряд наиболее проблемных инфекционных бактерий, включая некоторые штаммы, устойчивые ко всем известным антибиотикам.

Гонконгская компания Insilico Medicine разработала модель на основе генеративного тензорного обучения с подкреплением (GENTRL) для дизайна малых молекул de novo. С помощью GENTRL за 21 день исследователи нашли мощные ингибиторы рецептора целевой киназы, участвующей в развитии фиброза и других заболеваний. Четыре соединения проявили биохимическую активность, а два подтвердили ее в экспериментах на клетках. Одно из веществ-кандидатов показало благоприятную фармакокинетику на мышах. Авторы считают, что разработка нового лекарства с помощью предложенной модели будет занимать 46 дней.

Клинические испытания

Доклиническое обнаружение соединений, тестирование и определение лучших из них и подходящих для клинических испытаний может быть существенно облегчено за счет использования генеративных и предсказательных методов ИИ, как показано в обзоре.

Модели и методы ИИ также могут быть использованы для отбора пациентов, уменьшения неоднородности выборки, отбора пациентов, у которых с большей вероятностью будет измеряемая клиническая конечная точка, и выявления популяции с большей вероятностью ответа на лечение. Электронное фенотипирование — это известная практика в рамках медицинской информатики, которая направлена на снижение неоднородности популяции, то есть выявление пациентов с определенными и представляющими интерес характеристиками. Задача электронного фенотипирования гораздо сложнее, чем простой поиск, так как требует применения методов, учитывающих неоднородность записей пациентов, разнообразие типов данных и использование знаний о клинической области. Ранние методы, основанные на созданных вручную правилах, годились для простых случаев, но оказались недостаточными для более сложных.

Сложность критериев включения в испытания, как правило, затрудняет понимание и оценку пациентом своего соответствия.

Ручное извлечение значимой информации из такого большого и неструктурированного массива данных — серьезная задача, которая ложится тяжелым бременем на врачей и пациентов.

Тем не менее именно этот этап во многом определяет, будет ли пациент признан подходящим для участия в исследованиях. В последние годы прилагаются всё большие усилия по разработке методов машинного и глубокого обучения, которые должны справляться со сложными реальными задачами.

Исследователи ожидают, что внедрение ИИ существенно повысит охват и эффективность набора нужных пациентов в клиническое исследование, который требует больших затрат времени и средств. Отдача от инвестиций возможна только при успешном завершении испытания. Поэтому важно, чтобы пациенты не покидали испытание, соблюдали процедуры и правила на протяжении всего срока, а также эффективно и надежно собирали данные для мониторинга воздействия испытуемого препарата. Только в 15% клинических исследований пациенты не выбывают из исследования, а средний показатель выбытия составляет 30%. Отсев, вызванный несоблюдением протоколов испытаний, требует дополнительных усилий по набору пациентов, что приводит к задержке получения результатов и дополнительным расходам. Например, в исследовании, где половина пациентов не придерживается лечения, для сохранения статистической достоверности результатов необходимо набрать еще 200% пациентов.

Для соблюдения критериев приверженности пациенты должны вести подробные записи о приеме лекарств и множестве других данных, касающихся их организма и реакции на вмешательство. Это может оказаться непосильной и обременительной задачей, и, как следствие, в среднем 40% пациентов перестают соблюдать правила после 150 дней клинического исследования. Носимые датчики и видеомониторинг предлагаются для автоматического и непрерывного сбора данных о пациенте, тем самым освобождая его от этой задачи. Затем для анализа таких данных в режиме реального времени и фиксации значимых событий могут быть использованы нейросетевые модели. Такой подход позволяет создавать дневники течения болезни, поскольку лежащие в основе аналитические нейросетевые модели периодически переобучаются на базе обновленных данных измерений, развиваются с учетом особенностей пациента и адаптируются к любым изменениям в проявлении болезни и поведении испытуемого.

ИИ также поможет в обнаружении конечных точек на основе изображений — это задача, которая в настоящее время решается вручную. Технологии обучения моделей с подкреплением были недавно одобрены для скрининга и быстрого обнаружения заболеваний по медицинским изображениям. Дополнение их алгоритмами количественной оценки патологических состояний позволит снизить стоимость таких исследований за счет отказа от ручной обработки.

Методы ИИ также могут пригодиться для динамического прогнозирования риска отсева для конкретного пациента, то есть для выявления возможности, что он может испытывать проблемы с соблюдением протокола. Один из таких примеров описывает использование алгоритмов глубокого обучения с подкреплением для определения наименьших доз, которые уменьшают опухоль мозга, снижая при этом токсичность химиотерапии. Используя «самообучающуюся» модель, система изучает применяемые схемы лечения и пошагово корректирует дозы. В конечном итоге нейросеть находит оптимальный план лечения с минимально возможной нагрузкой и частотой введения доз лекарства, которые при этом уменьшают размеры опухоли до степени, сопоставимой с традиционными схемами.

В имитационных испытаниях на 50 пациентах модель разработала циклы лечения, в которых лекарственная нагрузка была снижена до четверти или половины почти всех доз при сохранении того же потенциала уменьшения опухоли, что должно повысить приверженность пациентов лечению и сократить количество отказов от терапии.

Продолжающиеся исследования на стыке ИИ, интернета вещей и здравоохранения позволят создать больше устройств медицинского класса для непрерывного мониторинга состояния пациентов и прогрессирования заболевания в режиме реального времени. Однако здесь важно отметить, что целостность и безопасность данных занимают центральное место в концепции, реализации и использовании цифровых дневников болезней: пациенты, врачи и регулирующие органы будут полагаться на безопасность конфиденциальных данных пациента и полученных на их основе результатов. Вероятно, более современные платформы мониторинга и хранения данных на основе ИИ будут использовать технологию блокчейн для обеспечения надежной и отслеживаемой многосторонней связи и обмена данными.

Как видно, за полвека нейросети проделали путь от чисто теоретической идеи до удобного, пусть пока и несовершенного, инструмента. А за последние пять лет современные методы ИИ достигли такого уровня, что стало возможным их использование в реальных условиях в химии, фармации и медицине. Внедрение инноваций — сложная задача, к которой нужно подходить поэтапно. ИИ способен повлиять на множество этапов разработки новых лекарств — от химической лаборатории до проведения клинических исследований.

Методы ИИ обладают реальной прикладной значимостью. Однако исследователи считают, что машина не заменит человека в такой ответственной сфере, как создание лекарств, а будет дополнять его. Человек обладает интуицией и опытом, в то время как нейросетевые алгоритмы могут повысить производительность исследователей, избежать предвзятости и ошибок, вносимых человеческим фактором. В целом же это не только обеспечит быстрое появление новых, более эффективных лекарственных препаратов, но и должно снизить их конечную стоимость для пациентов.