Компьютеры Антона в DE Shaw Research

Семейство специализированных суперкомпьютеров, моделирующих молекулярную механику как никто другой.

Чисто основанная на физике альтернатива множеству методов машинного обучения, эта непревзойденная технология позволяет проводить невозможные в противном случае исследования, относящиеся к базовой биологии и фармацевтике.

Моделирование молекулярной динамики заключается в описании части материи в виде математической модели, чаще всего атом за атомом, а затем расчете того, как система развивается во времени физически реалистичным образом. В отличие от основанного на машинном обучении и других подходов, которые требуют больших объемов данных для обучения, молекулярное моделирование пытается воспроизвести реальность на основе чисто физических принципов, что позволяет исследовать вопросы, которые трудно или даже невозможно исследовать с помощью методов, основанных на данных. Вот краткий обзор области моделирования молекулярной динамики с упором на семейство суперкомпьютеров, которые могут выполнять только такие вычисления, но с непревзойденной скоростью.

Чтобы запустить моделирование молекулярной динамики и ограничить это объяснение только тем, что называют «классическим атомистическим моделированием молекулярной динамики», ученые приписывают каждому атому системы радиус, массу, заряд и согласующиеся с физикой связи со всеми другими атомами. . Эти соединения включают «связанные» соединения, которые имитируют ковалентные связи и угловые ограничения, удерживающие атомы вместе в молекулах, а также «несвязанные» взаимодействия, которые отслеживают, как атомы сталкиваются друг с другом, притягиваются или отталкиваются друг от друга. заряды одного знака и т. д. Интегрирование всего этого математического описания во времени приводит к своего рода фильму о том, как движутся все атомы системы. С помощью такого инструмента ученые могут исследовать от простых концепций, таких как движение или диффузия молекул, до сложных вопросов, таких как то, как лекарство связывается с белком-мишенью, как белок выполняет свою функцию, и множество других вопросов, относящихся к фундаментальной и прикладной химии и биологии. .

Молекулярное моделирование требует больших вычислительных ресурсов

Оказывается, распространение движений во времени во время моделирования — непростая задача. Учитывая начальную конфигурацию атомов в математической модели, компьютерная программа под названием «машина молекулярной динамики» вычисляет силы, действующие на все атомы, а затем результирующие изменения их скоростей и положений. Из новых положений программа может снова вычислить силы и сделать новое обновление скоростей и положений. А потом еще и еще, создавая каждый раз еще один кадр «кино», описывающий, как движутся атомы системы. Кроме того, моделирование имитирует температуру и давление моделируемых систем, гарантируя, что атомы движутся согласованным образом. Имитация температуры включает генерацию случайных чисел, влияющих на скорости всех атомов; таким образом, каждый раз, когда вы запускаете MD-симуляцию, вы будете наблюдать разные изменения во времени. Суть (и надежда) заключается в том, что по прошествии достаточно долгого времени и/или если можно запускать данную симуляцию несколько раз параллельно, общие выводы, которые можно сделать из симуляций, в принципе одинаковы. Вот почему важно запускать длительные симуляции, особенно когда нужно отсемплировать событие, для которого требуется время.

К сожалению, физика такова, что временной шаг между последовательными «кадрами» «кино» очень мал. Обычно всего 2 фс (фемтосекунды), что составляет 2 миллионных миллионных тысячных долей секунды. Это число приобретает некоторый контекст, когда мы вспоминаем, что самые интересные химические события происходят во временных масштабах от микросекунд до миллисекунд.

Таким образом, чтобы достичь этих временных масштабов, программе MD необходимо вычислить от миллиардов до триллионов шагов!

Еще хуже, если мы примем во внимание, что для сбора статистики в идеале нужно наблюдать за несколькими случаями исследуемого события.

Специализированные суперкомпьютеры для молекулярного моделирования

Типичные компьютеры, в том числе с самыми мощными графическими процессорами, сегодня могут моделировать небольшие системы в лучшем случае за несколько десятков микросекунд. Хотя существуют специальные методы, позволяющие обойти эту проблему, заставляя систему подвергаться событиям (большой набор уловок с расширенной выборкой), более десяти лет назад миллиардер и бывший профессор компьютерных наук Дэвид Эллиот Шоу создал частной компании DEShaw Research с целью разработки новой серии суперкомпьютеров, специально предназначенных для моделирования МД, которые бы освободились от существующих ограничений.

Долгосрочная цель этой новой компании заключалась в ускорении исследований в области разработки фармацевтически значимых соединений путем применения моделирования для понимания белков и других биологических систем в атомарных деталях. В качестве промежуточных целей они занимались оптимизацией силовых полей молекулярной механики, то есть наборов параметров, используемых для описания системы для ее моделирования. А до этого они занимались инженерными проблемами, связанными с оптимизацией вычислений, связанных с моделированием молекулярной динамики.

Первый компьютер, разработанный в DEShaw Research, названный Антон (скорее можно было бы сказать Антон 1, поскольку последующие модели назывались Антон 2, 3 и т. д.), был запущен в работу в 2008 году. Он мог моделировать молекулярные системы. в атомных деталях примерно в 100 раз быстрее, чем обычные компьютеры того времени. Это означало, что ученые, использующие Антона в компании, могли к началу 2010-х моделировать молекулярные события, которые никто другой не может смоделировать даже сегодня, без применения каких-либо расширенных приемов выборки. Каким-то образом они нарушили закон Мура применительно к молекулярному моделированию.

Антон 2 еще быстрее, он может вместить более крупные системы и немного более программируем (и, следовательно, универсален), чем его предшественник (напомним, что эти компьютеры запрограммированы на запуск симуляций, поэтому не дано, что даже вариации обычных моделирования будет легко добиться, как на обычном компьютере). Также существует по крайней мере один компьютер Антон 3, который быстрее, лучше программируется и хорошо масштабируется для довольно больших систем, в отличие от ближайших конкурирующих графических процессоров. Если вы занимаетесь моделированием и хотите увидеть некоторые цифры, сообщалось, что Антон 3 запускал систему из 100 000 атомов со скоростью около 200 микросекунд в день, что означает, что вы можете получить динамику на 1 мс всего за неделю работы. Лучший современный графический процессор сегодня может работать примерно в 10 раз медленнее, чем Антон 3, но только для небольших систем и плохо масштабируется для больших систем. Таким образом, Антон 3 имеет двойное преимущество: он быстрее запускает симуляции, производя больше выборок в единицу реального времени, а также позволяет изучать более крупные, полные и сложные системы.

Как работают компьютеры Антона

Для достижения исключительной скорости при моделировании молекулярных систем компьютеры Антона включают в себя новейшие элементы вычислительной техники, разработанные специально для проектов DEShaw Research. Говоря глобально, эти разработки включают в себя разработку аппаратного обеспечения, специально предназначенного для ускорения типичных вычислений, связанных с молекулярным моделированием. Таким образом, компьютеры Антона пожертвовали эффективностью и скоростью при интегрировании уравнений движения в пользу гибкости. Другими словами, они чрезвычайно эффективны для запуска молекулярных симуляций, но не могут делать ничего другого. Это части узкоспециализированного оборудования.

Не вдаваясь в подробности, резюмируя из WikiPedia и цитируемых выше статей DEShaw Res (и других статей в конце), Антон выполняет свои вычисления полностью на специализированных схемах (ASIC) вместо того, чтобы делить вычисления между хостами общего назначения. процессоры. В частности, мощные ASIC с ядрами, специализированными для определенных вычислений, лежат в основе превосходных скоростей Антона вместе с оптимизированными коммуникациями. Каждая ASIC Антона содержит две подсистемы, а также собственный банк DRAM, что позволяет проводить масштабные симуляции. Одна из подсистем предназначена для расчета несвязанных сил; это высокопроизводительная подсистема взаимодействия, состоящая из нескольких глубоко конвейерных модулей, расположенных по типу систолического массива. Остальные расчеты, в том числе связанные силы и различные математические операции, выполняются в другой подсистеме (более гибкой для проведения различных расчетов, состоящей из специализированных, но программируемых ядер SIMD).

ASIC компьютеров Антона организованы в виде трехмерного тора, что обеспечивает максимальную связность между ними, а также максимизируется за счет каналов с высокой пропускной способностью, которые передают от десятков до сотен ГБ в секунду и состоят из отдельных линий для передачи информации в разных направлениях. Ничто не было оставлено на волю случая; как видите, при проектировании учитывалась каждая деталь.

После волны беспрецедентных симуляций, доказывающих потенциал Антона, появились приложения к биологии.

В 2010 году компания DEShaw Research сообщила в статье Science о первом полном исследовании движения белков с использованием Антона (в то время Антона 1):

Характеристика структурной динамики белков на атомном уровне (Shaw et al Science, 2010 г.)

В документе сообщается о детальном моделировании молекулярной динамики атомов, достигающем от 0,1 до 1 миллисекунды каждое, для белков, сворачивающихся в трехмерные структуры из неупорядоченных форм, и для свернутых белков, которые испытывают функционально значимые движения за десятки микросекунд, поэтому вам нужно миллисекундное моделирование для выборки их несколько раз.

Миллисекундные временные масштабы, достигнутые Антоном 1 уже в 2010 году, все еще примерно в сто раз больше, чем типичные симуляции, о которых сообщают сегодня, с использованием обычных суперкомпьютеров, не предназначенных для симуляций.

Для получения более подробной информации, а затем читатель отсылается к статье, в работе представлены модели для:

  • Небольшие белки FiP35 и villin, как известно, сворачиваются очень быстро (в течение микросекунд), начиная с расширенных конформаций и отслеживая, принимают ли они известные трехмерные структуры и каким образом.
  • Динамика ингибитора трипсина бычьей поджелудочной железы (в данном случае начиная с фактической складчатой ​​трехмерной структуры), взаимопревращающегося между отдельными конформационными состояниями, что происходит слишком медленно, чтобы их можно было зафиксировать при обычном моделировании.

Моделирование укладки белков в трехмерные состояния в принципе может заменить (и работать лучше) основанные на машинном обучении методы предсказания структуры, с дополнительным преимуществом, заключающимся в том, что они могут объяснить, как укладываются белки. Напомним, что даже лучшие методы машинного обучения, такие как AlphaFold, предсказывают складчатые структуры, но не то, как они достигаются, т.е. они в принципе ничего не знают о путях складывания. Вместо этого в моделировании, основанном на физике, можно буквально увидеть, как происходит сворачивание, и если процесс воспроизводит известные экспериментальные данные о нем, то можно сделать вывод о том, как сворачивается белок, на основе моделирования.

В 2011 году DEShaw Res опубликовал новую статью, в которой исследуются пути сворачивания нескольких небольших белков в неупорядоченных состояниях, конечно же, с Антоном:

Как быстро сворачиваются белки (Lindorff-Larsen et al, Science, 2011 г.)

После этого мы больше ничего не слышали от компании об использовании моделирования молекулярной динамики для сворачивания белков. Вероятно, этот подход не получил дальнейшего развития, потому что даже белкам среднего размера требуется несколько миллисекунд для сворачивания; также, возможно, потому, что силовые поля еще недостаточно хороши. Более того, влияние прогнозов на основе машинного обучения несколько затмило роль методов, основанных на физике, таких как молекулярное моделирование. Действительно, большая часть усилий сообществ компьютерных химиков и биологов в настоящее время направлена ​​в основном на совершенствование методов на основе машинного обучения. Просто проверьте список докладов на этой недавней конференции в качестве примера.

Как DEShaw Res сейчас использует компьютеры Антона

Группа скорее использовала мощность своих компьютеров Антона для двух основных целей:

  • Улучшение силовых полей, то есть получение более качественных описаний параметров, используемых для описания атомов и их взаимодействий во время моделирования. Это важно для всего сообщества, но особенно для DEShaw Res, потому что, запуская такие длительные симуляции, они могут лучше выявить (и пострадать, и в конечном итоге исправить) проблемы и предубеждения в силовых полях.
  • Продвижение понимания на атомарном уровне систем, имеющих биологическую значимость, что, вероятно, является конечной ролью компании как средства для создания в конечном итоге новых молекул для клинического использования.

Улучшение силовых полей исследовалось несколькими путями, но самое главное было сосредоточено на двух моментах: настройке описания воды и лучшем описании неупорядоченных областей свернутых белков и даже полностью («внутренне») неупорядоченных белков. Обе проблемы на самом деле запутаны:

Объемная вода имеет очень сложные свойства, которые очень трудно смоделировать, и их настройка помогает (как показал DEShaw Res и многие другие) скорректировать проблемы, наблюдаемые в многобелковых системах и в внутренне неупорядоченных белках (которые не принимают четко определимую трехмерную структуру). , но имеют большое биологическое значение). Я провел полное исследование этого в следующей статье, включая последнее силовое поле, предложенное DEShaw Res к тому времени:



Приложения к химии и биологии

Что касается общих приложений к биологическим системам, DEShaw Res опубликовал статьи о том, как лекарства связывают свои белки-мишени, особенно интересные для неупорядоченных белков, об открытии карманов на поверхности белков, которые могут быть целью новых лекарств, связывание неупорядоченных белков с другими, в том числе.

И, конечно же, множество работ, непосредственно связанных с биологией и белками, имеющими медицинское значение. Вот лишь небольшая подборка:







В каждом из этих приложений к биологическим проблемам молекулярное моделирование либо выдвигало гипотезу для планирования экспериментов, либо объясняло экспериментальные результаты, которые нельзя извлечь из одних только статических структур. То, к чему инструменты прогнозирования на основе данных не могут даже приблизиться, по крайней мере, на данный момент.

Рекомендации

Об Антоне 1, 2 и 3:









www.lucianoabriata.com Пишу и снимаю обо всем, что лежит в сфере моих широких интересов: природа, наука, технологии, программирование и т. д. Стать участником Medium , чтобы получить доступ ко всем его историям (партнерские ссылки платформы, за которые я получаю небольшой доход бесплатно для вас) и подписаться, чтобы получать мои новые истории по электронной почте. Чтобы проконсультироваться по поводу небольших вакансий, посетите мою страницу услуг здесь. Вы можете связаться со мной здесь.