Berkeley Lab, Intel, Cray использует мощь глубокого обучения для изучения вселенной. Сотрудничество крупных вычислительных центров между учеными-вычислителями из Национального исследовательского научного вычислительного центра Национальной лаборатории научных исследований (Berkeley Lab) Национального университета энергетики Беркли (NERSC) и инженерами Intel и Cray принесло еще одно преимущество в стремлении применить глубокое обучение к науке с интенсивными данными: CosmoFlow , первое крупномасштабное научное приложение для использования инфраструктуры TensorFlow на высокопроизводительной вычислительной платформе на базе процессоров с синхронным обучением. Он также первыми обрабатывает трехмерные (трехмерные) пространственные данные в этом масштабе, предоставляя ученым совершенно новую платформу для более глубокого понимания вселенной.

На фото: Пример моделирования темной материи во Вселенной, используемой в качестве входа в сеть CosmoFlow. CosmoFlow — это первое крупномасштабное научное приложение, использующее платформу TensorFlow на высокопроизводительной вычислительной платформе на базе процессоров с синхронным обучением. Фото: Национальная лаборатория Лоуренса Беркли

Проблемы космологии «большие данные» выходят за рамки простого объема данных, хранящихся на диске. Наблюдения за вселенной обязательно конечны, и задача, с которой сталкиваются исследователи, состоит в том, как извлечь самую большую информацию из имеющихся наблюдений и моделирования. Усугубляет проблему то, что космологи типично характеризуют распределение материи во Вселенной, используя статистические измерения структуры материи в виде двух- или трехточечных функций или других уменьшенных статистических данных. Такие методы, как глубокое изучение, которые могут захватывать все функции в распределении материи, обеспечили бы более глубокое понимание природы темной энергии. Прежде всего, чтобы понять, что глубокое обучение может быть применено к этой проблеме, были Сиамак Раванбахш и его коллеги, как указано в материалах 33-й Международной конференции по машинному обучению. Однако вычислительные узкие места при расширении сети и набора данных ограничивают объем проблемы, которая может быть решена.

CosmoFlow, предназначенный для решения этих задач, был разработан с высокой степенью масштабируемости; для обработки больших, трехмерных наборов данных космологии; и повысить эффективность обучения в области глубокого обучения на современных суперкомпьютерах HPC, таких как суперкомпьютер Cray XC40 Cori на базе процессоров Intel в NERSC. CosmoFlow построен на основе популярной платформы обучения TensorFlow и использует Python в качестве интерфейса. Приложение использует Cray PE Machine Learning Plugin для достижения беспрецедентного масштабирования системы TensorFlow Deep Learning до более чем 8 000 узлов. Он также использует технологию ускорителя ввода-вывода DataWarp Cray, которая обеспечивает пропускную способность ввода-вывода, необходимую для достижения такого уровня масштабируемости.

В техническом документе, который будет представлен на SC18 в ноябре, команда CosmoFlow описывает приложение и начальные эксперименты с использованием имитации N-body темной материи, созданной с использованием пакетов MUSIC и pycola на суперкомпьютере Cori в NERSC. В серии одноузловых и многоузловых экспериментов по масштабированию команда смогла продемонстрировать полностью синхронную параллельную передачу данных на 8 192 Кори с 77% параллельной эффективностью и устойчивой производительностью 3.5 пфлоп / с.

«Наша цель состояла в том, чтобы продемонстрировать, что TensorFlow может эффективно работать в масштабе на нескольких узлах», — говорит Дебора Бард, крупный архитектор данных в NERSC и соавтор технической статьи. «Насколько нам известно, это самый большой в истории развертывание TensorFlow на процессорах, и мы считаем, что это самая большая попытка запустить TensorFlow на самом большом количестве узлов ЦП».

В начале команда CosmoFlow изложила три основных цели для этого проекта: наука, оптимизация и масштабирование на узлах. Цель науки заключалась в том, чтобы продемонстрировать, что глубокое обучение может быть использовано на трехмерных томах для изучения физики Вселенной. Команда также хотела убедиться, что TensorFlow работает эффективно и эффективно на одном процессорном узле Intel Xeon Phi с трехмерными томами, которые распространены в науке, но не столько в промышленности, где большинство приложений глубокого обучения имеют дело с данными двухмерного изображения наборы. И, наконец, обеспечить высокую эффективность и производительность при масштабировании через 1000 узлов в суперкомпьютерной системе Cori.

Как отметил Джо Керли (Joe Curley), старший директор организации по модернизации кода в Intel Data Center Group, «Сотрудничество с крупными центрами обработки данных принесло удивительные результаты в области информатики благодаря сочетанию технологий Intel и целевых усилий по оптимизации программного обеспечения. Во время проекта CosmoFlow, мы определили оптимизацию рамок, ядра и коммуникаций, что привело к увеличению производительности более чем на 750 раз для одного узла. Столь же впечатляюще, команда решила проблемы, которые ограничивали масштабирование методов глубокого обучения до 128 — 256 узлов, — теперь они позволяют масштабировать приложение CosmoFlow эффективно к 8 192 узлам суперкомпьютера Cori в NERSC».

«Мы в восторге от результатов и прорывов в приложениях искусственного интеллекта из этого совместного проекта с NERSC и Intel», — сказал Пер Найберг, вице-президент по развитию рынка, искусственный интеллект и облако в Cray. «Удивительно, что команда CosmoFlow использует уникальную технологию Cray и использует мощь суперкомпьютера Cray для эффективного масштабирования моделей глубокого обучения. Это отличный пример того, к чему стремятся многие наши клиенты в сближении традиционного моделирования и симуляция с новыми алгоритмами глубокого обучения и аналитики, все на единой масштабируемой платформе ».

Прабхат, лидер группы Data & Analytics Services в NERSC, добавил: «С моей точки зрения, CosmoFlow — это примерный проект для сотрудничества с крупными центрами данных. Мы действительно задействовали компетенции различных учреждений для решения жесткой научной проблемы и расширения нашей продукции стек, который может принести пользу более широкому сообществу пользователей NERSC».

В дополнение к Барду и Прабхату, соавторами статьи SC18 являются Амрита Матурия, Лоуренс Медоуз, Лэй Шао, Туомас Карна, Джон Пенникук, Джейсон Сьюолл, Налини Кумар и Виктор Ли из Intel; Питер Мендиграл, Диана Моисе, Кристин Машхофф и Майкл Рингенбург из Крей; Сию Он и Ширли Хо из Института Уольерона; и Джеймсом Арнеманом из Калифорнийского университета в Беркли.

По материалам phys.org