На этой неделе на Международном совещании по электронным устройствам (IEDM) и Конференции по системам обработки нейронной информации (NeurIPS) исследователи IBM продемонстрируют новое аппаратное обеспечение, которое позволит ИИ продвинуться дальше, чем это было раньше: вплоть до самого края. Наши новые подходы к использованию цифровых и аналоговых микросхем ИИ повышают скорость и снижают потребность в энергии для глубокого обучения без ущерба для точности. С цифровой стороны мы создаем условия для нового отраслевого стандарта обучения искусственному интеллекту с помощью подхода, который обеспечивает полную точность с восьмибитной точностью, сокращая время обучения в два-четыре раза по сравнению с современными системами. Что касается аналогов, мы сообщаем о восьмибитной точности – самой высокой на данный момент – для аналогового чипа, примерно в два раза превышающей точность по сравнению с предыдущими аналоговыми чипами, при этом потребляя в 33 раза меньше энергии, чем цифровая архитектура аналогичной точности.

Микросхема, содержащая несколько устройств PCM. Контактирующие с ним электрические датчики используются для отправки сигналов на отдельные устройства для выполнения умножения в памяти. Фото: IBM

В эпоху после ГПУ

Инновации в программном обеспечении и оборудовании для искусственного интеллекта в значительной степени способствовали повышению производительности вычислений для искусственного интеллекта в 2,5 раза в год с 2009 года, когда впервые были применены графические процессоры для ускорения глубокого обучения. Но мы достигаем предела возможностей графических процессоров и программного обеспечения. Чтобы решить наши самые сложные проблемы, аппаратное обеспечение должно расширяться. Грядущему поколению приложений ИИ потребуются более быстрое время отклика, большие рабочие нагрузки ИИ и мультимодальные данные из многочисленных потоков. Чтобы раскрыть весь потенциал ИИ, мы перерабатываем аппаратное обеспечение с учетом ИИ: от ускорителей до специального оборудования для рабочих нагрузок ИИ, таких как наши новые чипы, и, в конечном итоге, квантовые вычисления для ИИ. Масштабирование ИИ с помощью новых аппаратных решений является частью более широких усилий IBM Research по переходу от узкого ИИ, часто используемого для решения конкретных, четко определенных задач, к широкому ИИ,

Цифровые ускорители ИИ с пониженной точностью

IBM Research запустила подход с пониженной точностью к обучению и выводу модели искусственного интеллекта, предложив исторический документ, описывающий новый подход к потоку данных для традиционных технологий CMOS, позволяющий повысить производительность аппаратных платформ за счет существенного снижения точности данных и вычислений. Модели, обученные с 16-битной точностью, впервые продемонстрировали отсутствие потери точности по сравнению с моделями, обученными с 32-битной точностью. В последующие годы подход с пониженной точностью был быстро принят в качестве отраслевого стандарта с 16-разрядным обучением и 8-разрядным логическим выводом, ставшим теперь обычным явлением, и вызвал взрыв стартапов и венчурного капитала для производства микросхем цифрового искусственного интеллекта с уменьшенной точностью.

Следующий отраслевой стандарт для обучения искусственному интеллекту

Следующая важная веха в обучении с пониженной точностью будет представлена ​​в NeurIPS в документе под названием «Обучение глубоких нейронных сетей с использованием восьмибитовых чисел с плавающей запятой» (авторы: Найганг Ван, Чунгвук Чой, Даниэль Бранд, Чиа-ю Чен, Кайлаш Гопалакришнан ). В этой статье был предложен ряд новых идей для преодоления предыдущих проблем (и ортодоксов), связанных с уменьшением точности обучения ниже 16 бит. Используя эти новые предложенные подходы, мы впервые продемонстрировали способность обучать модели глубокого обучения с восьмибитной точностью, полностью сохраняя точность модели во всех основных категориях наборов данных AI: изображение, речь и текст. Методы ускоряют время обучения для глубоких нейронных сетей (DNN) в два-четыре раза по сравнению с сегодняшними 16-битными системами.

Снижение точности битов – это стратегия, которая должна способствовать созданию более эффективных крупномасштабных платформ машинного обучения, и эти результаты являются значительным шагом вперед в масштабировании ИИ. Комбинируя этот подход с настраиваемой архитектурой потока данных, можно использовать архитектуру с одним чипом, чтобы эффективно выполнять обучение и вывод в диапазоне рабочих нагрузок и сетей, больших и малых. Этот подход также может вместить «мини-пакеты» данных, необходимые для критических широких возможностей ИИ без ущерба для производительности. Реализация всех этих возможностей с восьмибитной точностью для обучения также открывает область энергоэффективного широкого ИИ на грани.

Аналоговые чипы для вычислений в памяти

Благодаря низким требованиям к энергопотреблению, высокой энергоэффективности и высокой надежности, аналоговая технология естественным образом подходит для искусственного интеллекта на краю. Аналоговые ускорители послужат основой для аппаратного ускорения ИИ за пределами традиционных цифровых подходов. Тем не менее, в то время как аппаратное обеспечение цифрового ИИ борется за снижение точности, аналоговые возможности до сих пор были ограничены его относительно низкой внутренней точностью, влияющей на точность модели. Мы разработали новую технику, чтобы компенсировать это, достигнув высочайшей точности для аналогового чипа. Наша статья в IEDM «Умное 8-битное прецизионное умножение в памяти с проецированной памятью с фазовым переходом» (авторы: Ясон Джаннопулос, Абу Себастьян, Мануэль Ле Галло, В.П. Джонналагадда, М. Соуза, М.Н. Бун, Эванджелос Элефтериу) показывает это техника достигла восьмибитной точности в операции скалярного умножения,

Ключом к снижению энергопотребления является изменение архитектуры вычислений. В современном компьютерном оборудовании данные должны перемещаться из памяти в процессоры для использования в вычислениях, что отнимает много времени и энергии. Альтернативой являются вычисления в памяти, в которых блоки памяти работают как процессоры, эффективно выполняя двойную обязанность как хранения, так и вычислений. Это избавляет от необходимости перемещать данные между памятью и процессором, экономя время и снижая потребление энергии на 90 процентов и более.

Фазовая память

Наше устройство использует фазовую память (PCM) для вычислений в памяти. PCM записывает синаптические веса в своем физическом состоянии по градиенту между аморфным и кристаллическим. Проводимость материала изменяется вместе с его физическим состоянием и может быть изменена с помощью электрических импульсов. Вот как PCM может выполнять вычисления. Поскольку состояние может находиться в любом месте вдоль континуума от нуля до единицы, оно считается аналоговым значением, а не цифровым значением, которое является либо нулем, либо единицей, ничем между ними.

Мы повысили точность и стабильность весов, хранящихся в PCM, с помощью нового подхода, называемого Projection PCM (Proj-PCM), в котором мы вставляем неизолирующий проекционный сегмент параллельно сегменту с фазовым переходом. В процессе записи проекционный сегмент оказывает минимальное влияние на работу устройства. Однако во время чтения значения проводимости запрограммированных состояний в основном определяются проекционным сегментом, который значительно невосприимчив к изменениям проводимости. Это позволяет устройствам Proj-PCM достигать гораздо более высокой точности, чем предыдущие устройства PCM.

Повышенная точность, достигнутая нашей исследовательской группой, указывает на то, что вычисления в памяти могут обеспечить высокопроизводительное глубокое обучение в средах с низким энергопотреблением, таких как IoT и периферийные приложения. Как и в случае с нашими цифровыми ускорителями, наши аналоговые микросхемы предназначены для масштабирования для обучения искусственному интеллекту и выводят его на основе визуальных, речевых и текстовых наборов данных и распространяются на появляющийся широкий искусственный интеллект. Мы будем демонстрировать ранее опубликованный чип PCM всю неделю на NeurIPS, используя его для классификации рукописных цифр в режиме реального времени через облако.

По материалам phys.org