На этой неделе на Международной конференции по электронным устройствам (IEDM) и конференции по системам обработки нейронной информации (NeurIPS) исследователи IBM продемонстрируют новое оборудование, которое будет принимать ИИ дальше, чем было раньше: прямо к краю. Наши новые подходы к цифровым и аналоговым микросхемам AI повышают скорость и сокращают потребность в энергии для глубокого обучения, не жертвуя точностью. С цифровой стороны мы создаем основу для нового отраслевого стандарта в обучении искусственному интеллекту с подходом, который обеспечивает полную точность с восемью битами, ускоряя время обучения в два-четыре раза по сравнению с современными системами. С аналоговой стороны мы сообщаем о восьмибитовой точности — самой высокой — для аналогового чипа, что примерно удваивает точность по сравнению с предыдущими аналоговыми микросхемами, потребляя в 33 раза меньше энергии, чем цифровая архитектура с аналогичной точностью.

В эпоху после GPU

Инновации в программном обеспечении и аппаратных средствах AI в значительной степени обеспечили улучшение производительности вычислительной техники для AI с 2,5 раза в год с 2009 года, когда GPU были впервые приняты для ускорения глубокого обучения . Но мы достигаем предела того, что могут делать графические процессоры и программное обеспечение. Чтобы решить наши самые сложные проблемы, аппаратное обеспечение должно расширяться. Приходящее поколение приложений AI потребует более быстрого времени отклика, больших нагрузок AI и мультимодальных данных из многочисленных потоков. Чтобы развязать полный потенциал ИИ, мы переделываем аппаратное обеспечение с ИИ в виду: от ускорителей до специально созданного оборудования для рабочих нагрузок AI, таких как наши новые чипы, и, в конечном счете, квантовых вычислений для ИИ. Масштабирование ИИ с помощью новых аппаратных решений является частью более широкого использования IBM Research для перехода от узкого ИИ, часто используемого для решения конкретных, четко определенных задач, к широкому ИИ, который охватывает все дисциплины, чтобы помочь людям решить самые насущные проблемы.

Цифровые ускорители AI с пониженной точностью

IBM Research запустила подход с пониженной точностью к обучению и выводам модели ИИ с ориентировочной бумагой, описывающей новый подход к потокам данных для обычных технологий CMOS для повышения производительности аппаратных платформ за счет резкого снижения точности бит данных и вычислений. Модели, прошедшие обучение с 16-битной точностью, впервые продемонстрировали отсутствие потери точности по сравнению с моделями, прошедшими обучение с 32-битной точностью. В последующие годы подход с пониженной точностью был быстро принят как отраслевой стандарт, с 16-разрядным обучением и восьмибитовыми выводами в настоящее время обычным явлением, а также вызвал взрыв стартапов и венчурного капитала для сокращенных цифровых чипов AI с высокой точностью .

Следующий отраслевой стандарт обучения ИИ

Следующая важная веха в обучении с пониженной точностью будет представлена ​​в NeurIPS в документе под названием «Обучение глубоким нейронным сетям с восьмеричными числами с плавающей запятой» (авторы: Найган Ванг, Джунгвук Чой, Дэниел Брэнд, Чиа-Ю Чен, Кайлаш Гопалакришнан ). В этой статье был предложен ряд новых идей для преодоления предыдущих проблем (и ортодоксий), связанных с уменьшением точности обучения ниже 16 бит, Используя эти новые предлагаемые подходы, мы впервые продемонстрировали возможность обучения моделей глубокого обучения с восьмибитовой точностью, полностью сохраняя точность модели во всех основных категориях данных AI: изображение, речь и текст. Эти методы ускоряют время обучения для глубоких нейронных сетей (DNN) в два-четыре раза по сравнению с сегодняшними 16-разрядными системами. Несмотря на то, что ранее считалось невозможным дальнейшее снижение точности обучения, мы ожидаем, что эта восьмибитная учебная платформа станет широко принятым отраслевым стандартом в ближайшие годы.

Снижение точности бит — это стратегия, которая, как ожидается, будет способствовать созданию более эффективных широкомасштабных платформ машинного обучения, и эти результаты означают значительный шаг вперед в масштабировании AI. Комбинируя этот подход с индивидуальной архитектурой потока данных, можно использовать архитектуру с одним чипом для эффективного выполнения обучения и определения по широкому диапазону рабочих нагрузок и сетей больших и малых . Такой подход может также учитывать «мини-партии» данных, необходимых для критических широких возможностей AI без ущерба для производительности. Реализация всех этих возможностей с восьмибитовой точностью для обучения также открывает область энергоэффективного широкого ИИ на краю.

Аналоговые микросхемы для вычислений в памяти

Благодаря низким потребностям в электропитании, высокой энергоэффективности и высокой надежности аналоговые технологии естественным образом подходят для AI на краю. Аналоговые ускорители будут подпитывать дорожную карту аппаратного ускорения AI за пределы обычных цифровых подходов. Однако, в то время как цифровое аппаратное обеспечение AI находится в гонке для снижения точности, аналог до сих пор был ограничен его относительно низкой внутренней точностью, влияющей на точность модели. Мы разработали новую технику, чтобы компенсировать это, достигнув наивысшей точности для аналогового чипа. Наша статья на IEDM, «8-битное прецизионное умножение памяти с прогнозируемой памятью с изменением фазы» (авторы: Ясон Джаннопулос, Абу Себастьян, Мануэль Ле Галло, В.П. Йонналагадда, М. Суса, М.Н. Бун, Евангелос Элефтериу)

Ключом к снижению потребления энергии является изменение архитектуры вычислений. С сегодняшним вычислительным оборудованием данные должны быть перемещены из памяти в процессоры, которые будут использоваться в вычислениях, что требует много времени и энергии. Альтернативой является вычисление в памяти , в котором модули памяти луняются как процессоры, эффективно выполняя двойную обязанность как хранения, так и вычисления. Это позволяет избежать необходимости передавать данные между памятью и процессором, экономя время и сокращая потребление энергии на 90% и более.

Память смены фаз

Наше устройство использует память с изменением фазы (PCM) для вычислений в памяти. PCM записывает синаптические веса в своем физическом состоянии вдоль градиента между аморфным и кристаллическим. Проводимость материала изменяется вместе с его физическим состоянием и может быть изменена с использованием электрических импульсов. Именно так PCM может выполнять вычисления. Поскольку состояние может быть где угодно по континууму между нулем и единицей, оно считается аналоговым значением, а не цифровым значением, которое является либо нулевым, либо одно, ничто между ними.

Мы повысили точность и стабильность весов, хранящихся в PCM, с новым подходом, спроектированным PCM (Proj-PCM), в который мы вставляем неизолирующий проекционный сегмент параллельно сегменту смены фазы. Во время процесса записи проекционный сегмент оказывает минимальное влияние на работу устройства. Однако во время чтения значения проводимости запрограммированных состояний в основном определяются сегментом проецирования, который является чрезвычайно устойчивым к изменениям проводимости. Это позволяет устройствам Proj-PCM достичь гораздо большей точности, чем предыдущие устройства PCM.

Повышенная точность, достигнутая нашей исследовательской группой, показывает, что вычисления в памяти могут быть способны обеспечить высокопроизводительное глубокое обучение в средах с низким энергопотреблением, таких как IoT и периферийные приложения. Как и в случае с нашими цифровыми ускорителями, наши аналоговые микросхемы предназначены для масштабирования для обучения искусственного интеллекта и определения их по визуальным, речевым и текстовым наборам данных и распространения на новые широкие ИИ. Мы будем демонстрировать ранее опубликованный чип PCM всю неделю в NeurIPS, используя его для классификации ручных цифр в реальном времени через облако.

По материалам phys.org