Интерпретируемость и производительность системы, как правило, противоречат друг другу, как многие из наиболее эффективных моделей (а именно. глубокие нейронные сети) "черного ящика" в природе. В нашей работе, улучшая простые модели с профилями доверия, мы стараемся восполнить этот пробел, предложив способ передачи информации из высокопроизводительных нейронных сетей для другой модели, что эксперт или приложение может требовать. Например, в вычислительной биологии и экономики, разреженные линейные модели часто предпочитают, в то время как в сложных областях приборных таких как полупроводниковые производство, инженеры предпочитают использовать деревья решений. Таких проще интерпретируемые модели могут завоевать доверие у экспертов и предоставить полезную информацию ведущим к открытию новых и ранее неизвестных фактов. Наша цель-наглядно показано ниже, для каждого конкретного случая, в котором мы пытаемся улучшить представление дерева решений.

Предполагается, что наша сеть-это высокопроизводительный учитель, и мы можем использовать некоторые данные, чтобы научить простой, интерпретируемых, но, как правило, малоэффективные модели студента. Образцы весом по их трудности может помочь простая модель в сосредоточении на более легких образцов, которые он может успешно моделировать при обучении, и, следовательно, достижения более высокого уровня производительности. Наша установка отличается от повышения: с таким подходом, сложные примеры по отношению к предыдущей "слабых" учащихся выделены для последующего обучения, чтобы создать разнообразие. Здесь, сложные примеры с точной комплексной модели. Это означает, что эти метки расположены возле случайным. Более того, если сложная модель не может решить эти вопросы, остается мало надежд на простую модель с фиксированной сложностью. Поэтому важно в наши установки, чтобы выделить легкие примеры, что простые модели могут разрешить.

Для этого мы присваиваем веса образцов в зависимости от сложности сети, чтобы классифицировать их, и мы делаем это путем введения зондов. Каждый зонд получает входные данные от одного из скрытых слоев. Каждый зонд имеет один полностью подключен слоем softmax в размер выходного сетей, присоединенных к нему. Зонда в слое I служит классификатор, использующий только префикс сети до уровня я. Предполагается, что легкие случаи будут правильно классифицированы с высокой степенью достоверности даже с первых зондов слой, и таким образом мы получаем уровень доверия Пи от всех зондов для каждого из экземпляров. Мы используем все пи для расчета экземпляра сложности Висконсин, например, как площадь под кривой (AUC) для ИП.

Теперь мы можем использовать веса, чтобы переквалифицироваться простой модели на конечный взвешенный набор данных. Мы называем этот трубопровод зондирования, получения Весов доверия и переподготовки ProfWeight.

Вторая альтернатива предполагает оптимизации с использованием нейронной сети

Мы представляем два варианта, как мы вычисляем веса для примеров в наборе данных. В подходе АУК уже упоминалось выше, мы отмечаем ошибки/точность простой модели, когда обучение на исходный набор данных для обучения. Мы подбираем датчики, которые имеют точность не менее α (> 0) больше, чем в простой модели. Каждый пример взвешенной основе, средний балл доверия к истинной метки, которая вычисляется с помощью индивидуальных мягкий прогнозы от зондов.

Вторая альтернатива предполагает оптимизации с использованием нейронной сети. Здесь мы узнаем оптимального веса для учебно-тренировочного комплекса по оптимизации следующие цели:

С*=minw minß е[λ(Swß (х),г)], суб. для. Е[Вт]=1

где ж такие весы должны быть найдены для каждого экземпляра, β обозначает пространство параметров простой модели S и λ является функцией потерь. Мы должны ограничивать веса, так как в противном случае тривиальное решение все коэффициенты к нулю будет оптимальным для указанной выше цели. Мы показываем, что наши ограничения из Е[Вт]=1 имеет подключение к нахождению оптимального значения выборки.

ProfWeight может быть использован для передачи

В целом ProfWeight может быть использован для передачи еще проще, но непрозрачные модели, такие как небольшие нейронные сети, которые могут быть полезны в областях с тяжелыми память и ограничения мощности. Такие ограничения испытывали при развертывании модели на периферийных устройствах в системы IoT или на мобильных устройствах или на беспилотные летательные аппараты.

Мы проверили наш метод на двух доменах: набор данных публичных CIFAR-10 изображение и запатентованной технологией изготовления набора данных. На первом наборе данных, в нашей простой модели были меньше нейронные сети, которые соответствовали бы строгим память и ограничения мощности и где мы видели 3-4-процентное улучшение. На втором наборе данных, наша простая модель дерева решений и мы значительно улучшили его на ~13%, что привело к действенные результаты инженером. Ниже мы изображены ProfWeight в сравнении с другими методами на этом наборе данных. Мы видим здесь, что мы превосходят другие методы по совсем некоторым запасом.

В будущем мы бы хотели найти необходимые/достаточные условия для перехода нашей стратегии приведет к улучшению простые модели. Мы также хотели бы разработать более совершенные способы передачи информации, чем мы уже сделали.

Мы представляем эту работу в документе под названием "Улучшение простые модели с уверенностью профили", в 2018-конференции на нейронные системы обработки информации, в среду, 5 декабря с 5:00 – 7:00 в комнате 210 & 230 АБ (#90).

По материалам phys.org