Инструменты для анализа больших данных следующего поколения. Новый инструмент для анализа больших данных, разрабатываемый учеными-программистами из Вустерского политехнического института (WPI), поможет компаниям в реальном времени осознать поток данных, которые текут по ним, как вода из пожарного рукава.

Элке Ранденштайнер (справа), профессор компьютерных наук в Вустерском политехническом институте (WPI) и аспирант Эллисон Розет, стоят возле испытательного стенда автономного транспортного средства, используемого в исследованиях в WPI. Аналитические инструменты, которые разрабатывают Rundensteiner и Rozet, могут сделать автомобили без водителя более безопасными, анализируя потоки данных с транспортных средств в режиме реального времени. Фото: Вустерский политехнический институт

Получив трехлетний грант в размере 499 753 долл. США от Национального научного фонда, Эльке Рунденштайнер, профессор компьютерных наук и директор программы по науке о данных WPI, возглавляет группу студентов, изучающих компьютерные науки и данные, которые занимаются анализом тенденций событий следующего поколения. инструмент, известный как SETA (Scalable Event Trend Analytics). Это программное обеспечение с открытым исходным кодом будет использоваться не только для поиска шаблонов в потоках данных большого объема в режиме реального времени («данные в движении»), но и для анализа этих шаблонов и оперативного их определения на лету. принятие решения.

SETA может позволить крупным предприятиям, социальным сетям, центрам обнаружения мошенничества, автономным сетям транспортных средств, правительствам и другим пользователям использовать непрерывный поток больших данных по мере их поступления и преобразовывать их в действенные идеи, которые могут позволить им быть более отзывчивыми и конкурентный. «В мире, где большие объемы данных постоянно увеличиваются в объеме и скорости, анализ потоковых данных в режиме реального времени становится все более критичным», — сказал Ранденштайнер, международно признанный эксперт в области масштабируемой обработки потоков данных.

Обработка событий — это способ отслеживать и анализировать поступающие потоки информации, такие как онлайн-покупки, рост и падение цены акций, продолжительность пребывания пользователей на веб-сайте или мытье рук медицинских работников перед входом в комнаты пациентов. , Все дело в том, чтобы отмечать важные события во входящих данных, чтобы организация могла реагировать на них в режиме реального времени. SETA сможет обрабатывать сложные запросы и аналитику, предоставляя пользователям обобщенную информацию дешевле и быстрее, чем это возможно в настоящее время.

Ранденштайнер отметил, что большинство существующих инструментов анализа данных не предназначены для работы с потоковыми данными. Вместо этого информация должна храниться в статической базе данных, прежде чем ее можно будет проанализировать, что приводит к задержке, которая может помешать быстрому обнаружению, например, начала вспышки инфекционного заболевания в больнице. Инструменты Rundensteiner работают с данными в процессе их генерации, позволяя обнаруживать даже сложные шаблоны в реальном времени, что позволяет быстро принимать важные решения.

«Потоки данных растут с огромной скоростью, подавляя компании, которые не могут понять их данные в режиме реального времени», — сказал Ранденштайнер. «Находя способы обработки этих потоков, мы открываем новые возможности в анализе данных. Вы можете поместить все эти большие данные в статическую базу данных и посмотреть на нее позже, но если вы хотите поймать мошенническую покупку кредитной карты, когда она происходит, или предупредить сеть автономных автомобилей о предстоящей аварии, вам нужно проанализировать эту информацию как он поступает со скоростью десятков тысяч фрагментов данных в микросекунду».

Получив новую награду, Rundensteiner будет опираться на свое предыдущее исследование NSF в области аналитики потоков событий, которое было сосредоточено на поиске шаблонов потоковой передачи данных. Эта работа (в сотрудничестве с бывшими аспирантами Ольгой Поппе, научным сотрудником Microsoft Grey Systems Lab, Чуаном Лей, научным сотрудником IBM Almaden Research Center и Ди Вангом, научным сотрудником в Facebook), дала аналитические инструменты, позволяющие пользователям запрашивать поток данных для относительно простых последовательностей событий. Но если программное обеспечение обнаружит много экземпляров одинаковых или похожих последовательностей и отобразит их все, пользователь часто будет перегружен и пропустит значительные закономерности или общие тенденции в разных узорах.

Вместо того, чтобы отображать обнаруженные последовательности одну за другой, новый инструмент, который разрабатывает Rundensteiner, объединит эти шаблоны и покажет пользователю, сколько раз каждый из них встречается. «Показывая всплеск ненормальной активности, система позволяет очень быстро увидеть, что происходит», — сказала она. «Иногда меня больше интересует отклонение от типичного количества паттернов, потому что тогда я сразу узнаю, происходит ли что-то ненормальное. Если один автономный автомобиль поворачивает, это может ничего не значить. Но если тысячи автомобилей на одном и том же отрезке дороги демонстрируют отклоняющееся поведение, то происходит нечто реальное. Затем вы можете глубже изучить этот конкретный набор данных, чтобы изучить это неожиданное поведение».

Разработка инструментов для более глубокого изучения этих совокупностей шаблонов является еще одним элементом исследования SETA. Rundensteiner хочет дать пользователям возможность искать более сложные шаблоны. Например, в то время как ее предыдущий инструмент мог использоваться для поиска последовательности фиксированной длины (скажем, экземпляры транспортного средства, активирующие тормоза, поворачивающие и затем останавливающие), она хочет сделать это возможным с помощью одного простого потокового запроса. для определения последовательностей, включающих неограниченное количество экземпляров (например, автомобиль, который поворачивает неизвестное количество раз, многократно тормозит, а затем останавливается). По ее словам, хотя число потенциальных совпадений с таким запросом может возрастать в геометрической прогрессии из-за сложности языка запросов, результаты обещают быть более полезными.

Чтобы создать новые инструменты для анализа тенденций событий, Rundensteiner должен сначала спроектировать новый язык запросов, который используется для поиска и получения шаблонов в данных. Позволяя пользователям искать более сложные шаблоны, новый язык значительно облегчит использование инструмента. Она также создает новый «механизм запросов» для обработки этих сложных запросов и поиска запрошенных шаблонов или событий. Распределенный механизм, он будет работать на нескольких серверах в облачной сети, значительно увеличивая его скорость.

«Создание этого двигателя является ключевой частью проекта», — сказала она. «Традиционно механизм может генерировать все ответы на запрос, сохранять их, а затем начинать их подсчитывать. Это слишком много времени и дорого. Современные технологии могут обрабатывать сложные запросы часами или даже дольше. Наши займут несколько секунд. Нет смысла задавать эти большие вопросы, если вам придется ждать ответы несколько дней».

Новое программное обеспечение для анализа тенденций событий, которое она разрабатывает вместе с Эллисон Розет, доктором философии. Кандидат в науку о данных будет проверен с использованием реальных наборов данных и приложений, предоставленных центром здравоохранения и компанией по обработке финансовых транзакций.

«В области здравоохранения это может спасти жизни», — сказал Ранденштайнер. «Мы могли бы обнаружить закономерности, которые показывают, как распространяется инфекция. Мы могли видеть, когда, например, сотрудники не надевают хирургические халаты и не моют руки. Таким образом, мы можем видеть проблемы по мере их развития, поэтому мы можем видеть, откуда возникают проблемы. Мы создаем более совершенные инструменты для получения ответов, которые нам нужны, от растущего потока поступающей информации».

По материалам phys.org