Наука о данных — развивающаяся область. Мир наводнен данными. Вокруг земного шара происходит виртуальное цунами, которое ежедневно обновляется. Взять только мировые финансовые рынки. Они генерируют огромное количество данных — цены на акции, цены на сырьевые товары, индексы, цены опционов и фьючерсов, и это лишь некоторые из них.

Недостаточно иметь данные под рукой — ученый должен знать, как их применять. Фото: Городенкофф / Shutterstock

Но данные бесполезны, если нет людей, способных собирать, сопоставлять, анализировать и применять их на благо общества. Все эти данные, генерируемые глобальными финансовыми рынками, используются для управления активами и активами — и их необходимо должным образом анализировать и понимать для принятия правильных решений. Вот где приходит наука о данных.

Основная цель науки о данных состоит в извлечении информации из данных в различных формах, как структурированных, так и неструктурированных. Это междисциплинарная область, охватывающая все: от прикладной математики до статистики и искусственного интеллекта до машинного обучения. И это растет. Это связано с достижениями в области компьютерных технологий и скорости обработки, относительно низкой стоимостью хранения данных и огромной доступностью данных из Интернета и других источников, таких как глобальные финансовые рынки.

Конечно, для того, чтобы наука о данных происходила, вам нужны специалисты по данным. Поскольку наука о данных так широка по своему охвату, то, что ученый по данным, охватывает широкий спектр профессий. К ним относятся статистики, исследователи операций, инженеры, компьютерщики, актуарии, физики и машиностроители.

Это разнообразие не обязательно плохо. Из моего собственного практического опыта я быстро узнал, что при решении задач по науке о данных вам нужен широкий круг людей. Некоторые могут углубленно работать над теорией, а другие могут исследовать область применения.

Но как подготовить этих ученых-данных, чтобы они были готовы к предстоящим проблемам с большими данными?

Исследователи данных обычно используют инновационные математические методы из своих собственных подполей, чтобы попытаться решить проблемы в конкретной области применения. Области применения — финансы, здравоохранение, сельское хозяйство и астрономия — лишь некоторые примеры — очень разные. Это означает, что каждый из них создает разные проблемы, и поэтому ученым, работающим с данными, нужны знания о конкретной области применения.

Например, рассмотрим астрофизику и массив квадратных километров, строящийся на южной оконечности Африки. Это будет самый большой в мире радиотелескоп, когда он будет завершен в середине 2020-х годов. Говорят, что массив телескопов принимает данные со скоростью один терабайт в секунду, и исследователи, как правило, заинтересованы в анализе массы данных для обнаружения крошечных сигналов, поглощенных белым шумом.

В области финансов исследователи используют большие базы данных совершенно по-разному: например, чтобы узнать больше о кредитном поведении своих клиентов.

Наиболее известными областями науки о данных являются исследования в области статистики и операций, и, возможно, было бы целесообразно извлечь уроки из уже существующих учебных программ в этих областях. Достаточно ли готовят университеты выпускников в этих областях? И это обучение достаточно хорошо?

Хотя студенты в этих областях хорошо подготовлены академически, многим выпускникам в области статистики и оперативных исследований не хватает знаний об областях, в которых они должны применять математические методы. Они также склонны бороться с реальными способностями решения проблем, а также с недостатком навыков численного программирования и обработки данных. Это потому, что эти навыки не учитываются во многих учебных программах.

Итак, исходя из этих недостатков и уроков устоявшихся подполей науки о науке, чему должны учить университеты начинающих ученых-данных? Вот мой список.

  • Математические и вычислительные науки, включая курсы по статистике и теории вероятностей, искусственному интеллекту, машинному обучению, операционным исследованиям и информатике.
  • Навыки программирования;
  • Навыки управления данными;
  • Знание предмета в выбранных областях применения; а также
  • Профессиональные навыки решения проблем.

Этот список может быть расширен на уровне аспирантуры. И на уровне бакалавриата или магистратуры все эти курсы должны иметь практический элемент. Это позволяет студентам развивать как профессионализм, так и навыки решения проблем.

Например, в Центре бизнес-математики и информатики в Северо-Западном университете Южной Африки мы с коллегами организовали программу профессиональной подготовки, в рамках которой студенты в течение шести месяцев работают в компании-клиенте для решения конкретной отраслевой проблемы. Эти проблемы в основном в финансовой сфере; например, модели для прогнозирования способности и готовности клиента платить, модели для улучшения коллекций и модели для выявления мошенничества.

Это помогает студентам развить необходимые навыки для работы в рабочем мире, обработки реальных данных и применения их к реальным задачам, а не просто работы на теоретическом уровне. Кроме того, как мы с коллегой утверждали в предыдущих исследованиях, это помогает устранить разрыв между наукой и промышленностью и, таким образом, делает науку о данных более актуальной. Программы ИМТ признаны и одобрены международными экспертами.

Наука о данных, как область, будет только расти в ближайшие десятилетия. Крайне важно, чтобы университеты обучали выпускников, которые могут обрабатывать огромные транши данных, тесно сотрудничать с отраслями, которые производят и применяют эти данные, и делать данные такими, которые могут изменить мир к лучшему.

По материалам phys.org