Анна Вергелес и Наталья Манакова занимаются Data Science направлением в Oracle. Имел возможность пообщаться перед их докладом на Highload fwdays, и вот, что получилось

Nataliia_Manakova

Как вы выбирали направление DataOps, Data Science?
Наталья: У нас с Анной вообще очень разные пути и судьбы, но начинались они одинаково — мы обе закончили прикладную математику в одном университете, в ХНУРЭ (Харьковский национальный университет радиоэлектроники). Я выбрала математику, так как всегда считала, что это «мое». А то, что постепенно стала DataOps-ом — это карьерный путь.

Когда говорят, что разработчикам нет необходимости получать профильное высшее образование, заблуждаются?
Наталья: Если мы говорим о разработке, которая заключается, например, в перерисовке цвета для кнопочки, может быть, и да — высшее образование не нужно. А если мы говорим о моделях, которые необходимо изобрести, натренировать и выпустить в продакшн, то здесь без образования, особенно математического, никак.

«Правильно заданный вопрос — это, практически, половина решения»

Как происходит этот процесс «от и до» — от модели до продакшн-решения?
Наталья: В целом, обычный путь:

  • понять, что хотим;
  • попытаться придумать, как научить машину это делать;
  • оценить результат, возможно, циклически несколько раз повторить...

Анна: Если не хватает данных, добавить данных.
Наталья: … и добиться той цели, которую вы поставили. Правильно заданный вопрос — это, практически, половина решения.

Как проходит ваш рабочий день?
Анна: Мы работаем командой, потому есть обязательные небольшие митинги с самого утра. Обязательные обсуждения каких-то рабочих моментов. А в дальнейшем каждый занимается своими задачами: кто-то математикой, кто-то кодингом, кто-то документацией, кто-то исследованием,
Наталья: … а иногда и всем сразу.

Ваша задача состоит в том, чтобы сначала описать модель математически?
Наталья: Нет, сначала необходимо понять, работает ли она вообще. А то мы можем потратить зря много человеко-часов, чтобы ее красиво описать, а модель будет не рабочая. А чтобы понять, будет ли она работать, возвращаемся к технике правильно заданных вопросов. В случае правильно заданного вопроса, создаем модель, которая должна его реализовать. Протестировали потом, например, на какой-то части наших данных (ведь мы работаем с Big data), и если результат коррелирует с вопросом, значит можем двигаться дальше в этом направлении и улучшать модель, добавлять/убирать что-то и так далее. И только, когда уже есть процесс, начинаем его документировать. Но да, постановку задачи мы тоже документируем, чтобы не забыть, с чего все начиналось, но это еще не описание модели.

Какие инструменты вы используете для своей работы?
Наталья: Много чего, прежде всего — мозг.
Анна: Часть работы делается на R — чисто математическая, а для всего остального выбираются те инструменты, которые подходят для конкретной задачи. Мы редко используем одни и те же.

Часто приходится делать что-то самописное?
Наталья: Очень, конечно. Особенно на этапе ресерча. Использовать готовые библиотеки, конечно, замечательно. Но когда мы начинаем их применять в реальной жизни, то либо тот, либо иной параметр нам может быть излишним, или его может не хватать, что будет затруднять работу. В Open Source мы не выкладываем свои наработки по правилам корпоративной этики, но часто выступаем на конференциях, где рассказываем о своих результатах и практиках.

Как реабилитировать украинскую науку? В чем она нуждается?
Наталья: Сложно сказать, в чем она НЕ нуждается. Мне хочется верить, что «точка дна» уже пройдена, потому что несколько лет назад было совсем плохо. Когда появились возможности подаваться на гранты, выигрывать гранты, публиковаться в иностранных журналах, то, считаю, что замелькал свет в конце туннеля. Хотя бы появились варианты. Понятно, что они недоступны массово, и наука не получает никакой поддержки от государства, но когда есть возможности, — это уже большой плюс.

«Искусственный интеллект — это реальность, просто о нем очень много мифов»

Искусственный интеллект — это миф или реальность?
Наталья: Искусственный интеллект (дальше ИИ) — это реальность, просто о нем очень много мифов. ИИ создавался для того, чтобы создать альтернативу человеческому мозгу. Но до сих пор существуют такие вещи, которые машина не может заменить. И одна из этих вещей — принятие решений, особенно на основе большого количества факторов. В любом случае, думаю, что у ИИ еще долгий путь развития.
Анна: У нас все же немного не та отрасль — она больше о принятии решений. То есть не чистый ИИ как таковой, а некоторые инструменты, которые помогают человеку принимать решения. Поэтому я не уверена, что мы настолько эксперты в этой области, чтобы давать расширенную информацию.

Как менеджить исследования?
Анна: Прежде всего, нужно определить, что мы улучшим с помощью нашего исследования. Допустим, если оно отвечает бизнес требованиям, улучшает качество или снижает стоимость продукта, можно считать его полезным и создавать на исследование проектные часы. Процесс всегда поэтапный (итерационный). В Oracle процессы формализованы, но при этом достаточно свободный график продвижения. Есть определенные milestones — когда к определенному сроку мы должны принять решение, работаем ли мы дальше в этом направлении, либо отказываемся от него в пользу чего-то другого. То есть, присутствует какой-то срок на предварительное исследование, а дальше — принятие решений, что делать с этим. Когда уже выходим на стадию продукта, то уже полный процесс разработки.

«Data Science — обучение длиною в жизнь»

Что бы вы посоветовали людям, которые сегодня выбирают для себя направление DataOps/Data Science?
Наталья: Учите математику. Математика — это Вселенная, возведенная в ранг числа. Data Science — обучение длиною в жизнь. DataOps-ы / Data Scientist-ы — это и разработчики, и те, кто знают математику, кто умеют ее применять и желают учить постоянно, так как она постоянно развивается.

Как обучаться наиболее эффективно?
Анна: Все, конечно, зависит от того, чему обучаться. Если мы говорим о научных исследованиях, конечно, это высшее образование. Курсы его не заменят. Я после полного высшего образования дополнительно проходила курсы, они очень хорошо усваиваются на базе высшего образования. Но, думаю, что было бы очень сложно, если бы были только курсы. Даже украинские ВУЗы могут дать хороший фундамент, как минимум, могу основывать мнение на примере своего обучения в ХНУРЭ.

«Обучение — это не столько то, что дают, сколько то, что добываешь самостоятельно»

Совет двадцатилетним:
Анна: Дерзайте!
Наталья: На мой взгляд, самая выгодная позиция в данном возрасте — активное обучение. Обучение — это не столько то, что дают, сколько то, что добываешь самостоятельно. Если к обучению будет потребительский подход, то эффект будет гораздо ниже, чем если вы приступите как активный участник.