Бытует мнение, что Data Science (DS) — исключительно научная сфера, которая оторвана от реальности и занимается созданием Высшего разума для порабощения человечества. К тому же в ней сложно освоиться и почти нереально найти работу в успешном бизнесе. (Шутка)

В то же время тенденции Data Science показывают обратные результаты: повышение спроса на специалистов, курс на упрощение и прозрачность процессов. И все это происходит на фоне реальных работающих бизнес-кейсов и инновационных решений. Мы поговорили с тремя экспертами в Data Science и рекрутинге о том, так ли страшна эта сфера и какие тренды в ней прослеживаются.

Благодарим за ответы:

  • Александра Турчина — Senior Data Science-специалиста в компании Skelia, обладателя степени PhD и MBA;
  • Евгения Сороку — Middle Data Science Engineer-специалиста в компании «Делойт» в Украине;
  • Николая Клестова — CTO IT-рекрутингового агентства ITExpert, консультирующего клиентов в подборе Data Science-специалистов.

Спрос на развитие технологий в Data Science связывают с ростом количества данных для обработки. Никакая типичная система (или обычный человек) не справится со сбором и анализом нынешнего количества данных, а ведь данных становится больше с каждым днем.

Евгений Сорока

«XXI век — это век данных. Из-за развития IT количество информации на носителях памяти с каждым годом растет экспоненциально. Сбор данных затронул буквально каждый уголок человеческой жизни. Data Science-специалисты в первую очередь помогают упорядочить, собранные данные и извлечь из них выгоду.»

Ранее это направление было исключительно сложной, глубоко научной деятельность, оно было закрыто для “рядовых” программистов, а бизнесу казалось неоправданным вложением: стоит дорого, да и готовых решений еще нет. Сам Data Science и правда ассоциировался с созданием Искусственного Интеллекта (ИИ) как системы, которая могла бы решать разноплановые задачи и самообучаться.

Сейчас ситуация кардинально изменилась, хоть и вопрос с ИИ остается открытым. Бизнес теперь отчетливо понимает, что, вкладывая в DS, он получит оптимизацию затрат, анализ разных закономерностей, которые влияют на его доход (в том числе неочевидных), а также прогнозирование глобальных процессов. Решается проблема “больших данных”. Для некоторых компаний DS легла в основу продукта или услуги, которые они предоставляют. Не важно вы B2B или B2C — Data Science-разработки найдут практическое применение. Поэтому мир захватить сейчас могут только котики.

Александр Турчин

«Сейчас интерес бизнеса к Data Science, на мой взгляд, связан в большей степени с широкими возможностями применения. Те же производственные предприятия, как правило, обладают огромными массивами исторических данных, которые можно было бы обработать и извлечь из них ценные знания. К тому же для успешной работы необходимо четко формировать бизнес-задачу, обоснованно оценивать потенциальный результат и понимать влияние от внедрения своего решения на остальные бизнес-процессы.»

Положительное влияние DS на себе уже почувствовали “Умные города”. Так сбор и аналитика данных ежедневно помогают улучшать жизни людей: активно работают технологии для предупреждения пробок, отслеживается и регулируется чистота воздуха, а если соседи слишком шумят, специальные системы предупреждают их или автоматически вызывают полицию (удобно, правда?), — и это все только верхушка айсберга! Пусть вам не кажется, что это далекие от нас технологии, DS-разработки уже давно нашли применения в нашей ежедневной рутине.

Евгений Сорока

“Приведу экзотические примеры из среднего и крупного бизнеса. Супермаркет по данным с камер наблюдения и при помощи DS-специалистов определил траекторию движения и остановку покупателей. Это помогло продумать логику расставления полок с товарами и понять поведения покупателя. Следующий пример из большого бизнеса, компания Tesla, лидер по производству электротранспорта, при помощи специалистов из DS создала лучший автопилот для транспорта в мире на данный момент.”

Наглядно показать повышенный спрос на технологии Data Science в бизнесе поможет статистика по открытым позициям. Количество вакансий в Data Science направлении растет, достаточно стабильно, если не сказать бурно. Мы систематизировали данные по открытым позициям с ресурса Dou с начала 2017 года. Так можно увидеть на графике, количество вакансий по этому направлению каждый год увеличивается в среднем на 48,3%. Например, в 2017 году среднее количество открытых вакансий в месяц по направлению Data Science было около 21-22, а уже в 2019 году поднялось до 83.

В 2020 “что-то пошло не так”. Если бы не карантин, который негативно повлиял на вакансии в каждой сфере, прогнозировался рост до почти 2000 вакансий. Реалии же стали такими: в начале года было открыто 103 позиции, в марте их количество уменьшилось до 74 и это число все еще стремительно сокращается. Но будем надеяться, что потребность в Data Science-специалистах сработает как пружина, и после карантина появится множество интересных позиций.

Николай Клестов

“Думаю, что для многих компаний Data Science-сфера до сих пор связана с высокими рисками и необязательна для бизнеса, а потому оказалась первой подвержена заморозке на период кризиса. Но эта эпидемия отчетливо продемонстрировала нам преимущества инноваций, многих успехов удалось добиться именно благодаря DS-решениям. Так что новая волна уже осознанных инвестиций в бигдату и машинное обучение не заставит себя ждать.”

При активном росте базовые требования к Data Science-специалистам не поменялись. От разработчиков ожидают то, что называют “math-oriented intelligence”, или проще — математическое или аналитическое мышление, что, конечно, отражается на общих hard skills.

Евгений Сорока

“Что касается требований к DS-специалистам, то они не изменились. Знания статистики, линейной алгебры, теории вероятностей, структуры данных, а также владение языком программирования — must have как база.”

Дефицит разработчиков Data Science-профиля на рынке сравнительно не такой большой. С одной стороны, есть множество программ, которые находят талантливых людей еще на этапе обучения, а с другой — дефицит компенсируют переходом специалистов из смежных позиций по обработке данных.

Александр Турчин

“Сейчас зачастую наблюдается миграция от Data Analyst в Data Scientist. К аналитикам данных выдвигают новые требования, например, понимание работы регрессионных моделей или базовые навыки работы в области NLP. Благо, сейчас доступно большое количество обучающих материалов и литературы.”

Пока разделение между научным и бизнес-направлением в использовании Data Science остается актуальным. Отдельные технологии все еще условно носят название “научное”, но другие — уже нашли активное применение в бизнесе. В целом динамика положительная.

Александр Турчин

“Если бизнесу нужно простое прогнозирование оттока клиентов, вряд ли ему понадобится reinforcement learning, равно как исследование сходимости нового метода бустинга не очень интересно бизнесу. Но в то же время все больше бизнесов открывает для себя преимущества внедрения AI технологий.”

Ярким, но спорным примером остаются технологии обучения с подкреплением (Reinforcement Learning). С одной стороны, они ближе всего подошли к тому самому Искусственному Интеллекту, а с другой — активно применяются и в бизнесе. Сейчас это одно из самых популярных направлений Data Science.

Евгений Сорока

«Большая часть работ продолжает развивать традиционные направления обучения с подкреплением — DOTA2, Starcraft, соединение архитектур с компьютерным зрением, NLP, графовыми базами данных.”

Так что стоит рассматривать конкретные кейсы применения разработок DS. Востребованы разработки в различных сферах: финансы, кредитование, робототехника, медицина, маркетинг и торговля и многие другие.

Александр Турчин

«С точки зрения науки, наиболее передовые вещи происходят в области deep learning, RL. В то же время классические задачи, например, кредитный скоринг, по-прежнему востребованы на уровне специалистов. Поэтому наибольший интерес, с точки зрения классических задач машинного обучения, на мой взгляд, будут представлять конкретные кейсы применения — Industry 4.0 например. Классические кейсы для Data Science: fraud detection, кредитный скоринг, прогнозирование сбоев, оттока, кластеризация клиентов и better customer experience вообще, определение аномалий. Интерес представляют конкретные сферы применения: в моем случае это, например, сельское хозяйство.»

Отдельное внимание стоит уделить методологиям верификации моделей и защиты от атак. Безопасность данных — всегда актуальная проблема, но в последнее время ей начали уделять повышенное внимание с точки зрения бизнес-продуктов.

Николай Клестов

“Актуальная сейчас проблема — неустойчивость полученных результатов к специально подобранным шумам или другим малозаметным человеку модификациям входящих данных, которые заставляют модель ошибаться. Черточка на знаке, которая заставит автомобиль попасть в аварию, макияж, который сделает преступника “невидимым” для камер — в мире, где мы полагаемся на решения машин, такие ошибки могут стать фатальными. Задача этого направления — научиться противостоять подобного рода воздействиям.”

Особое место в перечне популярных направлений занимает и Computer Vision (CV). Сейчас CV делится на 3 “кита”:

  • распознавание предметов и информации на изображениях (от сканеров документов до самоуправляемых автомобилей),
  • индивидуальное распознавание мимики и эмоций человека (deepfakes, спецэффекты в фильмах, HR-помощники),
  • отслеживание больших групп людей (городские системы слежения с распознаванием лиц, маркетинговые исследования и другое).

Александр Турчин

“На специалистов в области computer vision имеется спрос в различных областях: от автомобильной индустрии до потокового производства. Но реализация таких проектов носит специфический характер — в моем проекте, например, мы внедрение computer vision отложили на 2-3 месяца, чтобы детально прописать архитектуру. Кроме того, в таких проектах есть большой фокус на производительность.”

Также большой спрос получила сфера обработки естественного языка (NLP). Если в 60-х годах основной задачей NLP был перевод и простейшие диалоговые системы, то сейчас она широко используется в голосовых помощниках, чат-ботах, “умном” поиске, различной работе с документами. Шутка об “оживших роботах” все-таки актуальна.

Николай Клестов

“Сфера NLP иногда смежная с лингвистикой. Большого успеха удалось добиться благодаря векторному представлению слов, так что знание инструментов из этой сферы часто необходимо.Отдельно стоит говорить о распознавании живой речи, так как оно смежно со следующим направлением — Digital signal processing. Это более широкая сфера по обработке аудиовидеосигналов, где комбинируются ML и классические задачи. Обычно требуются навыки работы с аудиовидео кодеками и СС++.”

Всегда актуальными остаются задачи обработки экономических и маркетинговых данных, эконометрика. Кроме исследований и прогнозирования, можно найти такие примеры применения DS в этих сферах: предсказание успешности, анализ конкурентоспособности, рекомендации по тому, в какой части города лучше открыть заведение, изучение эмоций потребителей, сегментация клиентов (например, в Email-маркетинге), персонализация и управление лояльностью.

Николай Клестов

“Эконометрика — самое мачурное из всех ML и BigData направлений — истинный DataSciense. Тут редко встретишь стартаперский дух, зато работа стабильная и востребованная всегда. В этой сфере особенно полезен математический бэкграунд, а также желательны знания в экономике. В этой сфере достойную конкуренцию Python составляет язык R.”

Глобальным трендом в Data Science стала мультидисциплинарность и влияние нейронауки. Некоторые специалисты склоняются к тому, что это тренд отдаленного будущего, говоря о том, что объединение нейронауки и нейронных сетей даст начало классу алгоритмов для решения принципиально новых задач. Другие уверены, что влияние мультидисциплинарности ощутимо уже сейчас и оно положительно сказывается на общем результате (можем назвать это модным словом “синергия”). Так помощь в понимании проблемы и специфики конкретной сферы дает возможность DS-специалистам разработать более качественный продукт.

Евгений Сорока

«Чтобы обеспечить надежную проверку и разработать механизмы проверки и пополнения знаний, нужны специалисты смежных областей, одновременно обладающие компетенциями в машинном обучении как части DS, так и в предметной области (медицине, лингвистике, нейробиологии, образовании и т.д.). Особенно стоит отметить более значимое присутствие работ и выступлений по нейронаукам и когнитивным наукам – происходит сближение специалистов и заимствование идей.”

Если же мы переместимся от глобальных трендов к более практическим тенденциям, стоит поговорить о языках программирования. В Data Science особое место занимает Python. Это объектно-ориентированный язык с открытым исходным кодом, он гибок и относительно прост для изучения. Еще одна веская причина использовать его — большое количество готовых решений, библиотек и инструментов для Data Science, а также большое комьюнити, готовое помочь с любой проблемой.Конечно, в DS используются и другие языки. Так в рейтинги популярных часто входят: R, CC++, Java, Scala.

Николай Клестов

“Учитывая растущую популярность Python как backend-языка в целом (количество вакансий удвоилось за последние 3 года), это однозначно лучший выбор для любого проекта, связанного с ML. Вспомогательным к Python часто идёт C/C++, когда необходимо работать с графическими ускорителями, а также популярными распределенными вычислениями с использованием CUDA.Тем не менее небольшую конкуренцию в отдельных проектах ему составляют Java (для Big Data направления) с вспомогательным Scala для распределенных вычислений, R (для маркетинговых и экономических исследований).”

Отдельно обсудим кейс использования PySpark для Big Data. Этот инструмент дает доступ к работе с фреймворком Spark на Python. И нет, мы не будем говорить, что ленивые разработчики не хотят осваивать Java. Дело в том, что развитие экосистемы Hadoop (Spark — один из центральных ее инструментов) существенно влияет на работу в Data Science. Таким образом, мы не могли не заметить и рост популярности инструмента, который так облегчит жизнь разработчиков и позволит объединить BigData и ML решения в рамках одного Python проекта.

Александр Турчин

“Экосистема Hadoop представляет широкий спектр возможностей для обработки больших данных. И особое место в этой архитектуре занимают такие фреймворки, как Spark и Tez (уходящие корнями к MapReduce), позволяющие эффективно распараллелить вычисления и существенно повысить быстродействие. При этом, с ними удобно работать непосредственно из Python – что существенно облегчает работу Data Scientist. Следует заметить, что в основном потребители пользовались продуктами двух компаний: Cloudera и Hortonworks, разрабатывавших свои версии экосистемы Hadoop. В прошлом году произошло слияние Cloudera и Hortonworks – будем надеяться, это приведет к появлению новых, интересных решений.”

Ярким событием 2019-2020 года стали генеративно-состязательные нейросети (GAN). В основу легла “борьба” двух алгоритмов нейросетей: генератора и дискриминатора. Первый занимается созданием реалистичных образов-подделок, в то время как второй — их распознаванием. Так с каждым разом модели становятся только лучше. Методика уже начала применяться в создании фото, видеоизображений, анимации, детализации, улучшении качества и другой работы с видео и визуальными изображениями. О GAN говорят уже не первый год, но недавно они начали показывать впечатляющие результаты.

Николай Клестов

«Вклад генеративно-состязательных нейросетей в популяризацию DS сложно переоценить, теперь все знают что компьютер может нарисовать картину, придумать рецепт пиццы или записать death metal альбом. Реалистичные дипфейки с заменой актеров уже развлекают нас в интернете. Но пока все это находит мало применения в реальном бизнесе и вакансии с подобными технологиями вы врядли найдете. Но технология настолько хороша, что скорее всего продолжит развиваться и в ближайшем будущем, пока кто-то не придумает ей достойное применение.»

Евгений Сорока

“Потенциал GAN огромен, поскольку они имитируют любое распределение данных. GAN обучают создавать структуры, устрашающе похожие на сущности из нашего мира в области изображений, музыки, речи, прозы. Генеративно-состязательные сети, в некотором смысле, — роботы-художники и результат их работы впечатляет.”

PyTorch — восходящая звезда среди трендов. Это нейросетевая библиотека, которую активно развивает Facebook, использует Uber и многие другие большие компании. Она не похожа на другие популярные библиотеки, такие как Caffe, Theano и TensorFlow. Главное отличие состоит в удобном применении в сфере глубокого обучения: система обеспечивает максимальную гибкость и скорость при относительной простоте в использовании.

Николай Клестов

“PyTorch уже может соревноваться по числу упоминаний в вакансиях с Tensorflow — самой популярной нейросетевой библиотекой. Влияние мегакорпораций на развитие популярных фреймворков не стоит недооценивать. Благодаря огромному внутреннему комьюнити и богатым ресурсам, им удается добиться впечатляющих результатов за короткое время. Сейчас мы видим повторение ситуации с Angular и React: снова Google и Facebook борются за сердца и умы разработчиков. К счастью для нас, от этой борьбы все только выигрывают.”

Другой тренд этого периода — AutoML. Этот набор инструментов используется для автоматической подготовки данных к применению моделей машинного обучения. Особенность в том, что от пользователей не требуется специфических знаний в ML. Google создали доступный продукт для любого бизнеса, который существенно упрощает процесс разработки в ML. Это позволяет за минуту построить простую модель, а за день — готовый продукт. Это существенно экономить время (по словам разработчиков самого инструмента).

Евгений Сорока

“AutoML безспорно облегчит процесс создание моделей машинного обучения и обработку данных. Особенно для разработчиков, которые мало чего понимают в машинном обучении, но маленькую модель нужно прикрутить к продукту.”

Александр Турчин

“Существенный прогресс наблюдается в разработке инструментов, направленных на автоматизацию шагов ML-проекта. Некоторые библиотеки предлагают существенное сокращение времени на написание кода (например, открытая low-code библиотека машинного обучения PyCaret). Можно ожидать появления широкого спектра решений в этой области.”

Существует новый “прозрачный” подход к пониманию принятия решений технологиями Искусственного Интеллекта. Он закрепился в тренде “объяснимого ИИ” (более актуально для Data Science и Machine Learning). Перед разработчиками в сфере стояло несколько основных проблем с ИИ:

  1. Неаргументированный алгоритм принятия решения, что особенно остро стоит для сферы кредитования, финансирования, безопасности, медицины и так далее.
  2. Частые ошибки в принятии решений: например, кейс использования нейросети для полицейских, который дискриминировал подозреваемых по расовому признаку.
  3. Необходимость понимать неочевидные связи и зависимости, которые, возможно, ранее не учитывались в математических моделях.

Все эти проблемы, как и страх перед сверхинтеллектом, который погубит человечество, заставили программистов в Google создать новый класс алгоритмов “Объяснимого ИИ”. Так, алгоритмы дают доступ к модулям-пояснениям, деревьям решений, с помощью которых можно понять, почему модель приняла определенные решения.

Николай Клестов

“Использование «объяснимого ИИ» позволило устранить проблему недоверия между традиционными сферами бизнеса и «чёрным ящиком» ML. Бизнес получил необходимый им контроль, а вакансии, где в необходимых требованиях стоят деревья решений — уже не заставили себя ждать.”

Евгений Сорока

«Определение доверия к отдельным прогнозам является важной проблемой, когда модель используется для принятия решений. Например, при использовании машинного обучения для постановки медицинского диагноза или выявления терроризма. На слепую веру нельзя делать прогнозы, поскольку последствия могут быть катастрофическими.»

Выводы

Data Science как сфера, которая активно развивается бизнесом, уже отходит от исключительно научных подходов. Наблюдается общая тенденция к упрощению и прозрачности в технологиях. Эффективность и качество результатов работы DS-специалистов значительно выросло.

Александр Турчин

«Совершенствование инструментов машинного обучения, и повышение удобства их использования – вот основные тренды на ближайшее время. Также, в связи с последними событиями, могут получить дополнительный спрос технологии Smart City, особенно в сфере мониторинга и оптимизации логистики. Но в то же время, классические задачи машинного обучения по-прежнему актуальны и востребованы.”

Кроме того, DS все больше набирает обороты. Это показано как и в росте спроса на специалистов в этой сфере, так и в растущем интересом бизнеса. Технологии нашли применение почти в любой отрасли: от сельского хозяйства, экономики, безопасности до Ecommerce. В целом заметен тренд на мультидисциплинарность, DS глубоко проникает в нашу повседневность.