Тренды Data Science

ITExpert team14.05.2020

Тренды Data Science

Data Science — что это? Бытует мнение, что DS — исключительно научная сфера, которая оторвана от реальности и занимается созданием Высшего разума для порабощения человечества. К тому же в ней сложно освоиться и почти нереально найти работу в успешном бизнесе. (Шутка)

В то же время тенденции Data Science показывают обратные результаты: повышение спроса на специалистов, курс на упрощение и прозрачность процессов. И все это происходит на фоне реальных работающих бизнес-кейсов и инновационных решений. Мы поговорили с тремя экспертами в Data Science и рекрутинге о том, так ли страшна эта сфера и какие тренды в ней прослеживаются.

Специалисты Data Science: кто они и чем занимаются

Карьера в data science особенна тем, что есть очень большое разнообразие совершенно непохожих друг на друга позиций, технологий и сфер применений.

К примеру, Data scientist — это специалисты по сбору, хранению и обработке данных. Они помогают бизнесам обрабатывать огромный поток данных. В обязанности Data scientist входит правильная подготовка, анализ данных, построение моделей, их обучение и тестирование.

При этом в сфере есть и много других позиций. Big Data / Data Science Engineer, ML Engineer, Data Analyst, Data Engineer — только некоторые из основных направлений. Конкретная позиция определяет, чем занимается Data science-специалист: обработкой данных или их хранением. Также в сфере есть “вспомогательные” и новые профессии. Например, Data Entry помогает “обучать” нейросети, а MLOps помогает автоматизировать инфраструктуру в Machine Learning.

Про самые трендовые и востребованные навыки для специалистов Data Science мы поговорим далее.

Важно! В статье мы разобрали тренды в сфере и как они влияют на спрос и вакансии в Data Science. Текст ориентируется на читателя, который уже обладает знаниями в сфере. Если вы новичок или только выбираете профессию, советуем вам прочитать «Самые востребованные IT-профессии в 2022» или «Как найти работу в IT без опыта».

Зачем нужен data science и как он помогает бизнесу

Спрос на развитие технологий в Data Science связывают с ростом количества данных для обработки. Никакая типичная система (или обычный человек) не справится со сбором и анализом нынешнего количества данных, а ведь данных становится больше с каждым днем.

XXI век — это век данных. Из-за развития IT количество информации на носителях памяти с каждым годом растет экспоненциально. Сбор данных затронул буквально каждый уголок человеческой жизни. Data Science-специалисты в первую очередь помогают упорядочить, собранные данные и извлечь из них выгоду. Евгений Сорока

Ранее это направление было исключительно сложной, глубоко научной деятельность, оно было закрыто для “рядовых” программистов, а бизнесу казалось неоправданным вложением: стоит дорого, да и готовых решений еще нет. Сам Data Science и правда ассоциировался с созданием Искусственного Интеллекта (ИИ) как системы, которая могла бы решать разноплановые задачи и самообучаться.

Сейчас ситуация кардинально изменилась, хоть и вопрос с ИИ остается открытым. Бизнес теперь отчетливо понимает, что вкладывая в DS, он получит:

оптимизацию затрат,
анализ разных закономерностей, которые влияют на его доход (в том числе неочевидных),
прогнозирование глобальных процессов.

Решается проблема “больших данных”. Для некоторых компаний DS легла в основу продукта или услуги, которые они предоставляют. Не важно вы B2B или B2C — Data Science-разработки найдут практическое применение. Поэтому мир захватить сейчас могут только котики.

Сейчас интерес бизнеса к Data Science, на мой взгляд, связан в большей степени с широкими возможностями применения. Те же производственные предприятия, как правило, обладают огромными массивами исторических данных, которые можно было бы обработать и извлечь из них ценные знания. К тому же для успешной работы необходимо четко формировать бизнес-задачу, обоснованно оценивать потенциальный результат и понимать влияние от внедрения своего решения на остальные бизнес-процессы. Александр Турчин

Положительное влияние DS на себе уже почувствовали “Умные города”. Так сбор и аналитика данных ежедневно помогают улучшать жизни людей: активно работают технологии для предупреждения пробок, отслеживается и регулируется чистота воздуха, а если соседи слишком шумят, специальные системы предупреждают их или автоматически вызывают полицию (удобно, правда?), — и это все только верхушка айсберга! Пусть вам не кажется, что это далекие от нас технологии, DS-разработки уже давно нашли применения в нашей ежедневной рутине.

Приведу экзотические примеры из среднего и крупного бизнеса. Супермаркет по данным с камер наблюдения и при помощи DS-специалистов определил траекторию движения и остановку покупателей. Это помогло продумать логику расставления полок с товарами и понять поведения покупателя. Следующий пример из большого бизнеса, компания Tesla, лидер по производству электротранспорта, при помощи специалистов из DS создала лучший автопилот для транспорта в мире на данный момент. Евгений Сорока

Востребованность data scientist: тенденции на рынке вакансий

Наглядно показать повышенный спрос на технологии Data Science в бизнесе поможет статистика по открытым позициям. Количество вакансий в Data Science направлении растет, достаточно стабильно, если не сказать бурно. Мы систематизировали данные по открытым позициям с ресурса Dou с начала 2017 года. Так можно увидеть на графике, количество вакансий по этому направлению каждый год увеличивается в среднем на 48,3%. Например, в 2017 году среднее количество открытых вакансий в месяц по направлению Data Science было около 21-22, а уже в 2019 году поднялось до 83.

В 2020 “что-то пошло не так”. Если бы не карантин и локдаун, который негативно повлиял на вакансии в каждой сфере, прогнозировался рост до почти 2 тыс. вакансий. Реалии же стали такими: в начале года было открыто 103 позиции, в марте их количество уменьшилось до 74 и это число все еще стремительно сокращается. Конечно, это отражается на том, как найти работу data scientist: насколько это реально и сложно ли. Но будем надеяться, что потребность в Data Science-специалистах сработает как пружина, и после карантина появится множество интересных позиций.

Смотреть детальнее

Думаю, что для многих компаний Data Science-сфера до сих пор связана с высокими рисками и необязательна для бизнеса, а потому оказалась первой подвержена заморозке на период кризиса. Но эта эпидемия отчетливо продемонстрировала нам преимущества инноваций, многих успехов удалось добиться именно благодаря DS-решениям. Так что новая волна уже осознанных инвестиций в бигдату и машинное обучение не заставит себя ждать. Николай Клестов

При активном росте базовые требования к Data Science-специалистам не поменялись. От разработчиков ожидают то, что называют “math-oriented intelligence”, или проще — математическое или аналитическое мышление, что, конечно, отражается на общих hard skills.

Что касается требований к DS-специалистам, то они не изменились. Знания статистики, линейной алгебры, теории вероятностей, структуры данных, а также владение языком программирования — must have как база. Евгений Сорока

Дефицит разработчиков Data Science-профиля на рынке сравнительно не такой большой. С одной стороны, есть множество программ, которые находят талантливых людей еще на этапе обучения, а с другой — дефицит компенсируют переходом специалистов из смежных позиций по обработке данных.

Сейчас зачастую наблюдается миграция от Data Analyst в Data Scientist. К аналитикам данных выдвигают новые требования, например, понимание работы регрессионных моделей или базовые навыки работы в области NLP. Благо, сейчас доступно большое количество обучающих материалов и литературы. Александр Турчин

Кейсы применения Data Science: от науки и медицины до GameDev

Пока разделение между научным и бизнес-направлением в использовании Data Science остается актуальным. Отдельные технологии все еще условно носят название “научное”, но другие — уже нашли активное применение в бизнесе. В целом динамика положительная.

Если бизнесу нужно простое прогнозирование оттока клиентов, вряд ли ему понадобится reinforcement learning, равно как исследование сходимости нового метода бустинга не очень интересно бизнесу. Но в то же время все больше бизнесов открывает для себя преимущества внедрения AI технологий. Александр Турчин

Ярким, но спорным примером остаются технологии обучения с подкреплением (Reinforcement Learning). С одной стороны, они ближе всего подошли к тому самому Искусственному Интеллекту, а с другой — активно применяются и в бизнесе. Сейчас это одно из самых популярных направлений Data Science.

Большая часть работ продолжает развивать традиционные направления обучения с подкреплением — DOTA2, Starcraft, соединение архитектур с компьютерным зрением, NLP, графовыми базами данных. Евгений Сорока

Так что стоит рассматривать конкретные кейсы применения разработок DS. Востребованы разработки в различных сферах: финансы, кредитование, робототехника, медицина, маркетинг и торговля и многие другие.

С точки зрения науки, наиболее передовые вещи происходят в области deep learning, RL. В то же время классические задачи, например, кредитный скоринг, по-прежнему востребованы на уровне специалистов. Поэтому наибольший интерес, с точки зрения классических задач машинного обучения, на мой взгляд, будут представлять конкретные кейсы применения — Industry 4.0 например. Классические кейсы для Data Science: fraud detection, кредитный скоринг, прогнозирование сбоев, оттока, кластеризация клиентов и better customer experience вообще, определение аномалий. Интерес представляют конкретные сферы применения: в моем случае это, например, сельское хозяйство. Александр Турчин

Data Science в Cybersecurity

Отдельное внимание стоит уделить методологиям верификации моделей и защиты от атак. Безопасность данных — всегда актуальная проблема, но в последнее время ей начали уделять повышенное внимание с точки зрения бизнес-продуктов.

Актуальная сейчас проблема — неустойчивость полученных результатов к специально подобранным шумам или другим малозаметным человеку модификациям входящих данных, которые заставляют модель ошибаться. Черточка на знаке, которая заставит автомобиль попасть в аварию, макияж, который сделает преступника “невидимым” для камер — в мире, где мы полагаемся на решения машин, такие ошибки могут стать фатальными. Задача этого направления — научиться противостоять подобного рода воздействиям. Николай Клестов

Data Science в Computer Vision

Особое место в перечне популярных направлений занимает и Computer Vision (CV). Сейчас CV делится на 3 “кита”:

распознавание предметов и информации на изображениях (от сканеров документов до самоуправляемых автомобилей),
индивидуальное распознавание мимики и эмоций человека (deepfakes, спецэффекты в фильмах, HR-помощники),
отслеживание больших групп людей (городские системы слежения с распознаванием лиц, маркетинговые исследования и другое).

На специалистов в области computer vision имеется спрос в различных областях: от автомобильной индустрии до потокового производства. Но реализация таких проектов носит специфический характер — в моем проекте, например, мы внедрение computer vision отложили на 2-3 месяца, чтобы детально прописать архитектуру. Кроме того, в таких проектах есть большой фокус на производительность. Александр Турчин

какие есть направления в computer vision

Смотреть детальнее

Data Science в NLP

Также большой спрос получила сфера обработки естественного языка (NLP). Если в 60-х годах основной задачей NLP был перевод и простейшие диалоговые системы, то сейчас она широко используется в голосовых помощниках, чат-ботах, “умном” поиске, различной работе с документами. Шутка об “оживших роботах” все-таки актуальна.

Сфера NLP иногда смежная с лингвистикой. Большого успеха удалось добиться благодаря векторному представлению слов, так что знание инструментов из этой сферы часто необходимо.Отдельно стоит говорить о распознавании живой речи, так как оно смежно со следующим направлением – Digital signal processing. Это более широкая сфера по обработке аудиовидеосигналов, где комбинируются ML и классические задачи. Обычно требуются навыки работы с аудиовидео кодеками и С/С++. Николай Клестов

Data Science в эконометрике и маркетинге

Всегда актуальными остаются задачи обработки экономических и маркетинговых данных, эконометрика. Кроме исследований и прогнозирования, можно найти такие примеры применения DS в этих сферах: предсказание успешности, анализ конкурентоспособности, рекомендации по тому, в какой части города лучше открыть заведение, изучение эмоций потребителей, сегментация клиентов (например, в Email-маркетинге), персонализация и управление лояльностью.

Эконометрика — самое мачурное из всех ML и BigData направлений — истинный DataSciense. Тут редко встретишь стартаперский дух, зато работа стабильная и востребованная всегда. В этой сфере особенно полезен математический бэкграунд, а также желательны знания в экономике. В этой сфере достойную конкуренцию Python составляет язык R. Николай Клестов

Мультидисциплинарность и влияние нейронауки: что это такое и как это влияет на Data Science

Глобальным трендом в Data Science стала мультидисциплинарность и влияние нейронауки. Некоторые специалисты склоняются к тому, что это тренд отдаленного будущего, говоря о том, что объединение нейронауки и нейронных сетей даст начало классу алгоритмов для решения принципиально новых задач. Другие уверены, что влияние мультидисциплинарности ощутимо уже сейчас и оно положительно сказывается на общем результате (можем назвать это модным словом “синергия”). Так помощь в понимании проблемы и специфики конкретной сферы дает возможность DS-специалистам разработать более качественный продукт.

Чтобы обеспечить надежную проверку и разработать механизмы проверки и пополнения знаний, нужны специалисты смежных областей, одновременно обладающие компетенциями в машинном обучении как части DS, так и в предметной области (медицине, лингвистике, нейробиологии, образовании и т.д.). Особенно стоит отметить более значимое присутствие работ и выступлений по нейронаукам и когнитивным наукам — происходит сближение специалистов и заимствование идей. Евгений Сорока

Языки программирования и технологии в Data Science: от Python до AutoML

Если же мы переместимся от глобальных трендов к более практическим тенденциям, стоит поговорить о языках программирования. В Data Science особое место занимает Python. Это объектно-ориентированный язык с открытым исходным кодом, он гибок и относительно прост для изучения. Еще одна веская причина использовать его — большое количество готовых решений, библиотек и инструментов для Data Science, а также большое комьюнити, готовое помочь с любой проблемой.Конечно, в DS используются и другие языки. Так в рейтинги популярных часто входят: R, C/C++, Java, Scala.

Учитывая растущую популярность Python как backend-языка в целом (количество вакансий удвоилось за последние три года), это однозначно лучший выбор для любого проекта, связанного с ML. Вспомогательным к Python часто идёт C/C++, когда необходимо работать с графическими ускорителями, а также популярными распределенными вычислениями с использованием CUDA.Тем не менее небольшую конкуренцию в отдельных проектах ему составляют Java (для Big Data направления) с вспомогательным Scala для распределенных вычислений, R (для маркетинговых и экономических исследований). Николай Клестов

Отдельно обсудим кейс использования PySpark для Big Data. Этот инструмент дает доступ к работе с фреймворком Spark на Python. И нет, мы не будем говорить, что ленивые разработчики не хотят осваивать Java. Дело в том, что развитие экосистемы Hadoop (Spark — один из центральных ее инструментов) существенно влияет на работу в Data Science. Таким образом, мы не могли не заметить и рост популярности инструмента, который так облегчит жизнь разработчиков и позволит объединить BigData и ML решения в рамках одного Python проекта.

Экосистема Hadoop представляет широкий спектр возможностей для обработки больших данных. И особое место в этой архитектуре занимают такие фреймворки, как Spark и Tez (уходящие корнями к MapReduce), позволяющие эффективно распараллелить вычисления и существенно повысить быстродействие. При этом, с ними удобно работать непосредственно из Python — что существенно облегчает работу Data Scientist. Следует заметить, что в основном потребители пользовались продуктами двух компаний: Cloudera и Hortonworks, разрабатывавших свои версии экосистемы Hadoop. В прошлом году произошло слияние Cloudera и Hortonworks — будем надеяться, это приведет к появлению новых, интересных решений. Александр Турчин

Ярким событием 2019-2020 года стали генеративно-состязательные нейросети (GAN). В основу легла “борьба” двух алгоритмов нейросетей: генератора и дискриминатора. Первый занимается созданием реалистичных образов-подделок, в то время как второй — их распознаванием. Так с каждым разом модели становятся только лучше. Методика уже начала применяться в создании фото, видеоизображений, анимации, детализации, улучшении качества и другой работы с видео и визуальными изображениями. О GAN говорят уже не первый год, но недавно они начали показывать впечатляющие результаты.

Вклад генеративно-состязательных нейросетей в популяризацию DS сложно переоценить, теперь все знают что компьютер может нарисовать картину, придумать рецепт пиццы или записать death metal альбом. Реалистичные дипфейки с заменой актеров уже развлекают нас в интернете. Но пока все это находит мало применения в реальном бизнесе и вакансии с подобными технологиями вы врядли найдете. Но технология настолько хороша, что скорее всего продолжит развиваться и в ближайшем будущем, пока кто-то не придумает ей достойное применение. Николай Клестов

Потенциал GAN огромен, поскольку они имитируют любое распределение данных. GAN обучают создавать структуры, устрашающе похожие на сущности из нашего мира в области изображений, музыки, речи, прозы. Генеративно-состязательные сети, в некотором смысле, — роботы-художники и результат их работы впечатляет. Евгений Сорока

PyTorch — восходящая звезда среди трендов. Это нейросетевая библиотека, которую активно развивает Facebook, использует Uber и многие другие большие компании. Она не похожа на другие популярные библиотеки, такие как Caffe, Theano и TensorFlow. Главное отличие состоит в удобном применении в сфере глубокого обучения: система обеспечивает максимальную гибкость и скорость при относительной простоте в использовании.

PyTorch уже может соревноваться по числу упоминаний в вакансиях с Tensorflow — самой популярной нейросетевой библиотекой. Влияние мегакорпораций на развитие популярных фреймворков не стоит недооценивать. Благодаря огромному внутреннему комьюнити и богатым ресурсам, им удается добиться впечатляющих результатов за короткое время. Сейчас мы видим повторение ситуации с Angular и React: снова Google и Facebook борются за сердца и умы разработчиков. К счастью для нас, от этой борьбы все только выигрывают. Николай Клестов

Другой тренд этого периода — AutoML. Этот набор инструментов используется для автоматической подготовки данных к применению моделей машинного обучения. Особенность в том, что от пользователей не требуется специфических знаний в ML. Google создали доступный продукт для любого бизнеса, который существенно упрощает процесс разработки в ML. Это позволяет за минуту построить простую модель, а за день — готовый продукт. Это существенно экономит время (по словам разработчиков самого инструмента).

AutoML безспорно облегчит процесс создание моделей машинного обучения и обработку данных. Особенно для разработчиков, которые мало чего понимают в машинном обучении, но маленькую модель нужно прикрутить к продукту. Евгений Сорока

Существенный прогресс наблюдается в разработке инструментов, направленных на автоматизацию шагов ML-проекта. Некоторые библиотеки предлагают существенное сокращение времени на написание кода (например, открытая low-code библиотека машинного обучения PyCaret). Можно ожидать появления широкого спектра решений в этой области. Александр Турчин

Проблема Искусственного Интеллекта и как ее решают

Существует новый “прозрачный” подход к пониманию принятия решений технологиями Искусственного Интеллекта. Он закрепился в тренде “объяснимого ИИ” (более актуально для Data Science и Machine Learning). Перед разработчиками в сфере стояло несколько основных проблем с ИИ:

Неаргументированный алгоритм принятия решения, что особенно остро стоит для сферы кредитования, финансирования, безопасности, медицины и так далее.
Частые ошибки в принятии решений: например, кейс использования нейросети для полицейских, который дискриминировал подозреваемых по расовому признаку.
Необходимость понимать неочевидные связи и зависимости, которые, возможно, ранее не учитывались в математических моделях.

Все эти проблемы, как и страх перед сверхинтеллектом, который погубит человечество, заставили программистов в Google создать новый класс алгоритмов “Объяснимого ИИ”. Так, алгоритмы дают доступ к модулям-пояснениям, деревьям решений, с помощью которых можно понять, почему модель приняла определенные решения.

Использование “объяснимого ИИ” позволило устранить проблему недоверия между традиционными сферами бизнеса и “чёрным ящиком” ML. Бизнес получил необходимый им контроль, а вакансии, где в необходимых требованиях стоят деревья решений — уже не заставили себя ждать. Николай Клестов

Определение доверия к отдельным прогнозам является важной проблемой, когда модель используется для принятия решений. Например, при использовании машинного обучения для постановки медицинского диагноза или выявления терроризма. На слепую веру нельзя делать прогнозы, поскольку последствия могут быть катастрофическими. Евгений Сорока

Свяжитесь с нами уже сейчас

Куда приводят нас тренды в Data Science: выводы

Data Science как сфера, которая активно развивается бизнесом, уже отходит от исключительно научных подходов. Наблюдается общая тенденция к упрощению и прозрачности в технологиях. Эффективность и качество результатов работы DS-специалистов значительно выросло.

Совершенствование инструментов машинного обучения, и повышение удобства их использования — вот основные тренды на ближайшее время. Также, в связи с последними событиями, могут получить дополнительный спрос технологии Smart City, особенно в сфере мониторинга и оптимизации логистики. Но в то же время, классические задачи машинного обучения по-прежнему актуальны и востребованы. Александр Турчин

Кроме того, DS все больше набирает обороты. Это показано как и в росте спроса на специалистов в этой сфере, так и в растущем интересом бизнеса. Технологии нашли применение почти в любой отрасли: от сельского хозяйства, экономики, безопасности до Ecommerce. В целом заметен тренд на мультидисциплинарность, DS глубоко проникает в нашу повседневность.

FAQ

Чем занимается Data Scientist?

Data scientist — это специалист по сбору, хранению и обработке данных. Он помогает бизнесу обрабатывать поток огромных данных. В обязанности Data scientist входит правильная подготовка, анализ данных, построение моделей, их обучение и тестирование.

Как найти работу Data Scientist?

Спрос на позицию Data Scientist нестабилен из-за кризиса. Подготовить резюме, выбрать направление и найти работу вам помогут наши статьи:

Где искать Data Scientist?

Чтобы найти и нанять специалиста по Data Science нужно разобраться с требованиями, составить цепляющее описание и выбрать релевантные каналы для сорсинга. В этом вам помогут наши статьи: