Тренды Data Science
Data Science — что это? Бытует мнение, что DS — исключительно научная сфера, которая оторвана от реальности и занимается созданием Высшего разума для порабощения человечества. К тому же в ней сложно освоиться и почти нереально найти работу в успешном бизнесе. (Шутка)
В то же время тенденции Data Science показывают обратные результаты: повышение спроса на специалистов, курс на упрощение и прозрачность процессов. И все это происходит на фоне реальных работающих бизнес-кейсов и инновационных решений. Мы поговорили с тремя экспертами в Data Science и рекрутинге о том, так ли страшна эта сфера и какие тренды в ней прослеживаются.
Специалисты Data Science: кто они и чем занимаются
Карьера в data science особенна тем, что есть очень большое разнообразие совершенно непохожих друг на друга позиций, технологий и сфер применений.
К примеру, Data scientist — это специалисты по сбору, хранению и обработке данных. Они помогают бизнесам обрабатывать огромный поток данных. В обязанности Data scientist входит правильная подготовка, анализ данных, построение моделей, их обучение и тестирование.
При этом в сфере есть и много других позиций. Big Data / Data Science Engineer, ML Engineer, Data Analyst, Data Engineer — только некоторые из основных направлений. Конкретная позиция определяет, чем занимается Data science-специалист: обработкой данных или их хранением. Также в сфере есть “вспомогательные” и новые профессии. Например, Data Entry помогает “обучать” нейросети, а MLOps помогает автоматизировать инфраструктуру в Machine Learning.
Про самые трендовые и востребованные навыки для специалистов Data Science мы поговорим далее.
Важно! В статье мы разобрали тренды в сфере и как они влияют на спрос и вакансии в Data Science. Текст ориентируется на читателя, который уже обладает знаниями в сфере. Если вы новичок или только выбираете профессию, советуем вам прочитать «Самые востребованные IT-профессии в 2022» или «Как найти работу в IT без опыта».
Зачем нужен data science и как он помогает бизнесу
Спрос на развитие технологий в Data Science связывают с ростом количества данных для обработки. Никакая типичная система (или обычный человек) не справится со сбором и анализом нынешнего количества данных, а ведь данных становится больше с каждым днем.
Ранее это направление было исключительно сложной, глубоко научной деятельность, оно было закрыто для “рядовых” программистов, а бизнесу казалось неоправданным вложением: стоит дорого, да и готовых решений еще нет. Сам Data Science и правда ассоциировался с созданием Искусственного Интеллекта (ИИ) как системы, которая могла бы решать разноплановые задачи и самообучаться.
Сейчас ситуация кардинально изменилась, хоть и вопрос с ИИ остается открытым. Бизнес теперь отчетливо понимает, что вкладывая в DS, он получит:
- оптимизацию затрат,
- анализ разных закономерностей, которые влияют на его доход (в том числе неочевидных),
- прогнозирование глобальных процессов.
Решается проблема “больших данных”. Для некоторых компаний DS легла в основу продукта или услуги, которые они предоставляют. Не важно вы B2B или B2C — Data Science-разработки найдут практическое применение. Поэтому мир захватить сейчас могут только котики.
Положительное влияние DS на себе уже почувствовали “Умные города”. Так сбор и аналитика данных ежедневно помогают улучшать жизни людей: активно работают технологии для предупреждения пробок, отслеживается и регулируется чистота воздуха, а если соседи слишком шумят, специальные системы предупреждают их или автоматически вызывают полицию (удобно, правда?), — и это все только верхушка айсберга! Пусть вам не кажется, что это далекие от нас технологии, DS-разработки уже давно нашли применения в нашей ежедневной рутине.
Востребованность data scientist: тенденции на рынке вакансий
Наглядно показать повышенный спрос на технологии Data Science в бизнесе поможет статистика по открытым позициям. Количество вакансий в Data Science направлении растет, достаточно стабильно, если не сказать бурно. Мы систематизировали данные по открытым позициям с ресурса Dou с начала 2017 года. Так можно увидеть на графике, количество вакансий по этому направлению каждый год увеличивается в среднем на 48,3%. Например, в 2017 году среднее количество открытых вакансий в месяц по направлению Data Science было около 21-22, а уже в 2019 году поднялось до 83.
В 2020 “что-то пошло не так”. Если бы не карантин и локдаун, который негативно повлиял на вакансии в каждой сфере, прогнозировался рост до почти 2 тыс. вакансий. Реалии же стали такими: в начале года было открыто 103 позиции, в марте их количество уменьшилось до 74 и это число все еще стремительно сокращается. Конечно, это отражается на том, как найти работу data scientist: насколько это реально и сложно ли. Но будем надеяться, что потребность в Data Science-специалистах сработает как пружина, и после карантина появится множество интересных позиций.
При активном росте базовые требования к Data Science-специалистам не поменялись. От разработчиков ожидают то, что называют “math-oriented intelligence”, или проще — математическое или аналитическое мышление, что, конечно, отражается на общих hard skills.
Дефицит разработчиков Data Science-профиля на рынке сравнительно не такой большой. С одной стороны, есть множество программ, которые находят талантливых людей еще на этапе обучения, а с другой — дефицит компенсируют переходом специалистов из смежных позиций по обработке данных.
Кейсы применения Data Science: от науки и медицины до GameDev
Пока разделение между научным и бизнес-направлением в использовании Data Science остается актуальным. Отдельные технологии все еще условно носят название “научное”, но другие — уже нашли активное применение в бизнесе. В целом динамика положительная.
Ярким, но спорным примером остаются технологии обучения с подкреплением (Reinforcement Learning). С одной стороны, они ближе всего подошли к тому самому Искусственному Интеллекту, а с другой — активно применяются и в бизнесе. Сейчас это одно из самых популярных направлений Data Science.
Так что стоит рассматривать конкретные кейсы применения разработок DS. Востребованы разработки в различных сферах: финансы, кредитование, робототехника, медицина, маркетинг и торговля и многие другие.
Data Science в Cybersecurity
Отдельное внимание стоит уделить методологиям верификации моделей и защиты от атак. Безопасность данных — всегда актуальная проблема, но в последнее время ей начали уделять повышенное внимание с точки зрения бизнес-продуктов.
Data Science в Computer Vision
Особое место в перечне популярных направлений занимает и Computer Vision (CV). Сейчас CV делится на 3 “кита”:
- распознавание предметов и информации на изображениях (от сканеров документов до самоуправляемых автомобилей),
- индивидуальное распознавание мимики и эмоций человека (deepfakes, спецэффекты в фильмах, HR-помощники),
- отслеживание больших групп людей (городские системы слежения с распознаванием лиц, маркетинговые исследования и другое).
Data Science в NLP
Также большой спрос получила сфера обработки естественного языка (NLP). Если в 60-х годах основной задачей NLP был перевод и простейшие диалоговые системы, то сейчас она широко используется в голосовых помощниках, чат-ботах, “умном” поиске, различной работе с документами. Шутка об “оживших роботах” все-таки актуальна.
Data Science в эконометрике и маркетинге
Всегда актуальными остаются задачи обработки экономических и маркетинговых данных, эконометрика. Кроме исследований и прогнозирования, можно найти такие примеры применения DS в этих сферах: предсказание успешности, анализ конкурентоспособности, рекомендации по тому, в какой части города лучше открыть заведение, изучение эмоций потребителей, сегментация клиентов (например, в Email-маркетинге), персонализация и управление лояльностью.
Мультидисциплинарность и влияние нейронауки: что это такое и как это влияет на Data Science
Глобальным трендом в Data Science стала мультидисциплинарность и влияние нейронауки. Некоторые специалисты склоняются к тому, что это тренд отдаленного будущего, говоря о том, что объединение нейронауки и нейронных сетей даст начало классу алгоритмов для решения принципиально новых задач. Другие уверены, что влияние мультидисциплинарности ощутимо уже сейчас и оно положительно сказывается на общем результате (можем назвать это модным словом “синергия”). Так помощь в понимании проблемы и специфики конкретной сферы дает возможность DS-специалистам разработать более качественный продукт.
Языки программирования и технологии в Data Science: от Python до AutoML
Если же мы переместимся от глобальных трендов к более практическим тенденциям, стоит поговорить о языках программирования. В Data Science особое место занимает Python. Это объектно-ориентированный язык с открытым исходным кодом, он гибок и относительно прост для изучения. Еще одна веская причина использовать его — большое количество готовых решений, библиотек и инструментов для Data Science, а также большое комьюнити, готовое помочь с любой проблемой.Конечно, в DS используются и другие языки. Так в рейтинги популярных часто входят: R, C/C++, Java, Scala.
Отдельно обсудим кейс использования PySpark для Big Data. Этот инструмент дает доступ к работе с фреймворком Spark на Python. И нет, мы не будем говорить, что ленивые разработчики не хотят осваивать Java. Дело в том, что развитие экосистемы Hadoop (Spark — один из центральных ее инструментов) существенно влияет на работу в Data Science. Таким образом, мы не могли не заметить и рост популярности инструмента, который так облегчит жизнь разработчиков и позволит объединить BigData и ML решения в рамках одного Python проекта.
Ярким событием 2019-2020 года стали генеративно-состязательные нейросети (GAN). В основу легла “борьба” двух алгоритмов нейросетей: генератора и дискриминатора. Первый занимается созданием реалистичных образов-подделок, в то время как второй — их распознаванием. Так с каждым разом модели становятся только лучше. Методика уже начала применяться в создании фото, видеоизображений, анимации, детализации, улучшении качества и другой работы с видео и визуальными изображениями. О GAN говорят уже не первый год, но недавно они начали показывать впечатляющие результаты.
PyTorch — восходящая звезда среди трендов. Это нейросетевая библиотека, которую активно развивает Facebook, использует Uber и многие другие большие компании. Она не похожа на другие популярные библиотеки, такие как Caffe, Theano и TensorFlow. Главное отличие состоит в удобном применении в сфере глубокого обучения: система обеспечивает максимальную гибкость и скорость при относительной простоте в использовании.
Другой тренд этого периода — AutoML. Этот набор инструментов используется для автоматической подготовки данных к применению моделей машинного обучения. Особенность в том, что от пользователей не требуется специфических знаний в ML. Google создали доступный продукт для любого бизнеса, который существенно упрощает процесс разработки в ML. Это позволяет за минуту построить простую модель, а за день — готовый продукт. Это существенно экономит время (по словам разработчиков самого инструмента).
Проблема Искусственного Интеллекта и как ее решают
Существует новый “прозрачный” подход к пониманию принятия решений технологиями Искусственного Интеллекта. Он закрепился в тренде “объяснимого ИИ” (более актуально для Data Science и Machine Learning). Перед разработчиками в сфере стояло несколько основных проблем с ИИ:
- Неаргументированный алгоритм принятия решения, что особенно остро стоит для сферы кредитования, финансирования, безопасности, медицины и так далее.
- Частые ошибки в принятии решений: например, кейс использования нейросети для полицейских, который дискриминировал подозреваемых по расовому признаку.
- Необходимость понимать неочевидные связи и зависимости, которые, возможно, ранее не учитывались в математических моделях.
Все эти проблемы, как и страх перед сверхинтеллектом, который погубит человечество, заставили программистов в Google создать новый класс алгоритмов “Объяснимого ИИ”. Так, алгоритмы дают доступ к модулям-пояснениям, деревьям решений, с помощью которых можно понять, почему модель приняла определенные решения.
Куда приводят нас тренды в Data Science: выводы
Data Science как сфера, которая активно развивается бизнесом, уже отходит от исключительно научных подходов. Наблюдается общая тенденция к упрощению и прозрачности в технологиях. Эффективность и качество результатов работы DS-специалистов значительно выросло.
Кроме того, DS все больше набирает обороты. Это показано как и в росте спроса на специалистов в этой сфере, так и в растущем интересом бизнеса. Технологии нашли применение почти в любой отрасли: от сельского хозяйства, экономики, безопасности до Ecommerce. В целом заметен тренд на мультидисциплинарность, DS глубоко проникает в нашу повседневность.
Спрос на позицию Data Scientist нестабилен из-за кризиса. Подготовить резюме, выбрать направление и найти работу вам помогут наши статьи:
Чтобы найти и нанять специалиста по Data Science нужно разобраться с требованиями, составить цепляющее описание и выбрать релевантные каналы для сорсинга. В этом вам помогут наши статьи:
- Как искать Data Science-специалистов на Kaggle
- Boolean search и технические термины: очень практическая статья для рекрутеров в IT
- Топ-3 платформы для поиска IT-специалистов
- Неофициальное коммьюнити разработчиков: как и где искать IT-специалистов в Telegram
- Какими должны быть крутые тексты вакансий для разработчика
Насколько полезным был этот пост?
Click on a star to rate it!
Средний рейтинг 5 / 5. Количество голосов: 11
Оценок пока нет! Будьте первым, кто оценит этот пост.