
Тренди Data Science
Data Science — що це? Існує думка, що DS — виключно наукова сфера, яка відірвана від реальності і займається створенням Вищого розуму для поневолення людства. До того ж у ній складно освоїтися і майже неможливо знайти роботу в успішному бізнесі. (Жарт)
У той самий час тенденції Data Science показують зворотні результати: підвищення попиту фахівців, курс на спрощення і прозорість процесів. І все це відбувається на тлі реальних бізнес-кейсів та інноваційних рішень. Ми поговорили з трьома експертами в Data Science та рекрутингу про те, чи така страшна ця сфера і які тренди в ній простежуються.
Фахівці Data Science: хто вони і чим займаються
Кар’єра в data science особлива тим, що є дуже велика різноманітність абсолютно не схожих одна на одну позицій, технологій та сфер застосування.
Наприклад, Data scientist — це фахівці зі збирання, зберігання та обробки даних. Вони допомагають бізнесам опрацьовувати величезний потік даних. До обов’язків Data scientist входить правильна підготовка, аналіз даних, побудова моделей, їх навчання та тестування.
При цьому у сфері є багато інших позицій. Big Data / Data Science Engineer, ML Engineer, Data Analyst, Data Engineer — лише деякі з основних напрямків. Конкретна позиція визначає, чим займається Data science-фахівець: обробкою даних або їх зберіганням. Також у сфері є «допоміжні» та нові професії. Наприклад, Data Entry допомагає «навчати» нейромережі, а MLOps допомагає автоматизувати інфраструктуру в Machine Learning.
Про найтрендовіші та найпопулярніші навички для фахівців Data Science ми поговоримо далі.
Важливо! У статті ми розібрали тренди у сфері та як вони впливають на попит та вакансії у Data Science. Текст орієнтується на читача, який уже має знання у цьому полі. Якщо ви новачок або тільки обираєте професію, радимо вам прочитати «Найпопулярніші IT-професії в 2022» або «Як знайти роботу в IT без досвіду».
Навіщо потрібен data science і як він допомагає бізнесу
Попит на розвиток технологій у Data Science пов’язують зі зростанням кількості даних для обробки. Жодна типова система (або звичайна людина) не впорається зі збором та аналізом поточної кількості інформації, адже її стає більше з кожним днем.
Раніше цей напрямок був виключно складною, глибоко науковою діяльністю. Він був закритий для «пересічних» програмістів, а бізнесу здавався невиправданим вкладенням: коштує дорого, та й готових рішень ще немає. Сам Data Science і справді асоціювався зі створенням Штучного Інтелекту (ШІ) як системи, яка могла б вирішувати різнопланові завдання та самонавчатися.
Наразі ситуація кардинально змінилася, хоч і питання з ШІ залишається відкритим. Бізнес тепер чітко розуміє, що вкладаючи в DS, він отримає:
- оптимізацію витрат,
- аналіз різних закономірностей, що впливають на його дохід (у тому числі неочевидних),
- прогнозування світових процесів.
Вирішується проблема «великих даних». Для деяких компаній DS лягла в основу продукту або послуги, які вони надають. Не важливо ви B2B або B2C — Data Science-розробки знайдуть практичне застосування. Тому світ захопити зараз можуть лише котики.
Позитивний вплив DS на собі вже відчули «Розумні міста». Так збір та аналітика даних щодня допомагають покращувати життя людей: активно працюють технології для попередження заторів, відстежується та регулюється чистота повітря, а якщо сусіди дуже шумлять, спеціальні системи попереджають їх або автоматично викликають поліцію (зручно, правда?), — і це все тільки верхівка айсберга! Нехай вам не здається, що це далекі від нас технології, DS-розробки вже давно знайшли застосування у нашій щоденній рутині.
Популярність та попит на data scientist: тенденції на ринку вакансій
Наочно показати підвищений попит на технології Data Science у бізнесі допоможе статистика відкритих позицій. Кількість вакансій у Data Science напрямі зростає досить стабільно, якщо не сказати бурхливо. Ми систематизували дані щодо відкритих позицій з ресурсу Dou з початку 2017 року. Так на графіку можна побачити, що кількість вакансій у цьому напрямі щороку збільшується в середньому на 48,3%. Наприклад, у 2017 році середня кількість відкритих вакансій на місяць за направленням Data Science була близько 21–22, а вже у 2019 році зросла до 83.
У 2020 «щось пішло не так». Якби не карантин та локдаун, який негативно вплинув на вакансії у кожній сфері, прогнозувалося зростання майже до 2 тис. вакансій. Реалії ж стали такими: на початку року було відкрито 103 позиції, у березні їхня кількість зменшилася до 74 і це число все ще стрімко скорочується. Звичайно, це відбивається на тому, як знайти роботу data scientist: наскільки це реально і чи складно. Але сподіватимемося, що потреба в Data Science-фахівцях спрацює як пружина і після карантину з’явиться безліч цікавих позицій.
За активного зростання базові вимоги до Data Science-фахівців не змінилися. Від розробників очікують те, що називають «math-oriented intelligence», або простіше — математичне чи аналітичне мислення, що, звісно, відбивається на загальних hard skills.
Дефіцит розробників Data Science-профілю на ринку порівняно не такий великий. З одного боку, є безліч програм, які знаходять талановитих людей ще на етапі навчання, а з іншого — дефіцит компенсують переходом фахівців із суміжних позицій з обробки даних.
Кейси застосування Data Science: від науки та медицини до GameDev
Поки що поділ між науковим та бізнес-напрямком у використанні Data Science залишається актуальним. Окремі технології все ще умовно звуться «науковими», але інші вже знайшли активне застосування в бізнесі. Загалом динаміка позитивна.
Яскравим, але спірним прикладом залишаються технології навчання з підкріпленням (Reinforcement Learning). З одного боку, вони найближче підійшли до того самого штучного інтелекту, а з іншого — активно застосовуються і в бізнесі. Зараз це один із найпопулярніших напрямків Data Science.
Отже варто розглядати конкретні кейси застосування розробок DS. Є попит на використання у різних сферах: фінанси, кредитування, робототехніка, медицина, маркетинг, торгівля та багато інших.
Data Science у Cybersecurity
Окрему увагу варто приділити методологіям верифікації моделей та захисту від атак. Безпека даних — завжди актуальна проблема, але останнім часом їй почали приділяти підвищену увагу з точки зору бізнес-продуктів.
Data Science у Computer Vision
Особливе місце у списку найпопулярніших напрямків займає і Computer Vision (CV). Зараз CV ділиться на 3 «кити»:
- розпізнавання предметів та інформації на зображеннях (від сканерів документів до самоврядних автомобілів),
- індивідуальне розпізнавання міміки та емоцій людини (deepfakes, спецефекти у фільмах, HR-помічники),
- відстеження великих груп людей (міські системи стеження з розпізнаванням осіб, маркетингові дослідження та інше).
Data Science у NLP
Також великий попит набула сфера обробки природної мови (NLP). Якщо в 60-х роках основним завданням NLP був переклад і найпростіші діалогові системи, то зараз вона широко використовується в голосових помічниках, чат-ботах, розумному пошуку, різній роботі з документами. Жарт про «роботів, що ожили» все-таки актуальний.
Data Science в економетриці та маркетингу
Завжди актуальними залишаються завдання обробки економічних та маркетингових даних, економетрика. Крім досліджень та прогнозування, можна знайти такі приклади застосування DS у цих сферах: передбачення успішності, аналіз конкурентоспроможності, рекомендації щодо того, в якій частині міста краще відкрити заклад, вивчення емоцій споживачів, сегментація клієнтів (наприклад, в Email-маркетингу), персоналізація та управління лояльністю.
Мультидисциплінарність та вплив нейронауки: що це таке і як це впливає на Data Science
Глобальним трендом у Data Science стала мультидисциплінарність та вплив нейронауки. Деякі фахівці схиляються до того, що це тренд віддаленого майбутнього, говорячи про те, що об’єднання нейронауки та нейронних мереж дасть початок класу алгоритмів для вирішення нових завдань. Інші впевнені, що вплив мультидисциплінарності відчутно вже зараз і він позитивно позначається на загальному результаті (можемо назвати модним словом «синергія»). Так допомога у розумінні проблеми та специфіки конкретної сфери дає можливість DS-фахівцям розробити якісніший продукт.
Мови програмування та технології в Data Science: від Python до AutoML
Якщо ж ми перейдемо від глобальних трендів до більш практичних тенденцій, варто поговорити про мови програмування. У Data Science особливе місце посідає Python. Це об’єктноорієнтована мова з відкритим вихідним кодом, вона є гнучкою і відносно простою для вивчення. Ще одна вагома причина його використовувати — велика кількість готових рішень, бібліотек та інструментів для Data Science, а також велике ком’юніті, готове допомогти з будь-якою проблемою. Звичайно, у DS використовуються й інші мови. Так, у рейтинги популярних часто входять: R, C/C++, Java, Scala.
Окремо обговоримо кейс використання PySpark для Big Data. Цей інструмент дає доступ до роботи з фреймворком Spark на Python. І ні, ми не будемо говорити, що ліниві розробники не хочуть освоювати Java. Річ у тому, що розвиток екосистеми Hadoop (Spark — один із центральних її інструментів) істотно впливає на роботу в Data Science. Таким чином, ми не могли не помітити зростання популярності інструменту, який так полегшить життя розробників і дозволить об’єднати Big Data і ML рішення в рамках одного Python-проєкту.
Яскравою подією 2019–2020 стали генеративно-змагальні нейромережі (GAN). В основу лягла «боротьба» двох алгоритмів нейромереж: генератора та дискримінатора. Перший займається створенням реалістичних образів-підробок, тоді як другий їх розпізнаванням. Так щоразу моделі стають тільки кращими. Методика вже почала застосовуватися у створенні фото, відео, анімації, деталізації, поліпшенні якості та іншої роботи з відео та візуальними зображеннями. Про GAN говорять уже не перший рік, але нещодавно вони почали показувати результати, що вражають.
PyTorch — зірка, що тільки-тільки з’являється серед трендів. Це нейромережева бібліотека, яку активно розвиває Facebook, використовує Uber та багато інших великих компаній. Вона не схожа на інші популярні бібліотеки, такі як Caffe, Theano та TensorFlow. Головна відмінність полягає у зручному застосуванні у сфері глибокого навчання: система забезпечує максимальну гнучкість та швидкість при відносній простоті у використанні.
Інший тренд цього періоду — AutoML. Цей набір інструментів використовується для автоматичної підготовки даних для застосування моделей машинного навчання. Особливість в тому, що від користувачів не потрібно специфічних знань у ML. Google створили доступний продукт для будь-якого бізнесу, який значно спрощує процес розробки в ML. Це дозволяє за хвилину побудувати просту модель, а за день — готовий продукт. Це суттєво економить час (за словами розробників самого інструменту).
Проблема Штучного Інтелекту та як її вирішують
Існує новий прозорий підхід до розуміння прийняття рішень технологіями Штучного Інтелекту. Він закріпився в тренді «пояснюваного ШІ» (актуальніше для Data Science і Machine Learning). Перед розробниками у сфері стояло кілька основних проблем з ШІ:
- Неаргументований алгоритм прийняття рішення, що особливо гостро стоїть для сфери кредитування, фінансування, безпеки, медицини тощо.
- Часті помилки у прийнятті рішень: наприклад, кейс використання нейромережі для поліційних, який дискримінував підозрюваних за расовою ознакою.
- Необхідність розуміти неочевидні зв’язки та залежності, які, можливо, раніше не враховувалися у математичних моделях.
Всі ці проблеми, як і страх перед надінтелектом, який занапастить людство, змусили програмістів у Google створити новий клас алгоритмів «пояснюваного ШІ». Так, алгоритми дають доступ до модулів-пояснень, дерев рішень, за допомогою яких можна зрозуміти, чому модель прийняла певні рішення.
Куди наводять нас тренди у Data Science: висновки
Data Science як сфера, що активно розвивається бізнесом, вже відходить від винятково наукових підходів. Спостерігається загальна тенденція до спрощення та прозорості в технологіях. Ефективність та якість результатів роботи DS-фахівців значно зросла.
Крім того, DS все більше набирає обертів. Це показано як і в зростанні попиту на фахівців у цій сфері, так і в інтересах бізнесу, що зростає. Технології знайшли застосування майже у будь-якій галузі: від сільського господарства, економіки, безпеки до Ecommerce. Загалом помітний тренд на мультидисциплінарність, DS глибоко проникає у нашу повсякденність.
Попит на позицію Data Scientist нестабільний через кризу. Підготувати резюме, вибрати напрямок та знайти роботу вам допоможуть наші статті:
Щоб знайти і найняти спеціаліста з Data Science потрібно розібратися з вимогами, скласти цікавий опис вакансії і вибрати релевантні канали для сорсингу. У цьому вам допоможуть наші статті:
- Як шукати Data Science-фахівців на Kaggle
- Boolean search і технічні терміни: дуже практична стаття для рекрутерів в IT
- Топ-3 платформи для пошуку IT-фахівців (оновлено)
- Неофіційне ком’юніті розробників: як та де шукати IT-фахівців у Telegram
- Якими мають бути круті тексти вакансій для розробника: на чому зробити акцент та як виділитися серед конкурентів