Що це Data Science (DS): тренди та затребуваність професії ITExpert

Тренди Data Science

ITExpert team 14.05.2020
ITExpert Блог Кар'єра
Тренди Data Science

Data Science — що це? Існує думка, що DS — виключно наукова сфера, яка відірвана від реальності і займається створенням Вищого розуму для поневолення людства. До того ж у ній складно освоїтися і майже неможливо знайти роботу в успішному бізнесі. (Жарт)

У той самий час тенденції Data Science показують зворотні результати: підвищення попиту фахівців, курс на спрощення і прозорість процесів. І все це відбувається на тлі реальних бізнес-кейсів та інноваційних рішень. Ми поговорили з трьома експертами в Data Science та рекрутингу про те, чи така страшна ця сфера і які тренди в ній простежуються.

Фахівці Data Science: хто вони і чим займаються

Кар’єра в data science особлива тим, що є дуже велика різноманітність абсолютно не схожих одна на одну позицій, технологій та сфер застосування.

Наприклад, Data scientist — це фахівці зі збирання, зберігання та обробки даних. Вони допомагають бізнесам опрацьовувати величезний потік даних. До обов’язків Data scientist входить правильна підготовка, аналіз даних, побудова моделей, їх навчання та тестування.

При цьому у сфері є багато інших позицій. Big Data / Data Science Engineer, ML Engineer, Data Analyst, Data Engineer — лише деякі з основних напрямків. Конкретна позиція визначає, чим займається Data science-фахівець: обробкою даних або їх зберіганням. Також у сфері є «допоміжні» та нові професії. Наприклад, Data Entry допомагає «навчати» нейромережі, а MLOps допомагає автоматизувати інфраструктуру в Machine Learning.

Про найтрендовіші та найпопулярніші навички для фахівців Data Science ми поговоримо далі.

Важливо! У статті ми розібрали тренди у сфері та як вони впливають на попит та вакансії у Data Science. Текст орієнтується на читача, який уже має знання у цьому полі. Якщо ви новачок або тільки обираєте професію, радимо вам прочитати «Найпопулярніші IT-професії в 2022» або «Як знайти роботу в IT без досвіду».

Навіщо потрібен data science і як він допомагає бізнесу

Попит на розвиток технологій у Data Science пов’язують зі зростанням кількості даних для обробки. Жодна типова система (або звичайна людина) не впорається зі збором та аналізом поточної кількості інформації, адже її стає більше з кожним днем.

XXI століття — це століття даних. Через розвиток IT кількість інформації на носіях пам’яті щороку зростає експоненційно. Збирання даних торкнулося буквально кожного куточку людського життя. Data Science-фахівці першою чергою допомагають впорядкувати, зібрати дані та отримати з них вигоду. Євгеній Сорока

Раніше цей напрямок був виключно складною, глибоко науковою діяльністю. Він був закритий для «пересічних» програмістів, а бізнесу здавався невиправданим вкладенням: коштує дорого, та й готових рішень ще немає. Сам Data Science і справді асоціювався зі створенням Штучного Інтелекту (ШІ) як системи, яка могла б вирішувати різнопланові завдання та самонавчатися.

Наразі ситуація кардинально змінилася, хоч і питання з ШІ залишається відкритим. Бізнес тепер чітко розуміє, що вкладаючи в DS, він отримає:

  • оптимізацію витрат,
  • аналіз різних закономірностей, що впливають на його дохід (у тому числі неочевидних),
  • прогнозування світових процесів.

Вирішується проблема «великих даних». Для деяких компаній DS лягла в основу продукту або послуги, які вони надають. Не важливо ви B2B або B2C — Data Science-розробки знайдуть практичне застосування. Тому світ захопити зараз можуть лише котики.

Зараз інтерес бізнесу до Data Science, на мій погляд, пов’язаний з широкими можливостями застосування. Ті ж виробничі підприємства, як правило, мають величезні масиви історичних даних, які можна було б обробити і отримати з них цінні знання. До того ж для успішної роботи необхідно чітко формувати бізнес-завдання, обґрунтовано оцінювати потенційний результат та розуміти вплив від впровадження свого рішення на решту бізнес-процесів. Олександр Турчин

Позитивний вплив DS на собі вже відчули «Розумні міста». Так збір та аналітика даних щодня допомагають покращувати життя людей: активно працюють технології для попередження заторів, відстежується та регулюється чистота повітря, а якщо сусіди дуже шумлять, спеціальні системи попереджають їх або автоматично викликають поліцію (зручно, правда?), — і це все тільки верхівка айсберга! Нехай вам не здається, що це далекі від нас технології, DS-розробки вже давно знайшли застосування у нашій щоденній рутині.

Наведу екзотичні приклади із середнього та великого бізнесу. Супермаркет за даними з камер спостереження та за допомогою DS-фахівців визначив траєкторію руху та зупинку покупців. Це допомогло продумати логіку розставляння полиць із товарами та зрозуміти поведінки покупця. Наступний приклад із великого бізнесу: компанія Tesla, лідер з виробництва електротранспорту, за допомогою фахівців із DS створила найкращий автопілот для транспорту у світі на цей час. Євгеній Сорока

Популярність та попит на data scientist: тенденції на ринку вакансій

Наочно показати підвищений попит на технології Data Science у бізнесі допоможе статистика відкритих позицій. Кількість вакансій у Data Science напрямі зростає досить стабільно, якщо не сказати бурхливо. Ми систематизували дані щодо відкритих позицій з ресурсу Dou з початку 2017 року. Так на графіку можна побачити, що кількість вакансій у цьому напрямі щороку збільшується в середньому на 48,3%. Наприклад, у 2017 році середня кількість відкритих вакансій на місяць за направленням Data Science була близько 21–22, а вже у 2019 році зросла до 83.

У 2020 «щось пішло не так». Якби не карантин та локдаун, який негативно вплинув на вакансії у кожній сфері, прогнозувалося зростання майже до 2 тис. вакансій. Реалії ж стали такими: на початку року було відкрито 103 позиції, у березні їхня кількість зменшилася до 74 і це число все ще стрімко скорочується. Звичайно, це відбивається на тому, як знайти роботу data scientist: наскільки це реально і чи складно. Але сподіватимемося, що потреба в Data Science-фахівцях спрацює як пружина і після карантину з’явиться безліч цікавих позицій.

Думаю, що для багатьох компаній Data Science-сфера досі пов’язана з високими ризиками і необов’язкова для бізнесу, а тому стала першою на холд в період кризи. Але ця пандемія виразно продемонструвала нам переваги інновацій, багатьох успіхів вдалося досягти саме завдяки DS-рішенням. Так що нова хвиля вже усвідомлених інвестицій у бігдату та машинне навчання не забариться. Микола Клєстов

За активного зростання базові вимоги до Data Science-фахівців не змінилися. Від розробників очікують те, що називають «math-oriented intelligence», або простіше — математичне чи аналітичне мислення, що, звісно, відбивається на загальних hard skills.

Щодо вимог до DS-фахівців, то вони не змінилися. Знання статистики, лінійної алгебри, теорії ймовірностей, структури даних, а також володіння мовою програмування — must have як база. Євгеній Сорока

Дефіцит розробників Data Science-профілю на ринку порівняно не такий великий. З одного боку, є безліч програм, які знаходять талановитих людей ще на етапі навчання, а з іншого — дефіцит компенсують переходом фахівців із суміжних позицій з обробки даних.

Наразі часто спостерігається міграція від Data Analyst до Data Scientist. До аналітиків даних висувають нові вимоги, наприклад, розуміння роботи регресійних моделей або базові навички роботи в області NLP. Благо, зараз доступна велика кількість навчальних матеріалів та літератури. Олександр Турчин

Кейси застосування Data Science: від науки та медицини до GameDev

Поки що поділ між науковим та бізнес-напрямком у використанні Data Science залишається актуальним. Окремі технології все ще умовно звуться «науковими», але інші вже знайшли активне застосування в бізнесі. Загалом динаміка позитивна.

Якщо бізнесу потрібне просте прогнозування відтоку клієнтів, навряд чи йому знадобиться reinforcement learning, так само як дослідження збіжності нового методу бустингу не дуже цікаве бізнесу. Але в той самий час все більше бізнесів відкриває для себе переваги впровадження AI технологій. Олександр Турчин

Яскравим, але спірним прикладом залишаються технології навчання з підкріпленням (Reinforcement Learning). З одного боку, вони найближче підійшли до того самого штучного інтелекту, а з іншого — активно застосовуються і в бізнесі. Зараз це один із найпопулярніших напрямків Data Science.

Більшість робіт продовжує розвивати традиційні напрями навчання з підкріпленням — DOTA2, Starcraft, з’єднання архітектур з комп’ютерним зором, NLP, графовими базами даних. Євгеній Сорока

Отже варто розглядати конкретні кейси застосування розробок DS. Є попит на використання у різних сферах: фінанси, кредитування, робототехніка, медицина, маркетинг, торгівля та багато інших.

З точки зору науки, найбільш визначні речі відбуваються у галузі deep learning, RL. В той самий час, класичні завдання (наприклад, кредитний скоринг), як і раніше популярні на рівні фахівців. Тому найбільший інтерес з погляду класичних завдань машинного навчання, на мій погляд, будуть представляти конкретні кейси застосування — Industry 4.0, наприклад. Класичні кейси для Data Science: fraud detection, кредитний скоринг, прогнозування збоїв, відтоку, кластеризація клієнтів та better customer experience взагалі, визначення аномалій. Інтерес становлять конкретні сфери застосування: у моєму випадку це, наприклад, сільське господарство. Олександр Турчин

Data Science у Cybersecurity

Окрему увагу варто приділити методологіям верифікації моделей та захисту від атак. Безпека даних —  завжди актуальна проблема, але останнім часом їй почали приділяти підвищену увагу з точки зору бізнес-продуктів.

Актуальна зараз проблема – нестійкість отриманих результатів до спеціально підібраних шумів або інших малопомітних для людей модифікацій вхідних даних, які змушують модель помилятися. Риска на знаку, який змусить автомобіль потрапити в аварію, макіяж, який зробить злочинця “невидимим” для камер — у світі, де ми покладаємося на рішення машин, такі помилки можуть стати фатальними. Завдання цього напряму — навчитися протистояти подібним впливам. Микола Клєстов

Data Science у Computer Vision

Особливе місце у списку найпопулярніших напрямків займає і Computer Vision (CV). Зараз CV ділиться на 3 «кити»:

  • розпізнавання предметів та інформації на зображеннях (від сканерів документів до самоврядних автомобілів),
  • індивідуальне розпізнавання міміки та емоцій людини (deepfakes, спецефекти у фільмах, HR-помічники),
  • відстеження великих груп людей (міські системи стеження з розпізнаванням осіб, маркетингові дослідження та інше).

На фахівців у галузі computer vision є попит у різних галузях: від автомобільної індустрії до потокового виробництва. Але реалізація таких проєктів має специфічний характер — у моєму проєкті, наприклад, ми відклали впровадження computer vision на 2-3 місяці, щоб детально прописати архітектуру. Крім того, такі проєкти мають великий фокус на продуктивність. Олександр Турчин

Data Science у NLP

Також великий попит набула сфера обробки природної мови (NLP). Якщо в 60-х роках основним завданням NLP був переклад і найпростіші діалогові системи, то зараз вона широко використовується в голосових помічниках, чат-ботах, розумному пошуку, різній роботі з документами. Жарт про «роботів, що ожили» все-таки актуальний.

Сфера NLP іноді суміжна із лінгвістикою. Великого успіху вдалося досягти завдяки векторному уявленню слів, так що знання інструментів із цієї сфери часто необхідне. Окремо варто говорити про розпізнавання живої мови, оскільки воно суміжно з наступним напрямком – Digital Signal Processing. Це ширша сфера обробки аудіовідеосигналів, де комбінуються ML і класичні завдання. Зазвичай потрібні навички роботи з аудіовідео кодеками та С/С++. Микола Клєстов

Data Science в економетриці та маркетингу

Завжди актуальними залишаються завдання обробки економічних та маркетингових даних, економетрика. Крім досліджень та прогнозування, можна знайти такі приклади застосування DS у цих сферах: передбачення успішності, аналіз конкурентоспроможності, рекомендації щодо того, в якій частині міста краще відкрити заклад, вивчення емоцій споживачів, сегментація клієнтів (наприклад, в Email-маркетингу), персоналізація та управління лояльністю.

Економетрика — наймачурніше з усіх ML та BigData напрямків — справжній DataSciense. Тут рідко зустрінеш стартаперський дух, проте робота стабільна і попит є завжди. У цій сфері особливо корисним є математичний бекграунд, а також nice-to-have мати знання в економіці. У цій сфері гідну конкуренцію Python складає мова R. Микола Клєстов

Мультидисциплінарність та вплив нейронауки: що це таке і як це впливає на Data Science

Глобальним трендом у Data Science стала мультидисциплінарність та вплив нейронауки. Деякі фахівці схиляються до того, що це тренд віддаленого майбутнього, говорячи про те, що об’єднання нейронауки та нейронних мереж дасть початок класу алгоритмів для вирішення нових завдань. Інші впевнені, що вплив мультидисциплінарності відчутно вже зараз і він позитивно позначається на загальному результаті (можемо назвати модним словом «синергія»). Так допомога у розумінні проблеми та специфіки конкретної сфери дає можливість DS-фахівцям розробити якісніший продукт.

Щоб забезпечити надійну перевірку і розробити механізми перевірки та поповнення знань, потрібні фахівці суміжних областей, які одночасно володіють компетенціями в машинному навчанні як частини DS, так і в предметній галузі (медицині, лінгвістиці, нейробіології, освіті тощо). Особливо варто відзначити більш вагому присутність робіт і виступів з нейронаук та когнітивних наук — відбувається зближення фахівців і запозичення ідей. Євгеній Сорока

Мови програмування та технології в Data Science: від Python до AutoML

Якщо ж ми перейдемо від глобальних трендів до більш практичних тенденцій, варто поговорити про мови програмування. У Data Science особливе місце посідає Python. Це об’єктноорієнтована мова з відкритим вихідним кодом, вона є гнучкою і відносно простою для вивчення. Ще одна вагома причина його використовувати — велика кількість готових рішень, бібліотек та інструментів для Data Science, а також велике ком’юніті, готове допомогти з будь-якою проблемою. Звичайно, у DS використовуються й інші мови. Так, у рейтинги популярних часто входять: R, C/C++, Java, Scala.

Враховуючи ріст популярності Python як backend-мови загалом (кількість вакансій подвоїлася за останні три роки), це однозначно найкращий вибір для будь-якого проєкту, пов’язаного з ML. Допоміжним до Python часто йде C/C++, коли необхідно працювати з графічними прискорювачами, а також популярними розподіленими обчисленнями з використанням CUDA. (Для маркетингових та економічних досліджень). Микола Клєстов

Окремо обговоримо кейс використання PySpark для Big Data. Цей інструмент дає доступ до роботи з фреймворком Spark на Python. І ні, ми не будемо говорити, що ліниві розробники не хочуть освоювати Java. Річ у тому, що розвиток екосистеми Hadoop (Spark — один із центральних її інструментів) істотно впливає на роботу в Data Science. Таким чином, ми не могли не помітити зростання популярності інструменту, який так полегшить життя розробників і дозволить об’єднати Big Data і ML рішення в рамках одного Python-проєкту.

Екосистема Hadoop дає широкий спектр можливостей з обробки великих даних. І особливе місце в цій архітектурі займають такі фреймворки, як Spark і Tez (які йдуть корінням до MapReduce), що дозволяють ефективно розпаралелити обчислення та істотно підвищити швидкодію. При цьому з ними зручно працювати безпосередньо з Python, що суттєво полегшує роботу Data Scientist. Слід зазначити, що переважно юзери користувалися продуктами двох компаній: Cloudera і Hortonworks, які розробляли свої версії екосистеми Hadoop. Минулого року відбулося злиття Cloudera та Hortonworks — сподіватимемося, це призведе до появи нових, цікавих рішень. Олександр Турчин

Яскравою подією 2019–2020 стали генеративно-змагальні нейромережі (GAN). В основу лягла «боротьба» двох алгоритмів нейромереж: генератора та дискримінатора. Перший займається створенням реалістичних образів-підробок, тоді як другий їх розпізнаванням. Так щоразу моделі стають тільки кращими. Методика вже почала застосовуватися у створенні фото, відео, анімації, деталізації, поліпшенні якості та іншої роботи з відео та візуальними зображеннями. Про GAN говорять уже не перший рік, але нещодавно вони почали показувати результати, що вражають.

Внесок генеративно-змагальних нейромереж у популяризацію DS складно переоцінити, тепер усі знають що комп’ютер може намалювати картину, придумати рецепт піци чи записати death metal альбом. Реалістичні діпфейки із заміною акторів вже розважають нас в інтернеті. Але поки що все це знаходить мало застосування в реальному бізнесі і вакансії з подібними технологіями ви навряд чи знайдете. Але технологія настільки хороша, що, швидше за все, продовжить розвиватися і в найближчому майбутньому, поки хтось не придумає їй гідне використання. Микола Клєстов

Потенціал GAN величезний, оскільки вони імітують будь-який розподіл даних. GAN навчають створювати структури, що страхітливо схожі на сутності з нашого світу в області зображень, музики, мови, прози. Генеративно-змагальні мережі, у певному сенсі, — роботи-художники та результат їхньої роботи вражає. Євгеній Сорока

PyTorch — зірка, що тільки-тільки з’являється серед трендів. Це нейромережева бібліотека, яку активно розвиває Facebook, використовує Uber та багато інших великих компаній. Вона не схожа на інші популярні бібліотеки, такі як Caffe, Theano та TensorFlow. Головна відмінність полягає у зручному застосуванні у сфері глибокого навчання: система забезпечує максимальну гнучкість та швидкість при відносній простоті у використанні.

PyTorch вже може змагатися за кількістю згадок у вакансіях із Tensorflow — найпопулярнішою нейромережевою бібліотекою. Вплив мегакорпорацій на розвиток популярних фреймворків не варто недооцінювати. Завдяки величезному внутрішньому ком’юніті та багатим ресурсам, їм вдається досягти високих результатів за короткий час. Зараз ми бачимо повторення ситуації з Angular та React: знову Google і Facebook борються за серця та уми розробників. На щастя для нас, від цієї боротьби всі тільки виграють. Микола Клєстов

Інший тренд цього періоду — AutoML. Цей набір інструментів використовується для автоматичної підготовки даних для застосування моделей машинного навчання. Особливість в тому, що від користувачів не потрібно специфічних знань у ML. Google створили доступний продукт для будь-якого бізнесу, який значно спрощує процес розробки в ML. Це дозволяє за хвилину побудувати просту модель, а за день — готовий продукт. Це суттєво економить час (за словами розробників самого інструменту).

AutoML безперечно полегшить процес створення моделей машинного навчання та обробку даних. Особливо для розробників, які мало чого розуміють у машинному навчанні, але маленьку модель потрібно прикрутити до продукту. Євгеній Сорока

Суттєвий прогрес спостерігається у розробці інструментів, спрямованих на автоматизацію кроків ML-проєкту. Деякі бібліотеки пропонують суттєве скорочення часу написання коду (наприклад, відкрита low-code бібліотека машинного навчання PyCaret). Можна очікувати появи широкого спектра рішень у цій галузі. Олександр Турчин

Проблема Штучного Інтелекту та як її вирішують

Існує новий прозорий підхід до розуміння прийняття рішень технологіями Штучного Інтелекту. Він закріпився в тренді «пояснюваного ШІ» (актуальніше для Data Science і Machine Learning). Перед розробниками у сфері стояло кілька основних проблем з ШІ:

  1. Неаргументований алгоритм прийняття рішення, що особливо гостро стоїть для сфери кредитування, фінансування, безпеки, медицини тощо.
  2. Часті помилки у прийнятті рішень: наприклад, кейс використання нейромережі для поліційних, який дискримінував підозрюваних за расовою ознакою.
  3. Необхідність розуміти неочевидні зв’язки та залежності, які, можливо, раніше не враховувалися у математичних моделях.

Всі ці проблеми, як і страх перед надінтелектом, який занапастить людство, змусили програмістів у Google створити новий клас алгоритмів «пояснюваного ШІ». Так, алгоритми дають доступ до модулів-пояснень, дерев рішень, за допомогою яких можна зрозуміти, чому модель прийняла певні рішення.

Використання «пояснюваного ШІ» дозволило усунути проблему недовіри між традиційними сферами бізнесу та «чорною скринькою» ML. Бізнес отримав необхідний йому контроль, а вакансії, де у вимогах стоять дерева рішень — уже не змусили на себе чекати. Микола Клєстов

Визначення довіри до окремих прогнозів є важливою проблемою, коли модель використовується для прийняття рішень. Наприклад, при використанні машинного навчання для встановлення медичного діагнозу або виявлення тероризму. На сліпу віру не можна робити прогнози, оскільки наслідки можуть бути катастрофічними. Євгеній Сорока

Зв’яжіться з нами вже зараз
Замовити консультацію

Куди наводять нас тренди у Data Science: висновки

Data Science як сфера, що активно розвивається бізнесом, вже відходить від винятково наукових підходів. Спостерігається загальна тенденція до спрощення та прозорості в технологіях. Ефективність та якість результатів роботи DS-фахівців значно зросла.

Удосконалення інструментів машинного навчання та підвищення зручності їх використання — ось основні тренди на найближчий час. Також у зв’язку з останніми подіями можуть отримати додатковий попит технології Smart City, особливо у сфері моніторингу та оптимізації логістики. Але в той самий час, класичні завдання машинного навчання, як і раніше, актуальні та популярні. Олександр Турчин

Крім того, DS все більше набирає обертів. Це показано як і в зростанні попиту на фахівців у цій сфері, так і в інтересах бізнесу, що зростає. Технології знайшли застосування майже у будь-якій галузі: від сільського господарства, економіки, безпеки до Ecommerce. Загалом помітний тренд на мультидисциплінарність, DS глибоко проникає у нашу повсякденність.

FAQ
Чим займається Data Scientist?
Data scientist — це фахівець зі збирання, зберігання та обробки даних. Він допомагає бізнесу обробляти потік величезних даних. До обов’язків Data scientist входить правильна підготовка, аналіз даних, побудова моделей, їх навчання та тестування.

Наскільки корисним був цей пост?

Click on a star to rate it!

Середній рейтинг 5 / 5. Кількість голосів: 2

Оцінок поки немає! Будьте першим, хто оцінить цю публікацію.

Поділитися з друзями
Залиште коментар

up