🚨⚡🚨 Біткоін по $100к. Час встановлювати Trustee Plus і безкоштовно випускати картку для розрахунків 👉
Марія БровінськаУвійти в ІТ
18 січня 2024, 15:45
2024-01-18
Хто такий Data Scientist і як зрозуміти, що ця кар’єра для тебе. Огляд професії від професіонала
Найкращий спосіб зрозуміти, чи подобається тобі та чи інша професія — поставити себе на місце людини, яка вже працює в певній сфері й спробувати відчути себе в її сорочці. Андрій Салата, Principal Data Scientist/Data Architect, Sigma Software, працює в IT понад 15 років, із них понад сім років займається Data Science. Зважаючи на стрімке зростання ринку Data Science й величезний попит на таких спеціалістів, Андрій вирішив розповісти у статті, що це за дисципліна і яких навичок вона вимагає від кандидата.
Щоб пояснити, що таке Data Science, ми часто використовуємо діаграму Венна (діграма з концентричними колами, які перетинаються між собою). На ній ми бачимо, що Data Science утворюється на перетині трьох сфер — комп’ютерних наук, доменної експертизи, а також математики й статистики.
Під комп’ютерними науками тут ми розуміємо програмування, побудову різних моделей, DevOps і так далі. Доменна експертиза — це експертиза в будь-якій предметній області, де є сенс аналізувати дані. Це може бути медицина, реклама, освіта, автопром, соціологія, сільське господарство тощо. Часто хорошими Data Scientists стають саме спеціалісти в певній доменній області. Я, наприклад, починав як фінансист, але швидко зрозумів, що без автоматизації, без програмування мені це нецікаво. Ну, і звісно, значна частина Data Science базується на математиці та статистиці, тому люди з подібним бекграундом теж часто мігрують в науку про дані.
Чим займається Data Scientist
Існує декілька підходів до того, як описати сутність діяльності Data Scientist. Мені особисто подобається ця схема, що описує різні сфери застосування Data Science й різні кроки на шляху до повноцінного використання цієї галузі.
Отже, перше — це розуміння того, що відбувається в бізнесі. Data Science за допомогою машинних засобів аналізу дозволяє зрозуміти ті величезні обсяги даних, які є у бізнесі. На сьогодні майже у кожного бізнесу є багато даних, але вони не знають, що з ними робити. Тому вони запрошують спеціалістів із Data Science та аналітиків і починають розбиратися.
Власне, другий крок, який теж дуже тісно перекликається з дата-аналізом, це Data Mining. От є, скажімо, компанія Netflix, яка стрімить фільми та серіали й збирає купу інформації про користувачів, але не має гадки, що робити з усією цією інформацією. Саме тоді використовуються підходи дата-майнінгу, які дозволяють у купі інформації знайти щось корисне, якісь паттерни, на основі яких можна зробити певні передбачення. На початку процесу дата-майнінгу спеціалісти можуть навіть не розуміти і не знати, що саме вони шукають — часто це стає зрозуміло вже в процесі.
Data Cleaning — теж дуже цікава і важлива галузь. Практично у 100% випадків дані не ідеальні, їх треба упорядковувати, покращувати, очищати від різних аномалій, щоб зробити якісні висновки. Скажімо, у вас є дані, що збираються з усього заводу, з усіх датчиків, сенсорів і так далі. І зрозуміло, що якщо якийсь сенсор поламався або на нього хтось випадково наступив, то він показує неадекватні дані, на які не можна посилатися. Тому, коли ми будуємо якісь великі прогностичні моделі, ми обов’язково маємо очистити дані від аномалій.
Data Exploration — це, власне, експлоретарний аналіз, який полягає в тому, що ми досліджуємо дані, шукаємо в них якісь закономірності й розповідаємо зрозумілу історію про ці дані.
Feature engineering — це винайдення і проєктування нових характеристик, нових типів, нових даних. Наприклад, у вас є інформація про зарплати й рівень освіти певної групи населення. Поєднавши ці два показники, можна створити якусь віртуальну характеристику, яка дозволяє розуміти залежності й будувати моделі. Винайдення оцих ефективних показників якраз і називається Feature Engineering.
Є ще такий напрям, як Predictive Modeling. Це, власне, і є ціль, до якої прагне уся наука про дані. Добре мати дані й дивитися на них, але кінцева мета — прогнозувати майбутнє за допомогою цих даних. Саме цим займається Predictive Modeling. Наприклад, раніше вченим треба було провести десятки тисяч експериментів, щоб знайти білок, який поводить себе саме так, як треба вченим. А сьогодні за допомогою Machine Learning та Data Science вони можуть спрогнозувати структуру цього білка, виключити з десяти тисяч можливих комбінацій 99% і сфокусувалися нарешті на якихось ста найбільш вірогідних випадках. Це дуже сильно економить зусилля, час і пришвидшує результати.
Нарешті, окрема історія — це Data Visualization. Дані треба якось репрезентувати. Одна справа — розібратися в даних самому, зовсім інша — вміти донести людям результати своєї роботи. Уявіть собі, що у вас є контейнер паперових анкет, які заповнювали при соцопитуванні. Він може містити неоціненну інформацію, але поки цей контейнер лежить в такому вигляді, він нікому не потрібен. А от якщо ви його розібрали, проаналізували, побудували цікаві графіки, інсайти, які розповідають історію — це вже інша справа. І ці дані перетворюються в щось дуже-дуже цінне. І оцей процес перетворення, такої рафінації даних, саме він дуже дорого оплачується.
Портрет спеціаліста з Data Science
То кому ж може підійти робота в Data Science? Спробуємо описати приблизний портрет спеціаліста з Data Science.
Любить працювати з даними, шукати закономірності й аномалії
Вміє і любить розповісти історію про дані та презентувати їх
Знається на статистиці та програмуванні
Вміє узагальнювати та деталізувати (індукція та дедукція)
Бачить і відчуває зв’язок між даними та реальними процесами, які вони описують
Якщо вас лякають великі дані та ви не любите в них копирсатись, тобто аналізувати, вивчати, робити припущення, шукати логічні пояснення, то позиція Data Scientist — це, швидше за все, не ваше. Потрібно любити працювання з даними, тому що це 99% роботи спеціаліста з Data Science.
Але мало розуміти дані самому, бажано ще й любити розповідати історії про дані іншим. Ваші знахідки мають бути донесені тим людям, які можуть втілити оце нове революційне рішення. Інакше цінність вашої роботи пропадає.
Знання статистики та програмування — це те, що цілком можна набути, якщо до цього є інтерес. Це також стосується індукції та дедукції, бо спеціалісту з Data Science доведеться вміти та закопуватися в деталі, і абстрагуватися до вищого рівня.
І, звісно, треба бачити та розуміти зв’язок між голими цифрами та реальними процесами, що стоять за ними. Це легко показати на прикладах — щодня майже кожен з нас бачить зведення Генерального штабу з цифрами ворожих втрат і так далі. Якщо ви одразу уявляєте собі, що стоїть за цими даними, зіставляєте з попередніми періодами й т. д. — імовірно, з вас вийде непоганий Data Scientist.
Або інший приклад. Ви приходите в автосалон і бачите авто за мільйон гривень і за 1,1 млн гривень. Різниця нібито й невелика, 10%. Але якщо ви дивитеся на це не лише як на цифри, а як на авто й авто + нові меблі або авто + закордонна поїздка для всієї родини, то ви вже значно краще відчуваєте різницю в ціні й реально працюєте з даними.
Ключові навички для Data Scientist
Нарешті, наведу короткий перелік навичок, які варто мати спеціалісту з Data Science. Все це можна підтягнути й натренувати, але якщо ви володієте цими скілами, ваші стартові позиції дуже сильні.
Аналіз даних та обробка даних
Візуалізація даних
Основи програмування
Обробка даних програмними методами
Статистика та математика
Постійне пізнання нових методів та підходів
Доменні знання
Навіть якщо ви вмієте аналізувати та обробляти дані на рівні Excel, це вже дуже непоганий старт. Основи програмування знати дуже бажано, хоча з нинішнім рівнем розвитку штучного інтелекту для роботи з даними треба все менше й менше програмістських скілів. Уже дуже багато речей і інструментів створено, треба лише навчитися ними користуватися. Скоріше, важливо розуміти, що саме ти робиш, а не як це запрограмувати. Решта навичок теж можна натренувати.
Як увійти в Data Science
Перший етап — освіта. Вам потрібно пройти структуровану освітню програму, яка розкладе по поличках аспекти, з яких необхідно почати. Є чимало курсів із Data Science, зокрема й при найбільших IT-компаніях, де у вас одразу буде шанс працевлаштуватися. Наприклад, я є одним із тренерів курсу з Data Science в Sigma Software University і зараз у нас триває новий набір.
Далі вам необхідна практика. Один крутий спосіб її отримати — це зареєструватися на ресурсі Kaggle або аналогах, там є безліч різних змагань. Оберіть будь-яке змагання і насамперед сфокусуйте свою увагу не на перемозі, а аналізі інших дата-сетів, адже їх там неймовірна кількість. Завжди можна знайти цікавий вам, практикуватись і порівняти свої роботи з іншими. А найголовніше — на платформі користувачі публікують свої змагальні notebooks, а це дасть вам змогу подивитись, як працюють інші, як вирішують ті чи інші задачі та робити для себе висновки.
Третій етап — пошук проєкту, на якому ви можете використати свої Data Science навички. Практика це головне. Оскільки у цій сфері дуже багато математики й статистики, тривала відсутність практики призводить до того, що ви просто забуваєте все це і потрібно починати спочатку.
Джун шукає роботу? 10+ роботодавців про можливості для молодих спеціалістів в українському IT
Тисячі джунів — близьке майбутнє IT-індустрії, адже через війну чимало людей, що втратили роботу, вирішили переквалфікуватися і стати айтішниками. Чи буде для всіх робота? Не факт. Оскільки не всі компанії співпрацюють с початківцями. Та навіть ті, хто готує для себе кадри самостійно, з початку року зафіксували небувалий наплив бажаючих вчитися. Зокрема, тільки в EPAM Univercity заявки на навчання подали 18 000 охочих. Вже відновилися і перевершили довоєнні показники і IT-школи: кількість студентів в IT-школі Mate academy зросла вдвічі до 550 слухачів на навчанні повного дня, у GoIT — на 40% до 5000 студентів.
dev.ua розпитав роботодавців, які можливості вони мають для джунів та чи готові вони ростити собі кадри.
«Ситуація вже пройшла точку критичного дна». Що відбувається на ринку праці та чи є шанс на відновлення активного найму в українському IT
36% українців, які втратили роботу, не знають, як її шукати, рапортує Work.ua. Зокрема, 15% читачів dev.ua, згідно з опитуванням, також опинилися за бортом і наразі не працюють. Скаржаться на досить скромний найм у порівнянні з довоєнними часами і рекрутери. Висновок, що ринок кандидата через війну перетворився на ринок роботодавця, вже ні в кого не викликає сумнівів.
IT-компанії вербують в IT родичів своїх співробітників. Що пропонують Sigma Software, EPAM, DataArt, SoftServe, Luxoft
Українські офіси великих IT-компаній пропонують для родичів своїх співробітників особливі умови для входу в IT. DOU опитав низку компаній, які запустили ініціативи з навчання близьких своїх співробітників нової професії на тлі повномасштабної війни. Розповідаємо найцікавіше.
«Війна забрала в мого покоління 10 років життя». Як ми будемо вчитися IT під час та після війни: висновки Максима Почебута
Сьогодні, коли весь світ сколихнула війна в Україні, ми, українці, не припиняємо свою боротьбу за те, у що віримо, ми продовжуємо робити бізнес, ми продовжуємо працювати, ми продовжуємо навчатися. Якого впливу зазнала освіта, чи актуальне навчання в ІТ, на чому сфокусовані тренінгові центри великих компаній сьогодні, розповів dev.ua Максим Почебут, Chief Learning Officer у Sigma Software та віцепрезидент з питань освіти ІТ Асоціації України.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі