Реклама партнера — Название партнёра
UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Кто такой Data Scientist и как понять, что эта карьера для тебя. Обзор профессии от профессионала

Лучший способ понять, нравится ли тебе та или иная профессия — поставить себя на место человека, уже работающего в определенной сфере и попытаться почувствовать себя в его рубашке. Андрей Салата, Principal Data Scientist/Data Architect, Sigma Software, работает в IT более 15 лет, из них более семи лет занимается Data Science. Ввиду стремительного роста рынка Data Science и огромного спроса на таких специалистов Андрей решил рассказать в статье, что это за дисциплина и каких навыков она требует от кандидата.

2 комментария
Кто такой Data Scientist и как понять, что эта карьера для тебя. Обзор профессии от профессионала

Лучший способ понять, нравится ли тебе та или иная профессия — поставить себя на место человека, уже работающего в определенной сфере и попытаться почувствовать себя в его рубашке. Андрей Салата, Principal Data Scientist/Data Architect, Sigma Software, работает в IT более 15 лет, из них более семи лет занимается Data Science. Ввиду стремительного роста рынка Data Science и огромного спроса на таких специалистов Андрей решил рассказать в статье, что это за дисциплина и каких навыков она требует от кандидата.

Что такое Data Science

Чтобы объяснить, что такое Data Science, мы часто используем диаграмму Венна (дигра с концентрическими кругами, которые пересекаются между собой). На нем мы видим, что Data Science образуется на пересечении трех сфер — компьютерных наук, доменной экспертизы, а также математики и статистики.

Под компьютерными науками здесь мы понимаем программирование, построение разных моделей, DevOps и так далее. Доменная экспертиза — это экспертиза в любой предметной области, где есть смысл анализировать данные. Это могут быть медицина, реклама, образование, автопром, социология, сельское хозяйство и т. д. Зачастую хорошими Data Scientists становятся именно специалисты в определенной доменной области. Я, например, начинал как финансист, но быстро понял, что без автоматизации без программирования мне это неинтересно. Ну и конечно, значительная часть Data Science базируется на математике и статистике, поэтому люди с подобным бекграундом тоже часто мигрируют в науку о данных.

Чем занимается Data Scientist

Есть несколько подходов к тому, как описать сущность деятельности Data Scientist. Мне лично нравится эта схема, описывающая разные сферы применения Data Science и разные шаги на пути к полноценному использованию этой отрасли.

Итак, первое — это понимание того, что происходит в бизнесе. Data Science с помощью машинных средств анализа позволяет понять те огромные объемы данных, которые есть в бизнесе. На сегодняшний день почти у каждого бизнеса много данных, но они не знают, что с ними делать. Поэтому они приглашают специалистов Data Science и аналитиков и начинают разбираться.

Собственно, второй шаг, тоже очень тесно перекликающийся с дата-анализом, это Data Mining. Вот есть, скажем, компания Netflix, которая стремится к фильмам и сериалам и собирает кучу информации о пользователях, но не предполагает, что делать со всей этой информацией. Именно тогда используются подходы дата-майнинга, позволяющие в куче информации найти что-то полезное, какие-то паттерны, на основе которых можно сделать определенные предсказания. В начале процесса дата-майнинга специалисты могут даже не понимать и не знать, что именно они ищут — часто это становится понятно уже в процессе.

Data Cleaning — тоже очень интересная и важная отрасль. Практически в 100% случаев данные не идеальны, их нужно упорядочивать, улучшать, очищать от разных аномалий, чтобы сделать качественные выводы. Скажем, у вас есть данные, собираемые со всего завода, из всех датчиков, сенсоров и так далее. И понятно, что если какой-нибудь сенсор сломался или на него кто-то случайно наступил, то он показывает неадекватные данные, на которые нельзя ссылаться. Поэтому, когда мы строим какие-то большие прогностические модели, мы обязательно должны очистить данные от аномалий.

Data Exploration — это, собственно, эксплоретарный анализ, заключающийся в том, что мы исследуем данные, ищем в них какие-то закономерности и рассказываем понятную историю об этих данных.

Feature engineering — это изобретение и проектирование новых характеристик, новых типов, новых данных. Например, у вас есть информация о зарплатах и ​​уровне образования определенной группы населения. Совместив эти два показателя, можно создать некую виртуальную характеристику, позволяющую понимать зависимости и строить модели. Изобретение этих эффективных показателей как раз и называется Feature Engineering.

Есть еще такое направление, как Predictive Modeling. Это собственно и есть цель, к которой стремится вся наука о данных. Хорошо иметь данные и смотреть на них, но конечная цель — прогнозировать будущее с помощью этих данных. Именно этим занимается Predictive Modeling. Например, раньше ученым нужно было провести десятки тысяч экспериментов, чтобы найти белок, который ведет себя именно так, как следует ученым. Сегодня с помощью Machine Learning и Data Science они могут спрогнозировать структуру этого белка, исключить из десяти тысяч возможных комбинаций 99% и сфокусировались наконец на каких-то ста наиболее вероятных случаях. Это очень сильно экономит усилие, время и ускоряет результаты.

Наконец, отдельная история — это Data Visualization. Данные нужно как-то представлять. Одно дело — разобраться в данных самому, совсем другое — уметь донести людям результаты своей работы. Представьте себе, что у вас есть контейнер бумажных анкет, заполняемых при соцопросе. Он может содержать бесценную информацию, но пока этот контейнер лежит в таком виде, он никому не нужен. А вот если вы его разобрали, проанализировали, построили интересные графики, инсайты, рассказывающие историю — это уже другое дело. И эти данные превращаются во что-то очень-очень ценное. И этот процесс преобразования, такой рафинации данных, он очень дорого оплачивается.

Портрет специалиста по Data Science

Кому же может подойти работа в Data Science? Попробуем описать примерный портрет специалиста по Data Science.

  • Любит работать с данными, искать закономерности и аномалии
  • Умеет и любит рассказать историю о данных и презентовать их
  • Разбирается в статистике и программировании
  • Умеет обобщать и детализировать (индукция и дедукция)
  • Видит и чувствует связь между данными и реальными процессами, которые они описывают

Если вас пугают большие данные и вы не любите в них копаться, то есть анализировать, изучать, делать предположения, искать логические объяснения, то позиция Data Scientist — это, скорее всего, не ваша. Нужно любить работу с данными, потому что это 99% работы специалиста по Data Science.

Но должно было понимать данные самому, желательно еще и любить рассказывать истории о данных другим. Ваши находки должны быть донесены тем людям, которые могут реализовать это новое революционное решение. В противном случае ценность вашей работы пропадает.

Знание статистики и программирования — это то, что вполне можно приобрести, если есть интерес к этому. Это также касается индукции и дедукции, потому специалисту из Data Science придется уметь и закапываться в детали, и абстрагироваться до более высокого уровня.

И, конечно, нужно видеть и понимать связь между голыми цифрами и стоящими за ними реальными процессами. Это легко показать на примерах — каждый день почти каждый из нас видит сведение Генерального штаба с цифрами вражеских потерь и так далее. Если вы сразу представляете себе, что стоит за этими данными, сопоставляете с предыдущими периодами и т. д. — вероятно, из вас получится хороший Data Scientist.

Или другой пример. Вы приходите в автосалон и видите авто за миллион гривен и 1,1 млн гривен. Разница вроде бы и небольшая, 10%. Но если вы смотрите на это не только как на цифры, а как на авто и авто + новая мебель или авто + заграничная поездка для всей семьи, то вы уже значительно лучше ощущаете разницу в цене и реально работаете с данными.

Ключевые навыки для Data Scientist

Наконец, приведу краткий перечень навыков, которые следует иметь специалисту по Data Science. Все это можно подтянуть и натренировать, но если вы владеете этими скиллами, ваши стартовые позиции очень сильны.

  • Анализ данных и обработка данных
  • Визуализация данных
  • Основы программирования
  • Обработка данных программными методами
  • Статистика и математика
  • Постоянное познание новых методов и подходов
  • Доменные знания

Даже если вы умеете анализировать и обрабатывать данные на уровне Excel, это очень неплохой старт. Основы программирования знать очень желательно, хотя с нынешним уровнем развития искусственного интеллекта для работы с данными нужно все меньше и меньше программистских скилов. Уж очень много вещей и инструментов создано, нужно только научиться ими пользоваться. Скорее важно понимать, что именно ты делаешь, а не как это запрограммировать. Остальные навыки тоже можно натренировать.

Как войти в Data Science

Первый этап — образование. Вам нужно пройти структурированную образовательную программу, которая разложит по полочкам аспекты, с которых необходимо начать. Есть немало курсов по Data Science, в том числе при крупнейших IT-компаниях, где у вас сразу будет шанс трудоустроиться. Например, я являюсь одним из тренеров курса по Data Science в Sigma Software University и сейчас у нас продолжается новый набор .

Дальше вам необходима практика. Один крутой способ ее получить — это зарегистрироваться на ресурсе Kaggle или аналогах, там есть множество разных соревнований. Выберите любое соревнование и прежде всего сфокусируйте свое внимание не на победе, а в анализе других датасетов, ведь их там невероятное количество. Всегда можно найти интересующий вас, практиковаться и сравнить свои работы с другими. А самое главное — на платформе пользователи публикуют свои соревновательные notebooks, а это позволит вам посмотреть, как работают другие, как решают те или иные задачи и делать выводы.

Третий этап — поиск проекта, на котором вы можете использовать свои Data Science навыки. Практика — это главное. Поскольку в этой сфере очень много математики и статистики, длительное отсутствие практики приводит к тому, что вы просто забываете все это и нужно начинать сначала.

Кто такой Software Developer: гайд по профессии от Андрея Борисенко
Кто такой Software Developer: гайд по профессии от Андрея Борисенко
По теме
Кто такой Software Developer: гайд по профессии от Андрея Борисенко
«Если красивые модельки будут иметь топорную анимацию то это испортит игру». Кто такой 3D-аниматор и каким стать
«Если красивые модельки будут иметь топорную анимацию, это испортит игру». Кто такой 3D-аниматор и как им стать
По теме
«Если красивые модельки будут иметь топорную анимацию, это испортит игру». Кто такой 3D-аниматор и как им стать
На пересечении трех измерений: анализ данных маркетинга и ИТ. Кто такой вебаналитик и как он помогает не сливать бюджет
На пересечении трех измерений: анализа данных, маркетинга и ИТ. Кто такой вебаналитик и как он помогает не сливать бюджет
По теме
На пересечении трех измерений: анализа данных, маркетинга и ИТ. Кто такой вебаналитик и как он помогает не сливать бюджет
13 бесплатных сертификационных курсов по Data Science для начинающих и профессионалов
13 бесплатных сертификационных курсов по Data Science для начинающих и профессионалов
По теме
13 бесплатных сертификационных курсов по Data Science для начинающих и профессионалов
Читайте главные IT-новости страны в нашем Telegram
Читайте главные IT-новости страны в нашем Telegram
По теме
Читайте главные IT-новости страны в нашем Telegram
Читайте также
Профессии в IT. Кто такие тимлиды, что они должны знать и как их оценивать?
Профессии в IT. Кто такие тимлиды, что они должны знать и как их оценивать?
Профессии в IT. Кто такие тимлиды, что они должны знать и как их оценивать?
Большинство молодых айтишников с первых дней работы мечтают вырасти до сеньора и стать тимлидом, менторить джунов и помогать команде решать сложные задачи. Однако какими именно компетенциями должен обладать тимлид, что уметь и где учиться — вопрос для многих открыт. Чтобы прояснить эту ситуацию, мы пообщались с Solutions Architect в компании DataArt Дмитрием Куперманом, уже много лет занимающимся асесментом тимлидов в компании: проводит интервью и оценивает подготовку и опыт коллег и кандидатов.
Джун ищет работу? 10+ работодателей о возможностях для молодых специалистов в украинском IT
Джун ищет работу? 10+ работодателей о возможностях для молодых специалистов в украинском IT
Джун ищет работу? 10+ работодателей о возможностях для молодых специалистов в украинском IT
Тысячи джунов — близкое будущее IT-индустрии, ведь из-за войны многие потерявшие работу люди решили переквалифицироваться и стать айтишниками. Будет ли для всех их работа? Не факт. Поскольку не все компании сотрудничают с начинающими. И даже те, кто готовит для себя кадры самостоятельно, с начала года зафиксировали небывалый наплыв желающих учиться. В частности, только в EPAM Univercity заявки на обучение подали 18 000 желающих. Уже восстановились и превзошли довоенные показатели и IT-школы: количество студентов в IT-школе Mate academy выросло вдвое до 550 слушателей на обучении полного дня, в GoIT — на 40% до 5000 студентов. dev.ua расспросил работодателей, какие возможности у них есть для джунов и готовы ли они растить себе кадры.
«Менеджмент не заканчивается на словах Agile или Kanban"». Кто такой Project Manager и как им стать
«Менеджмент не заканчивается на словах Agile или Kanban"». Кто такой Project Manager и как им стать
«Менеджмент не заканчивается на словах Agile или Kanban"». Кто такой Project Manager и как им стать
Желающих войти в IT с каждым днем становится больше. Однако большинство потенциальных айтишников оказываются перед сложным выбором: кем стать, чтобы работать в сфере информационных технологий. dev.ua начинает новую рубрику, в которой будет рассказывать, какие специальности в украинском IT есть, что делают конкретные специалисты и где учиться, чтобы стать айтишником. Сегодня о профессии Project Manager рассказывает опытный PM в EPAM Яна Стильчук,
«Ситуация уже прошла точку критического дна». Что происходит на рынке труда и есть ли шанс на возобновление активного найма в украинском IT
«Ситуация уже прошла точку критического дна». Что происходит на рынке труда и есть ли шанс на возобновление активного найма в украинском IT
«Ситуация уже прошла точку критического дна». Что происходит на рынке труда и есть ли шанс на возобновление активного найма в украинском IT
36% потерявших работу украинцев не знают, как ее искать, рапортует Work.ua. В частности, 15% читателей dev.ua, согласно опросу, также оказались за бортом и не работают. Жалуются на довольно скромный найм по сравнению с довоенными временами и рекрутеры. Вывод о том, что рынок кандидата из-за войны превратился в рынок работодателя уже ни у кого не вызывает сомнений. 

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
0

Дуже змістовна стаття! Особливо цінно, що описані не лише технічні аспекти, а й особливості мислення, яке потрібно розвивати. Професія Data Scientist справді вимагає балансу між аналітикою, креативністю та бізнес-орієнтованістю. І найкрутіше те, що в цю сферу можна увійти з різних бекграундів, головне — інтерес до даних і бажання постійно вчитись.
Детальніше тут https://budni.robota.ua/career-guide/data-scientist

0

Дякую за детальний огляд професії Data Scientist! Дуже корисно бачити, які навички та щоденні задачі чекають на фахівця. Цікаво порівняти цей напрямок із іншими професіями – наприклад, мене завжди цікавила зарплата журналіста (https://budni.robota.ua/career-guide/zhurnalist) у порівнянні з IT-сферами, щоб зрозуміти перспективи та вибрати кар’єрний шлях, який більше відповідає моїм цілям.