Как и с какими данными работают дата-сайентисты в райдшеринге.
x
И почему туда нанимают даже джунов
В 2010 на рынке Украины появился сервис вызова авто через интернет. Сейчас Uklon один из самых популярных в стране. В компании работает более 500 человек. 14 из них – технические специалисты департамента Data Science & Analytics.

Спросили у Владимира Андриенко, Head of Department, какие данные доступны сотрудникам, и стоит ли переживать за их конфиденциальность. Также узнали, чем занимаются дата-саентисты и аналитики в компании, и как они могут помочь с городской мобильностью. А еще выяснили, кого ищут в команду tech/uklon.
Команда и рабочий процесс
В департаменте Data Science & Analytics три команды.

ML-разработка – в этой команде три Python-разработчика, бизнес-аналитик, и мануальный QA.

У них две основные задачи:

Внедрять решения,
которые придумывают
сайентисты и аналитики
Разрабатывать и поддерживать
работу главного
хранилища данных
ML-дев работает по скрам-методологии, у них есть обычные двухнедельные спринты, они планируются – и девелопят, потом проводят ретроспективу.
Вторая команда – это дата-аналитики.

У нас есть продуктовые метрики. Например, поездки пользователей, их удовлетворенность и их лояльность – NPS. Также есть информация о водителе: сколько он отработал на смене, сколько ждал заказа, сколько ездил, а сколько подавался на следующий.

Эти метрики и разные их комбинации важны для бизнеса. Например, мы непрерывно анализируем поездки в пространстве и времени. Если видим что в какой-то из локаций не хватает водителей – включаем программы привлечения и удовлетворяем спрос. Или наоборот, если видим много свободных водителей – привлекаем клиентов.

Также мы постоянно следим за заработком наших партнеров – водителей. Если они, работая выделенное количество времени, не могут обеспечить себе определенный заработок – принимаем меры. С ними работают аналитики.

Команда работает по канбану. Там всё просто: залетает задача, есть ответственные за домены, каждый из своей доски берёт задачу, у которой самый высокий приоритет, – и работает над ней.

Основной инструмент команды аналитиков – Tableau. Также часть потребностей закрываем с помощью Apache SuperSet. Все данные живут в основном в PostgreSQL, но сейчас активно переезжаем в SnowFlake + AWS.
Третья команда – это дата-сайенс, сейчас в ней 4 человека: два сеньора, два джуниора.

Сайентисты занимаются логическими задачами, проработкой моделей, проработкой функционала.

Условно их задачи можно разделить на две части:

Поиск инсайтов с помощью сложных инструментов – то, до чего не могут докопаться аналитики. В первую очередь это использование Python-библиотек и применение методов машинного обучения . Мы сегментируем аудиторию, «объясняем» действия пользователей в различных продуктовых ситуациях (иногда не совсем очевидные).
Разработка решений, которые работают в бою. Например, система ценообразования – это модель, которая разработа полностью командой Data Science в несколько итераций. После она была протестирована-подпилена – и потом ее передали в разработку первой команде, которая внедряет это в код, заворачивает в приложение, метрики протягивает, с девопсами общается и результат этой модели дальше проталкивает в продукт уже.
Дата-сайентисты работают по методологии CRISP-DM – это по сути тот же канбан – у каждого сайентиста есть доска, там расположены гипотезы. Задача – проверить гипотезу, но есть специфика. Она в приоритезации гипотез-задач. Здесь учитывается несколько факторов: сколько стоит реализация, какой эффект гипотеза принесёт для бизнеса, насколько она сложная, есть ли на это ресурсы. Учитываются все эти факторы, и после команда решает, что отправить в разработку.
В 10 утра у нас обязательные стендапы. У каждой из трёх команд – свой митинг. Встречи пересекаются, и я как Head of Department стараюсь периодически на них участвовать. Каждый день приоритизирую, на какой стендап пойти сегодня.
Доступ к данным
и градация доступа
Есть восемь уровней доступа: от 0 до 7. По возрастанию растет доступ. Нулевой открыт всем: это публичная информация о компании и ее сотрудниках.

Уровень 7 – это когда недоступно никому, сенситив-данные вроде паролей, которые мы не храним или шифруем, их никто не видит.

Уровень 6 – это доступ к админке. Вся информация о наших двух типах клиентов, о пассажирах и о водителях, находится там. Можно посмотреть рейтинг пассажира, его контактные данные, маршрут поездки, также можно узнать рейтинг водителя, проверить его документы на регистрацию, опыт работы с нами.

В админке можно ввести данные аккаунта либо дату, либо оба критерия – и посмотреть всё, что нужно: маршрут, карту, во сколько приехал водитель, сколько водителей участвовало в распределении заказа, какой водитель взял, как долго он ехал, как он ехал, как долго он ждал пассажира, когда приехал, как потом они ехали, какой маршрут был задан нами и по какому фактическому маршруту они ехали. Как проходила оплата – картой, не картой, какая была сумма и прочее.

Уровни доступа распределены согласно позициям, которые занимают сотрудники. Для руководителей unit и division доступы отличаются. Также мы распределяем доступ к одному уровню «секретности» данных в зависимости от доменов. Например, пользователям из Львова доступна не вся информация о заказах всей страны.

Скоростные режимы киевских водителей Uklon
Скоростные режимы киевских водителей Uklon
Смотрите интерактивную карту данных с декстопной версии проекта
Зачем нужны эти данные?

Это инсайты, которые мы можем использовать для развития бизнеса: какие районы более популярны утром, а какие вечером? откуда больше заказов: из Позняков или Святошино? Здесь всё очень динамично. Например, топ в количестве заказов из спальных районов в будние дни – это Позняки-Осокорки-Харьковский. Вечером сильно прослеживаются направления спортивных клубов и развлекательных заведений.
Heatmap Киева
Heatmap Киева
Смотрите интерактивную карту данных с декстопной версии проекта
Для меня, например, стало открытием, что внутри исключительно Левого берега есть большой рынок перевозок. Было какое-то классическое понимание, что все едут с утра со спальников в центр, а вечером – обратно. Я не подозревал, что у нас такой большой трафик, большой поток людей, которые передвигаются исключительно в рамках Левого берега. Такого рода инсайты помогают планировать поездки. Они верхнеуровневые, но помогают понять, как город живет в течение дня.
Заказы на Левом берегу
Заказы на Левом берегу
Смотрите интерактивную карту данных с декстопной версии проекта
Ещё из интересного: мы отследили, как распределяются заказы из аэропорта «Борисполь». И определили сегмент водителей, которые берут заказы исключительно в/из аэропорта.
Водители совершают поездки из «Борисполя»
Водители совершают поездки из «Борисполя»
Смотрите интерактивную карту данных с декстопной версии проекта
Команда и рабочий процесс
Антифрод-решение по контролю злоупотреблением. Изначально этот проект был частью аналитической команды. Но по мере нахождения новых сценариев и попыток злоупотреблений стало понятно, что этим должны заниматься выделенные специалисты. Сейчас один сотрудник занимается этим на 100%, и еще трое частично привлекаются.
Проект по surge-коэффициент, которую видит пользователь при повышенном спросе. Это первый ML-сервис, который выкатил Uklon, он учитывает множество факторов: фактический спрос-предложение, прогнозы спроса и предложения, погоду, пробки на дорогах.
Продолжение этого проекта – собственный инструмент мониторинга пробок. Релиз в Одессе, Львове, Виннице и Чернигове уже состоялся в январе 2022 года. Данные будут использоваться для закрытия собственных потребностей. Но в ближайшем будущем мы используем наши данные для вспомогательных сервисов, например, для навигатора водителей. Продавать данные не планируем, но для некоторых городов Украины воспользуемся возможностью докупить данные (в связи с пока еще недостаточным количеством водителей).
Карта пробок в Одессе
Карта пробок в Одессе
Смотрите интерактивную карту данных с декстопной версии проекта
Share – с его помощью можно шарить поездки. Мы запускали его когда был первый карантин, собрали команду и выкатили MVP очень быстро.
Один из ключевых проектов сейчас – автоматизация обработки пользовательских фидбэков. У нас мощная система обратной связи. Сейчас мы единственный сервис поиска авто в Украине, где поддержка работает 24/7 и она «живая». Цель проекта – увеличить количество отзывов в процентах от поездок. Это позволит нам следить за качеством сервиса и оперативно реагировать на отклонения от норм. Это требует автоматизации.
Кого ищут в команду
Сейчас мы ищем дата-аналитика. Одно из главных требований – продуктовое мышление и живой интерес к тому, что мы делаем.

Мы часто нанимаем джунов и растим их экспертизу внутри. Потому что есть проблема с поиском хороших специалистов. Плюс у нас много задач, которые можно возложить на джуниор специалистов. Есть какая-то фишка в приложении, допустим, которая раздражает пользователей, но особо не несет ценности. Для сеньора работа над такой задачей – это не самое эффективное использование времени, а для джуна – возможность показать себя.

Перепечатка материалов dev.ua возможна только с письменного разрешения редакции. При цитировании обязательна прямая гиперссылка на соответствующие материалы.

Пишите [email protected]
ва
Made on
Tilda