Як і з якими даними працюють дата-саєнтисти в райдшерінгу.
x
І чому туди наймають навіть джунів
У 2010 році на ринку України з'явився сервіс виклику авто через Інтернет. Зараз Uklon - один з найпопулярніших в країні. У компанії працює понад 500 осіб. 14 з них - технічні фахівці департаменту Data Science & Analytics.

Запитали у Володимира Андрієнка, Head of Department, які дані доступні співробітникам, і чи варто переживати за їх конфіденційність. Також дізналися, чим займаються дата-саєнтисти й аналітики в компанії, і як вони можуть допомогти з міською мобільністю. А ще вияснили, кого шукають у команду tech/uklon.
Команда та робочий процес
У Департаменті Data Science&Analytics три команди.

ML-розробка в цій команді три Python-розробники, бізнес-аналітик і мануальний QA.

У них два основні завдання:

Впроваджувати рішення,
які придумують
саєнтисти й аналітики
Розробляти та підтримувати
роботу головного
сховища даних
ML-дев працює за скрам-методологією, у них є звичайні двотижневі спринти, вони плануються й розробляють, а потім проводять ретроспективу.
Друга команда - це дата-аналітики.

У нас є продуктові метрики. Наприклад, поїздки користувачів, їх задоволеність і їх лояльність — NPS. Також є інформація про водія: скільки він відпрацював на зміні, скільки чекав замовлення, скільки їздив, а скільки подавався на наступне.

Ці метрики й різні їх комбінації важливі для бізнесу. Наприклад, ми безперервно аналізуємо поїздки в просторі та часі. Якщо бачимо, що в якійсь з локацій не вистачає водіїв - включаємо програми залучення й задовольняємо попит. Або навпаки: якщо бачимо багато вільних водіїв - залучаємо клієнтів.

Також ми постійно стежимо за заробітком наших партнерів-водіїв. Якщо вони, працюючи виділену кількість часу, не можуть забезпечити собі певний заробіток - вживаємо заходів. З ними працюють аналітики.

Команда працює по канбану. Там все просто: залітає завдання, є відповідальні за домени, кожен зі своєї дошки бере завдання найвищого пріоритету й працює над ним.

Основний інструмент команди аналітиків - Tableau. Також частину потреб закриваємо за допомогою Apache SuperSet. Всі дані живуть в основному в PostgreSQL, але зараз активно переїжджаємо в SnowFlake + AWS.
Третя команда - це дата-саєнс, зараз в ній чотири людини: два сеньйора, два джуніора.

Саєнтисти займаються логічними завданнями, опрацюванням моделей, опрацюванням функціоналу.

Умовно їх завдання можна розділити на дві частини:

Пошук інсайтів за допомогою складних інструментів - те, до чого не можуть докопатися аналітики. Насамперед це використання Python-бібліотек та застосування методів машинного навчання. Ми сегментуємо аудиторію, "пояснюємо" дії користувачів в різних продуктових ситуаціях (іноді не зовсім очевидні).
Розробка рішень, які працюють в бою. Наприклад, система ціноутворення - це модель, яка розроблена повністю командою Data Science в кілька ітерацій. Після вона була протестована-підпиляна, а далі її передали в розробку першій команді, яка впроваджує це в код, загортає в додаток, метрики простягає, з девопсами спілкується, і результат цієї моделі вже проштовхує в продукт.
Дата-саєнтисти працюють за методологією CRISP-DM - це, по суті, той же канбан - у кожного саєнтиста є дошка, там розташовані гіпотези. Завдання - перевірити гіпотезу, але є специфіка. Вона в пріоритеті гіпотез-завдань. Тут враховується кілька факторів: скільки коштує реалізація, який ефект гіпотеза принесе для бізнесу, наскільки вона складна, чи є на це ресурси. Враховуються всі ці фактори, й тоді команда вирішує, що відправити в розробку.
О 10 ранку у нас обов'язкові стендапи. У кожної з трьох команд - свій мітинг. Зустрічі перетинаються, і я якось намагаюся періодично в них брати участь. Кожен день пріоритезую, на який стендап піти сьогодні.
Доступ до даних
і градація доступу
Є вісім рівнів доступу: від 0 до 7. Збільшується рівень - зростає захист. Нульовий відкритий всім: це публічна інформація про компанію та її співробітників.

Рівень 7це коли недоступно нікому, Сенситів-дані на зразок паролів, які ми не зберігаємо, або шифруємо, їх ніхто не бачить.

Рівень 6це доступ до адмінки. Вся інформація про наші два типи клієнтів, про пасажирів і про водіїв знаходиться там. Можна подивитися рейтинг пасажира, його контактні дані, маршрут поїздки, також можна дізнатися рейтинг водія, перевірити його документи на реєстрацію, досвід роботи з нами.

В адмінці можна ввести дані акаунту чи дату, або обидва критерії, - й подивитися все, що потрібно: маршрут, карту, о котрій приїхав водій, скільки водіїв брало участь в розподілі замовлення, який водій взяв пасажира, як довго їхав, як їхав, як довго чекав пасажира, коли приїхав, як потім вони їхали, який маршрут був заданий нами й за яким фактичним маршрутом вони їхали. Як проходила оплата: картою-не картою, яка була сума тощо.

Рівні доступу розподілені відповідно до позицій, які займають співробітники. Для керівників unit і division доступи відрізняються. Також ми розподіляємо доступ до одного рівня "секретності" даних в залежності від доменів. Наприклад, користувачам зі Львова доступна не вся інформація про замовлення всієї країни.

Швидкісні режими київських водіїв Uklon
Швидкісні режими київських водіїв Uklon
Дивіться інтерактивну карту даних із десктопної версії проєкту
Навіщо потрібні ці дані?

Це інсайти, які ми можемо використовувати для розвитку бізнесу: які райони більш популярні вранці, а які ввечері? звідки більше замовлень: з Позняків чи Святошина? Тут все дуже динамічно. Наприклад, топ в кількості замовлень зі спальних районів в будні дні - це Позняки-Осокорки-Харківський. Увечері сильно простежуються напрямки спортивних клубів і розважальних закладів.
Heatmap Києва
Heatmap Києва
Дивіться інтерактивну карту даних із десктопної версії проєкту
Для мене, наприклад, стало відкриттям, що всередині виключно Лівого берега є великий ринок перевезень. Було якесь класичне розуміння, що всі їдуть з ранку зі спальників у центр, а ввечері — назад. Я не підозрював, що у нас такий великий трафік, великий потік людей, які пересуваються виключно в рамках Лівого берега. Такого роду інсайти допомагають планувати поїздки. Вони верхньорівневі, але допомагають зрозуміти, як місто живе протягом дня.
Замовлення на Лівому березі
Замовлення на Лівому березі
Дивіться інтерактивну карту даних із десктопної версії проєкту
Ще з цікавого: ми відстежили, як розподіляються замовлення з аеропорту «Бориспіль». І визначили сегмент водіїв, які беруть замовлення виключно в/з аеропорту.
Водії здійснюють поїздки з "Борисполя"
Водії здійснюють поїздки
з "Борисполя"
Дивіться інтерактивну карту даних із десктопної версії проєкту
Проєкт
Антифрод-рішення з контролю зловживанням. Спочатку цей проєкт був частиною аналітичної команди. Але в міру знаходження нових сценаріїв і спроб зловживань стало зрозуміло, що цим мають займатися виділені фахівці. Зараз один співробітник займається цим на 100%, і ще троє частково залучаються.
Проєкт по surge-коефіцієнт, яку бачить користувач при підвищеному попиті. Це перший ML-сервіс, який викотив Uklon, він враховує безліч факторів: фактичний попит-пропозиція, прогнози попиту і пропозиції, погоду, пробки на дорогах.
Продовження цього проєкту - власний інструмент моніторингу заторів.Реліз у Одесі, Львові, Вінниці та Чернігові вже відбувся у січні 2022 року. Дані використовуватимуться для закриття власних потреб. Але у найближчому майбутньому ми використовуємо наші дані для допоміжних сервісів, наприклад, для навігатора водіїв. Продавати дані не плануємо, але для деяких міст України скористаємося можливістю докупити дані (у зв'язку з поки ще недостатньою кількістю водіїв).
Карта пробок в Одесі
Карта пробок в Одесі
Дивіться інтерактивну карту даних із десктопної версії проєкту
Share - з його допомогою можна шерити поїздки. Ми запускали його, коли був перший карантин, зібрали команду і викотили MVP дуже швидко.
Один з ключових проєктів зараз - автоматизація обробки користувальницьких фідбеків. У нас потужна система зворотного зв'язку. Зараз ми єдиний сервіс пошуку авто в Україні, де підтримка працює 24/7 і вона "жива". Мета проєкту - збільшити кількість відгуків у відсотках від поїздок. Це дозволить нам стежити за якістю сервісу й оперативно реагувати на відхилення від норм. Це вимагає автоматизації.
Кого шукають в команду
Зараз ми шукаємо дата-аналітика. Одна з головних вимог - продуктове мислення і живий інтерес до того, що ми робимо.

Ми часто наймаємо джунів і ростимо їх експертизу всередині. Тому що є проблема з пошуком хороших фахівців. Плюс у нас багато завдань, які можна довірити таким фахівцям. Є якась фішка в додатку, припустимо, яка дратує користувачів, але особливо не несе цінності. Для сеньйора робота над таким завданням - це не найефективніше використання часу, а для джуна — можливість показати себе.
Передрук матеріалів dev.ua можливий тільки з письмового дозволу редакції. При цитуванні обов'язкове пряме гіперпосилання на відповідні матеріали.

Пишіть [email protected]
ва
Made on
Tilda