Project name:

Аналитическая облачная платформа для совместной работы DS-специалистов – Data Science Workspace

Project description:

DSW logoЦелевая аудитория продукта: Образовательные учреждения по DS, организаторы хакатонов, крупные корпорации со штатом DS более 10 человек.

Технологии и подходы: Многопользовательское серверное решение по модели SaaS с использованием Python, Jupyter Lab, Jupyter Notebook,  Jupyter Hub, ML-библиотек из пакетов Anaconda Distribution и Nvidia, GitLab, VMware, Kubernetes, Docker.

Степень готовности: Релиз бета-версии.

Проблематика: Мы с командой увидели растущую потребность в Data Scientists в России и в мире. В банках, телекоме и даже в производственных компаниях создавались отделы и направления DS. В то же время, им требовались свои инструменты и фреймворки для работы,которым владели не все DevOps спецы, а ещё мощное оборудование для исследований и обучения моделей. Компании также теряли наработки и знания из-за частого перехода DS с одного место на другое.

Суть сервиса: Предоставить компании удобный инструмент совместной работы команды DS на базе Jupyter Lab/Notebook с единой сетевой папкой для работы с общими данными, репозиторием  GitLab для сохранения версий исследований, лучшими преднастроенными библиотеками и фреймворками машинного обучения от сборок Anaconda Distributiion и Nvidia, и, конечно, мониторингом и управлением общими вычислительными ресурсами.

Что получает  компания: Контроль, прозрачность, возможность мониторить эффективность работы команды и сохранять полученные знания.

Что получают специалисты: Удобные инструменты для работы, гарантированные вычислительные мощности и возможность покарать того, кто “отжирает” ресурсы, легко обмениваться результатами исследований и работать с общим массивом данных.

Этапы развития сервиса: Оценил объём и темп роста рынка. Выделил возможные ЦА покупателей сервиса, провёл первичный анализ конкурентов.

После первичной защиты бюджета провёл около 10 custdev интервью с известными компаниями, у которых уже есть штат DS спецов, с потребностями которых позже столкнётся остальной рынок. По результатам кастдева, разработал и приоритезировал feature list с оценкой приоритетов от бизнеса, от технических специалистов и первичной оценкой сложности реализации от нашего архитектора. После чего с командой выбрали базовые фичи и занялись разработкой MVP. Первая демо-версия MVP была готова через месяц, а на второй месяц мы представили свой стенд на одной из AI-конференций в Москве.

Для интегратора мы смогли развить темп, близкий к стартапам. За это хочу сказать спасибо каждому участнику  нашей команды!

В данный момент наша команда выпустила технический релиз. В нём:

  1. Решили вопросы безопасности и привели в порядок архитектуру.
  2. Данные клиентов изолировали  друг от друга и от команды разработки (полноценная поддержка multitenancy).
  3. Реализовали полноценный мониторинг и управление доступами к данным и к вычислительным ресурсам.
  4. Сервис подготовили к первым продажам из нашего защищенного облака.

DSW Monitoring interface example

Параллельно, решил вопросы построения тех. поддержки и интеграции с 1-й линией облачного провайдера. В работе sales-kit и новые видео для первых продаж.

Для создания прототипа потребовались следующие роли:

  • Продакт менеджер/продуктовый аналитик;
  • Архитектор/технический менеджер;
  • Дата инженер 2х;
  • DevOps разработчик 3х;
  • Data Scientist.

Мои роли: Руководитель продуктового направления, продакт, биздев.

Сроки некоторых этапов:

  1. CustDev и выявление потребностей  – 1,5 мес
  2. Выделение и приоритезация фич к MPV – 0.5 мес
  3. Разработка демо-версии MVP – 1 мес
  4. Выпуск первого технического релиза для продаж – 3 мес.

Продукт получился технологически сложным. Команде потребовалось дорабатывать Kubernetes, решать вопросы безопасности  GitLab. Зато теперь можно без труда разработать промежуточные PaaS сервисы c тем же Kubernetes & Docker.

Приоритезация ЦА: После выступления на одной из конференций, ко мне подошло порядка 5 человек с предложениями применить наш сервис в направлении обучения аналитиков данных и Data Science специалистов. В эту группу входят и организаторы хакатонов для крупных компаний – теперь у них появляется возможность организовывать работы на крупных дата-сетах, дающих более высокую точность моделей и простор для исследований.

Сервис DSW практически прошёл этап Discovery: От поиска и валидации гипотез до MVP и первых продаж. По результатам кастедва DSW, выявил потребность в специализации сервиса под конкретную индустрию с готовыми моделями машинного обучения – так родилась ветка MiGA.