Data Lake  на базе технологий Hadoop в банке ВТБ
ПАО «Банк ВТБ» — системообразующий финансовый институт, являющийся ключевым звеном банковской группы ВТБ и одним из крупнейших банков России.
Подробнее о клиенте

Кратко о проекте

В рамках стратегии по цифровой трансформации банк ВТБ развивает инструменты анализа данных для целей риск-менеджмента и поддержки любых процессов, где эффективно применение алгоритмов машинного обучения и требуется обработка больших данных. С использованием стека технологий Hadoop развернуто хранилище в концепции Data Lake для объединения и обработки данных в неструктурированном или слабоструктурированном виде из корпоративного DWH и других внутренних источников, а также сведений из внешнего источника — Право.ру.

Первой практической задачей, решенной на основе Data Lake, стала автоматизация мониторинга факторов кредитного риска корпоративных клиентов. Ежедневно осуществляется расчет 20 показателей факторов кредитного риска (ФКР), реализована визуализация клиентских рейтингов на основании рассчитанных ФКР, а с помощью BI-инструментов кредитные аналитики банка могут просматривать детальную информацию по клиенту. При этом работа с данными осуществляется бизнес-пользователями без привлечения ИТ-службы.

Кроме того, Data Lake и аналитические песочницы, созданные на его основе, — это возможность для Data Scientist делать продуктивные ошибки, быстро проверять гипотезы и вносить изменения в модели по методике Agile.

Способ решения

DataLake построен на платформе Cloudera CDH, задачи по загрузке данных решаются с использованием Apache Oozie, Apache Spark, Apache Sqoop. Данные из внутренних систем банка и внешних источников сохраняются в self-describing data формате, например, JSON, Apache Parquet. Унифицированный доступ, используя SQL, к сырым данным и витринам данных осуществляется с помощью технологий Apache Spark SQL и Apache Impala.

Для решения задач исследования данных были развернуты и внедрены инструменты machine and deep learning такие как scikit-learn, Apache Spark MLLib, H2O, TensorFlow, keras. Также были внедрены Apache Zeppelin, JupiterHub – инструменты исследования и визуализации данных, в которых data scientist’ам были доступны все необходимые сведения из DataLake и библиотек исследования данных. Пользователи получили объединенные в одном пространстве больше разнообразных данных для более глубокого и качественного анализа клиентов на высокопроизводительной и масштабируемой платформе Apache Hadoop.

Чтобы реализовать проект за 3 месяца, было решено организовать процесс по методологии Scrum, используя инструменты и принципы DevOps. Специалисты банка ВТБ и «Неофлекс» работали совместно в единой Scrum-команде, под контролем Scrum-коуча. Благодаря тесному сотрудничеству инженеров удалось развернуть всю необходимую инфраструктуру для разработки, внедрения и эксплуатации ПО, а также построить процессы непрерывной конвейерной доставки обновлений (CI/CD).

Результаты

Создание Data Lake помогло собирать, накапливать в едином пространстве и обрабатывать данные из разнородных источников. Созданная инфраструктура обеспечивает высокую скорость и качество мониторинга факторов кредитного риска корпоративных клиентов банка, а также предоставляет инструменты для всестороннего анализа данных, их визуализации, построения прогнозов и разработки новых моделей. Благодаря использованию Hadoop, развитие и масштабирование решения не требует капитальных вложений в отличии от хранилища, построенного с использованием классических технологий.

Интервью

Максим Кондратенко
Максим Кондратенко
Член правления
Мы получили успешный опыт интеграции разрозненных внешних и внутренних данных в единую информационную среду для повышения качества и скорости оценки рисков, применения комбинированных подходов к анализу и обработки информации: от классического статистического анализа до методов машинного обучения, использования преимуществ opensource-технологий, развития компетенций в управлении проектами. Этот пилотный проект потребовал не столько финансовых инвестиций, сколько готовности к изменениям на уровне устоявшихся процессов, мышления и внутренней культуры. Многое свидетельствует о том, что получилось выработать адаптивность к непрерывному усовершенствованию, экспериментам и инновациям.

Вернуться к списку историй