Учебный курс по DWH
В рамках курса вы познакомитесь с основными понятиями и задачами, возникающими при создании хранилищ данных. Поймете, как цели влияют на выбор архитектуры и к каким последствиям может привести недостаточное внимание к компонентам. Составите представление о ролях и влиянии участников команды на результат.
В программе курса будут описаны практические подходы к проектированию и внедрению хранилищ данных и его компонент. Вы рассмотрите управление жизненным циклом, включая вывод из эксплуатации и миграцию на новые системы, затронете темы управления данными и построения сервисов на их основе.
В практической части слушатели разобьются на две команды: одна из команд проработает проект по миграции хранилища данных с учетом стратегических целей развития предприятия, а вторая оценит его с точки зрения возможностей, ресурсов и сроков.
1. Введение
- Понятие «хранилище данных». Его возможности и ограничения
- Зачем создается DWH, какую бизнес-задачу оно решает
- DWH как продукт: платформа, инструменты, масштабирование команды
- Что такое DWH и почему без них данные компании почти бесполезны
- Архитектура корпоративного хранилища данных
- Краткий ликбез по data warehouse
2. Компоненты и архитектура
- Классические подходы к проектированию хранилищ данных
- Типовые компоненты и протекающие процессы
- Концепции Инмона, Кимбалла и DataVault
- Обзор основных компонентов (stage, ods, dds, datamart, bi, metadata) и процессов (ETL, ELT, DQ, lineage)
3. Управление данными - Data Governance
- Общие и частные вопросы управления данными предприятия
- Информация рассматривается как актив, приносящий ценность и имеющий затраты на получение
- Концепция «мастер-данные» и системы по их управлению – MDM
4. Методики проектирования хранилищ
- Шаги проектирования хранилища
- Типовые приемы и инструментарий при создании
- Экспертиза участников и инфраструктуры
5. Область хранения исходных данных - Stage
- Потребность в хранении исходных данных из системы источника
- Типичные ошибки при организации данной области и ее отличие от «озера данных»
6. Области постоянного хранения - ODS и DDS
- Слои операционного и многомерного хранения данных
- Процессы извлечения, очистки, контроля и сохранения - ETL\ELT
- Трансформация в целевую схему хранения
7. Системы-потребители данных хранилища
- Типовые сценарии использования данных из хранилищ
- Основные потребители - системы бизнес-аналитики «BI»
- Устройство типовой БИ системы и причины их большого разнообразия
8. Новые вызовы в развитии хранилищ данных
- Обзор основных проблем, с которыми сталкиваются хранилища при росте
- Новые вызовы в области машинного обучения
- Концепция Data Mesh как альтернатива дальнейшего развития.
Архитектура DWH
Моделирование данных
Примеры построения корпоративных хранилищ данных
Оперативная аналитика
Ad-hoc reporting
Hadoop
Iceberg, DeltaLake - Хорошо интегрируется с экосистемой Hadoop и источниками данных (HDFS, Amazon S3, Hive, HBase, Cassandra, etc.)