Учебный курс Современная архитектура хранилища данных
Модуль 1 - Роль Аналитики и Инженера данных в организации
Познакомимся с предметом изучения, узнаем кто такой Data Engineer и что он делает, и как его еще называют. Главное, поймем, как он помогает бизнесу быть эффективней и зарабатывать деньги. Рассмотрим типовые архитектуры аналитических решений.
- Data Engineer и Data Scientist: какая вообще разница?
- Почему data scientist — это не data engineer?
- Data Analyst vs. Data Scientist - в чем различие?
- Введение в Data Engineering. ETL, схема «звезды» и Airflow
- Мои первые три недели на должности менеджера инженерии данных
Модуль 2 - Базы Данных и SQL
Рассмотрим пример решения для локальной аналитики. Познакомимся с базами данных и поймем их преимущество для работы с данными по сравнению с Excel/Google Sheets. Потренируемся на SQL, установим базу данных и загрузим в нее данные, потом будем использовать Excel/Google Sheets для визуализации данных.
- Oracle ADW - бесплатно в облаке на 10 ГБ, потом где-то 1K за ядро в месяц
- Vertica - до 1TB без саппорта бесплатно, потом примерно 7k за ТБ в год
- Greenplum - типа бесплатно, но если промышленная - нужна коммерческая поддержка
- Snowflake - в облаке, тоже денег стоит, но надо смотреть что там и как
СУБД и хранилища для больших данных
- Устраняем «ад зависимостей» с помощью dbt
- Hive, Impala, Presto, Vertica, ClickHouse, Cassandra
- Teradata, Redshift, GreenPlum, Exadata
- MSSQL, PostgreSQL
- MongoDB, DynamoDB
- S3, ADLS, GCS, HDFS
Модуль 3 - Визуализация данных, дашборды и отчетность - Business Intelligence.
Познакомимся с BI инструментами, научимся использовать Tableau и Power BI. Разберемся с клиентской и серверной частью. А также познакомимся с методологией по созданию метрик - Pirate Metrics.
- Развитие BI-систем: тренды и движение в сторону ABI. Взгляд со стороны визуализации
- Четыре примера использования Azure Synapse
Модуль 4 - Интеграция данных и создание потоков данных (data piplelines)
- Коммерческий ETL - Microsoft Integration Services и Informatica Power Center
- Open Source ETL - Pentaho, Apache Nifi, Apache Airflow, DBT Tool
- Облачный ETL - Matillion, Fivetran, AWS Glue, Azure Data Factory
- Основные функции ETL-систем
- Популярные ETL-системы: обзор, но коротко
- ETL / инструменты для хранения данных
- Cравнение нескольких ETL
- ETL: что такое, зачем и для кого
- ETL и ELT: 5 основных отличий (ETL vs ELT: 5 Critical Differences)
- ETL и ELT: разница в том, как… (ETL Vs ELT: The Difference Is In The How)
Модуль 4.5 - Оркестрация скриптов и задач
- когда нужны инструменты оркестрации;
- обзор Airflow, Prefect, Dagster;
- Deployment: Self-managed (пример на Kubernetes) vs. Cloud native;
- Monitoring & Alerting;
- 3 DBT: Data Quality Pipeline + Documentation
- schema tests
- Data tests
- Cross-database tests
- Documenting your project
- Accessing documentation easily with static website
- 4 Вопросы оптимизации производительности
- performance best practices
- Execution plan analysis
- Compressing data & physical design (DIST, SORT, Materialized views, …)
- Incremental updates / building Marts by periods
- Code refactoring & KISS (Keep it simple, stupid)
Модуль 5 - Облачные вычисления (Cloud Computing)
Модуль 6 - Облачное Хранилище данных
Центр вселенной в аналитике обычно это хранилище данных или платформа данных. Как правило это аналитическое решение с MPP архитектурой и часто используется облачные решения. Мы познакомимся с одним из самых популярных решений Amazon Redshift и узнаем о других аналогах. Также рассмотрим кейсы миграции традиционных решений в облака.
- Современная архитектура хранилища данных
- Amazon Redshift и традиционные хранилища данных
- Получите больше от своих данных с Talend и Snowflake
- Использование облачного хранилища данных и важность управление данными
- Интеграция данных с Google BigQuery
- Учебное пособие по BigQuery: подробное руководство
- Учебное пособие по BigQuery – как повысить гибкость вашего бизнеса
- Создание безопасной конфигурации для служб Azure SQL
- Управление ресурсами Azure с помощью задач автоматизации
- Интеграция данных с Microsoft Azure
- Современная промышленная аналитика Интернета вещей в Azure
- Инженерия данных с Databricks: что, почему и как?
- Обзор Databricks. Что облачный продукт может дать начинающим специалистам
- Руководство по Azure Databricks для начинающих
- Azure Databricks для начинающих
- Как начать работу с Databricks
Модуль 7 - Знакомство с Apache Spark
Apache Spark является одним из самых популярных инструментов для Инженера Данных. Данный модуль мы посвятим знакомству с Apache Spark и рассмотрим его функциональность. Потренируемся создавать RDD и Data Frame, рассмотрим основные операции и кейсы использования.
- Что такое Spark и с чем его едят?
- Что такое Apache Spark
- Знакомство с Apache Spark
- Apache Spark: гайд для новичков
Модуль 8 - Создание решения для Big Data с использованием Hadoop и Spark
- Из чего состоит Hadoop: концептуальная архитектура
- Что такое MapReduce
- Выполнение распределенного перетасовывания без системы MapReduce
- Как построить современное аналитическое хранилище данных на базе Cloudera Hadoop
Модуль 9 - Data Lake
Знакомство с понятием Озера Данных и его создание с помощью инструментов AWS. Существует много версий про назназначение Озера Данных и про его роль в Аналитической экосистеме. В данном модуле мы познакомимся с понятием Озера данных, его ролью в экосистеме, рассмотрим типовые архитектуры построения решений с использованием Озера Данных и/или Хранилища данных. В качестве решений будем использовать продукты AWS.
- Что такое Data Lake
- Что такое «озера данных» и почему они должны быть чистыми?
- Нужно ли нам озеро данных? А что делать с хранилищем данных?
- Про решения (Arenadata)
- Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop
- Озеро данных, хранилище данных и база данных... В чем разница?
- Архитектура озера данных: как создать хорошее озеро данных
- Успешное внедрение озера данных с помощью организованности
Модуль 10 - Решение задачи по стримингу данных.
- Что такое Apache Flink
- Что такое Apache Flink 2
- Apache Kafka: что это и как работает
- Роль Apache Kafka в Big Data и DevOps: краткий ликбез и практические кейсы
- Apache Kafka: обзор
- Apache NiFi: что это такое и краткий обзор возможностей
- Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark
- Apache Sqoop
Модуль 11 - Задачи Машинного Обучения глазами инженера данных.
- Разбираемся, в чем разница между Data Mining и Data Extraction
- MLOps: подробное руководство для начинающих
- MLOps - решающее конкурентное преимущество?
- Что такое MLOps? Объяснение операций машинного обучения
Модуль 12 - Лучшие практики инженера данных
Модуль 13 - Data Vault
- Введение в Data Vault
- Основы Data Vault
- Все о Data Vault (часть 1 - Знакомство с Data Vault)
- Все о Data Vault (часть 2 - Компоненты Data Vault)
- Все о Data Vault (часть 3 - Даты окончания действия и основы соединений)
- Все о Data Vault (часть 4 - Таблицы Связей)
- Все о Data Vault (часть 5 - Методика загрузки)
Модуль 14 - Дополнительные структуры
- Как и зачем «Ашан» построил платформу для работы с Big Data в публичном облаке
- Продаем «Дом озера данных»
- Среда разработки данных с CI/CD
- Развитие грамотности в сфере данных, ориентированных на людей
- Становясь Data-Driven организацией: скрытые возможности и проблемы
- Проект «Инженерия данных» для начинающих — Пакетная обработка данных
- Инжиниринг данных — упражнения
- Что такое область подготовки данных?
- DataMart
- Все о Data Vault (часть 2)
-
Дата инженерия не для дата инженеров
-
CI/CD для пайплайнов данных
-
Тестирование
Модуль 15 - Data Mesh в телекоме
Любая телекоммуникационная компания собирает и обрабатывает огромное количество данных, стараясь извлечь из них максимальную ценность, используя, в частности «озера данных». Вместе с тем, в классическом подходе к работе с Data Lake имеются принципиальные ограничения при централизованном развитии хранилища – чем больше интегрированных систем и данных, тем больше требуется ресурсов на их поддержку и развитие, а значит, возникает больше кросс-зависимостей, что означает лавинообразный рост ответственности для определенных групп сотрудников компании. В итоге, например команда работы с Data Lake, становится бутылочным горлышком процесса доставки данных от источников к потребителям. Решение – распределенная структура управления данными (Data Mesh), позволяющая разделить ответственность: владение данными (генерация, описание, контроль качества, публикация) сосредоточено в бизнес-функциях, а CDO выступает в роли провайдера инструментария хранения, обработки данных, а также методологии управления ими. Доклад посвящен обсуждению опыта развертывания и эксплуатации Data Mesh в компании «Билайн». Особое внимание уделено процессам Data Governance, обеспечивающим взаимодействие между узлами распределенной структуры: внедрение каталога данных, определение ландшафта данных, роли владельца данных, общие политики для всех узлов.
Дополнительно
- Глоссарий по управлению данными (Data Governance), хранилищам данных (DWH) и бизнес-аналитике (BI)
- Паттерны архитектуры ПО в инженерии данных
Компоненты аналтитического решения сгруппированы по типам и назначению.