BI Consult
  • Перейти на QlikSense
  • Перейти на QlikView
  • Перейти на Tableau
  • Перейти на Power BI
  • российские bi dwh dl
  • Главная
  • Продукты Business-Qlik
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Страхование
    • Банки
    • Лизинг
    • Логистика
    • Нефтегазовый сектор
    • Медицина
    • Сеть ресторанов
    • Энергетика
    • Фрод-менеджмент
    • E-Commerce
    • Фармацевтика
    • Построение хранилища данных
    • Создание Data Lake
    • Цифровая трансформация
    • Управление по KPI
    • Финансы
    • Продажи
    • Склад
    • HR
    • Маркетинг
    • Внутренний аудит
    • Категорийный менеджмент
    • S&OP и прогнозная аналитика
    • Геоаналитика
    • Цепочки поставок (SCM)
    • Process Mining
    • Сквозная аналитика
  • Платформы
    • Qlik Sense
    • QlikView
    • Tableau
    • Microsoft Power BI
    • Геоаналитика Qlik GeoAnalytics
    • Qlik NPrinting - рассылка отчетности QlikView/Qlik Sense
    • KliqPlanning Suite - бюджетирование в QlikView
    • ATK BiView-1C Коннектор (для Qlik/Tableau/PowerBI)
    • QlikView/Qlik Sense SAP Коннектор
    • QlikView R-Коннектор
    • Qlik Web Connectors - коннектор Google, Facebook, Twitter
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • Библиотека extention для Qlik
    • Qlik Alerting
    • Qlik Data Integration Platform - создание Data Lake
    • Qlik Data Catalog решение для Data Governance
    • ATK BiView документация
  • Услуги
    • Консалтинг
    • Пилотный проект
    • План обучения и сертификации
    • Подготовка специалистов по Qlik
    • Бесплатное обучение Qlik
    • Сертификация Qlik
    • Поддержка
    • Технические задания
    • Сбор требований для проекта внедрения BI-системы
    • Аудит приложений Qlik и Tableau
    • Разработка BI Стратегии
    • Styleguide для BI-системы
    • Как выбрать BI-систему
  • Курсы
    • Учебный курс по Qlik Sense
    • Учебный курс по Tableau
    • Учебный курс по Microsoft Power BI
    • Учебный курс Информационная грамотность (Data Literacy)
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по NPrinting
    • Учебный курс по BigQuery
    • Учебный курс по Azure Databricks
    • Учебный курс по DWH
    • Учебный курс по Data Governance
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс администратора Qlik Sense
  • Компания
    • Руководство
    • Новости
    • Клиенты
    • Карьера
    • Скачать
    • Контакты

Услуги

  • Консалтинг
    • Продуктивный и согласованный анализ закупок, продаж и маркетинговых активностей в Fashion-Retail
    • Тренинг «S&OP для производственно-торговых компаний»
    • Проект внедрения Qlik
  • План обучения и сертификации
    • Учебные курсы Qlik
    • Учебные курсы Tableau
    • Учебные курсы Microsoft PowerBI
  • Бесплатное обучение
  • Сертификация Qlik
  • Пилотный проект
  • Сопровождение и поддержка
  • Технические задания
  • Сбор требований для проекта внедрения BI-системы
  • Аудит приложений QlikView / Qlik Sense / Tableau
  • Разработка BI Стратегии
    • Становясь Data-Driven организацией: скрытые возможности и проблемы
  • Styleguide для BI-системы
  • Как выбрать подходящую современную BI-систему

Отраслевые решения

  • Дистрибуция
    • Business-Qlik Дистрибуция
  • Розничная торговля
    • Business-Qlik Розничная торговля
    • Business-Qlik Розничная торговля: DIY
    • Business-Qlik Розничная торговля: Fashion
    • Business-Qlik для сетей аптек
    • BusinessPack для Tableau: POS - Point of Sales Perfomance
  • Производство
    • Business-Qlik Производство
  • Операторы связи
  • Банки
    • Business-Qlik for Banking на базе QlikView/Qlik Sense
    • Бизнес-аналитика в банке
  • Страхование
  • Фармацевтика
    • Business-Qlik Фармацевтика
  • Нефтегазовый сектор
  • Лизинг
  • Логистика
  • Медицина
  • Сеть ресторанов
  • Энергетика
  • E-Commerce
  • Анализ мошенничеств (фрод-менеджмент)

Функциональные решения

  • Управление по KPI
    • Самоуправляемая компания
  • Финансы
    • Бюджетирование
    • Консолидация финансовой отчетности
    • Панель управления, KPI для CFO
    • Рабочий капитал
    • Финансовая отчетность по МСФО
    • Платежный календарь / прогнозный ДДС
  • Продажи
    • Анализ данных из CRM
    • Планирование
  • Склад
  • Категорийный менеджмент
  • HR
  • Маркетинг
  • Внутренний аудит
  • Построение хранилища данных
  • Геоаналитика, аналитика на географической карте
  • Цепочка поставок (SCM)
  • S&OP и прогнозная аналитика
    • Прогнозная аналитика
    • Прогноз спроса на основании данных о вторичных продажах
  • Разработка стратегии цифровой трансформации
  • Сквозная аналитика
  • Process Mining
Главная » Курсы

Учебный курс Современная архитектура хранилища данных

Модуль 1 - Роль Аналитики и Инженера данных в организации

Познакомимся с предметом изучения, узнаем кто такой Data Engineer и что он делает, и как его еще называют. Главное, поймем, как он помогает бизнесу быть эффективней и зарабатывать деньги. Рассмотрим типовые архитектуры аналитических решений.

 

  • Data Engineer и Data Scientist: какая вообще разница?
  • Почему data scientist — это не data engineer?
  • Data Analyst vs. Data Scientist - в чем различие?
  • Введение в Data Engineering. ETL, схема «звезды» и Airflow
  • Мои первые три недели на должности менеджера инженерии данных

 

Модуль 2 - Базы Данных и SQL

Рассмотрим пример решения для локальной аналитики. Познакомимся с базами данных и поймем их преимущество для работы с данными по сравнению с Excel/Google Sheets. Потренируемся на SQL, установим базу данных и загрузим в нее данные, потом будем использовать Excel/Google Sheets для визуализации данных.

  • Oracle ADW - бесплатно в облаке на 10 ГБ, потом где-то 1K за ядро в месяц
  • Vertica - до 1TB без саппорта бесплатно, потом примерно 7k за ТБ в год
  • Greenplum - типа бесплатно, но если промышленная - нужна коммерческая поддержка
  • Snowflake - в облаке, тоже денег стоит, но надо смотреть что там и как

СУБД и хранилища для больших данных

Использование классических реляционных, колоночных, NoSQL, SMP/MPP хранилищ для построения DWH:
  • Устраняем «ад зависимостей» с помощью dbt
  • Hive, Impala, Presto, Vertica, ClickHouse, Cassandra
  • Teradata, Redshift, GreenPlum, Exadata
  • MSSQL, PostgreSQL
  • MongoDB, DynamoDB
  • S3, ADLS, GCS, HDFS
DWH Basics
1 Аналитические движки (СУБД для DWH)
- типы Аналитических движков;
- обзор MPP баз данных и их особенностей, отличий;
- демо Vertica;
2 Принципы построения DWH
- разделение на логические слои: Stage + Intermediate + Detail + Marts + Ad Hoc;
- Normalization: 3NF, Denormalized, Data Vault, Anchor;
- тесты данных и качество данных;
- тeam work & CI;
- макросы и функции + Maintenance;
- Security, Access Segregation, WLM;
 
DBT: Overview - dbt building blocks and principles;
- Connecting to DWH: profiles.yaml;
- Configuration: dbt_project.yaml;
- Launching first project;
 
DWH Intermediate
1 DBT: Intermediate - SQL best practices;
- Complex SQL transformations + CTE;
- Analytical functions;
- Macros + Jinja templates;
- Code compilation + debugging;
- Logging dbt deployments;
 

Модуль 3 - Визуализация данных, дашборды и отчетность - Business Intelligence.

Познакомимся с BI инструментами, научимся использовать Tableau и Power BI. Разберемся с клиентской и серверной частью. А также познакомимся с методологией по созданию метрик - Pirate Metrics.

  • Развитие BI-систем: тренды и движение в сторону ABI. Взгляд со стороны визуализации
  • Четыре примера использования Azure Synapse
Business Intelligence
1 BI: Обзор - BI building blocks: connecting, modeling, visualising, dashboarding
- обзор популярных BI-решений: Looker, PowerBI, Tableau
- Open source BI: Superset, Metabase
- Демо Looker, Metabase
2 BI: Deployment - self-hosted vs. Managed
- Metabase: Deployment with Docker on AWS
- Configuring BI tool: security, metadata, notifications, user access
- Software version upgrades
3 BI: Modeling & Delivering
- Connecting to Data sources
- Моделирование данных: типизация, отображение, документирование
- Задание метрик, фильтров, сегментов
- Сборка Аналитических дашбордов: лучшие практики
4 BI: Углубленные вопросы
- продвинутые фичи: Кросс-фильтрация, Persistent Derived Tables, Calculated fields
- Sharing: public + private Sharing + embedding
- Настройка уведомлений, alerts
- Тестирование дашбордов (Data validation)
 

Модуль 4 - Интеграция данных и создание потоков данных (data piplelines)

При росте количества источников данных становится сложно вручную загружать и трансформировать данные. Именно для этих задач используются ETL решения. Так же мы рассмотрим разницу между ETL и ELT. Дополнительно рассмотрим рынок решений и потренируемся на Open Source решении, с помощью которого мы сможем загрузить данные в Redshift и автоматизировать этот процесс.
  • Коммерческий ETL - Microsoft Integration Services и Informatica Power Center
  • Open Source ETL - Pentaho, Apache Nifi, Apache Airflow, DBT Tool
  • Облачный ETL - Matillion, Fivetran, AWS Glue, Azure Data Factory
  • Основные функции ETL-систем
  • Популярные ETL-системы: обзор, но коротко
  • ETL / инструменты для хранения данных
  • Cравнение нескольких ETL
  • ETL: что такое, зачем и для кого
  • ETL и ELT: 5 основных отличий (ETL vs ELT: 5 Critical Differences)
  • ETL и ELT: разница в том, как… (ETL Vs ELT: The Difference Is In The How)

 

ELT: Структура и типы источников данных
1 Типы источников и их особенности
- классификация баз и источников;
- структурированные и неструктурированные данные;
- чтение из базы напрямую / лога WAL / REST;
- форматы данных;
 
Обзор инструментов для выгрузки. Self- managed & SaaS.
- свой код или использование сервисов. Как найти баланс;
- как сделать выгрузки своими силами: Databases, Ads:Yandex.Direct, Google Adwords, Web: Yandex.Metrika, Google Analytics;
- ETL / ELT;
- GCP: DataFusion, DataPrep, DataFlow (Beam);
- обзор SaaS: Fivetran, Hevo, Alooma, myBI;
 

Модуль 4.5 - Оркестрация скриптов и задач

  • Зачем дата-инженеру нужен оркестратор?
  • когда нужны инструменты оркестрации;
  • обзор Airflow, Prefect, Dagster;
  • Deployment: Self-managed (пример на Kubernetes) vs. Cloud native;
  • Monitoring & Alerting;
  • 3 DBT: Data Quality Pipeline + Documentation
  • schema tests
  • Data tests
  • Cross-database tests
  • Documenting your project
  • Accessing documentation easily with static website
  • 4 Вопросы оптимизации производительности
  • performance best practices
  • Execution plan analysis
  • Compressing data & physical design (DIST, SORT, Materialized views, …)
  • Incremental updates / building Marts by periods
  • Code refactoring & KISS (Keep it simple, stupid)
 
Оркестрация и MLOps
Airflow, Luigi, Oozie
MLflow
Dagster
 

Модуль 5 - Облачные вычисления (Cloud Computing)

Узнаем, что кроется за понятием облачных вычислений, как они используются на западе и почему так популярны. Познакомимся с аналитическими решениями Amazon Web Services и Microsoft Azure. Рассмотрим реальные примеры миграции в облака.
  • Внедрение гибридной облачной архитектуры: как добиться успеха
  • Миграция из облака в облако: когда делать, а когда забыть
  • Путешествие из локального в облако
  • Миграция базы данных с сервера Microsoft SQL Server on-premises в Azure SQL database

 

Модуль 6 - Облачное Хранилище данных

Центр вселенной в аналитике обычно это хранилище данных или платформа данных. Как правило это аналитическое решение с MPP архитектурой и часто используется облачные решения. Мы познакомимся с одним из самых популярных решений Amazon Redshift и узнаем о других аналогах. Также рассмотрим кейсы миграции традиционных решений в облака.

Snowflake
Databricks
AWS, GCP, Azure
  • Современная архитектура хранилища данных
  • Amazon Redshift и традиционные хранилища данных
  • Получите больше от своих данных с Talend и Snowflake
  • Использование облачного хранилища данных и важность управление данными

 

  • Интеграция данных с Google BigQuery
  • Учебное пособие по BigQuery: подробное руководство
  • Учебное пособие по BigQuery – как повысить гибкость вашего бизнеса

 

  • Создание безопасной конфигурации для служб Azure SQL
  • Управление ресурсами Azure с помощью задач автоматизации
  • Интеграция данных с Microsoft Azure
  • Современная промышленная аналитика Интернета вещей в Azure
  • Инженерия данных с Databricks: что, почему и как?
  • Обзор Databricks. Что облачный продукт может дать начинающим специалистам
  • Руководство по Azure Databricks для начинающих
  • Azure Databricks для начинающих
  • Как начать работу с Databricks

 

  • 4 ключевых шаблона для загрузки данных в хранилище данных

 

Модуль 7 - Знакомство с Apache Spark

Apache Spark является одним из самых популярных инструментов для Инженера Данных. Данный модуль мы посвятим знакомству с Apache Spark и рассмотрим его функциональность. Потренируемся создавать RDD и Data Frame, рассмотрим основные операции и кейсы использования.

  • Что такое Spark и с чем его едят?
  • Что такое Apache Spark
  • Знакомство с Apache Spark
  • Apache Spark: гайд для новичков

 

Модуль 8 - Создание решения для Big Data с использованием Hadoop и Spark

Hadoop является флагманом решений Big Data. В данном модуле, мы попробуем решить задачу, которая не под силу традиционными инструментам ETL/DW, это поможет вам понять разницу между DW и BigData и вы точно будете знать, почему мы используем Hadoop. В качестве инструмента управления мы воспользуемся Spark который уже будет предустановлен на Amazon Elastic Map Reduce. В качестве упражнения, мы будем использовать PySpark, чтобы читать неструктурированные логи и извлекать из них ценную информацию.
  • Из чего состоит Hadoop: концептуальная архитектура
  • Что такое MapReduce
  • Выполнение распределенного перетасовывания без системы MapReduce
  • Как построить современное аналитическое хранилище данных на базе Cloudera Hadoop

 

Модуль 9 - Data Lake

Знакомство с понятием Озера Данных и его создание с помощью инструментов AWS. Существует много версий про назназначение Озера Данных и про его роль в Аналитической экосистеме. В данном модуле мы познакомимся с понятием Озера данных, его ролью в экосистеме, рассмотрим типовые архитектуры построения решений с использованием Озера Данных и/или Хранилища данных. В качестве решений будем использовать продукты AWS.

  • Что такое Data Lake
  • Что такое «озера данных» и почему они должны быть чистыми?
  • Нужно ли нам озеро данных? А что делать с хранилищем данных?
  • Про решения (Arenadata)
  • Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop
  • Озеро данных, хранилище данных и база данных... В чем разница?
  • Архитектура озера данных: как создать хорошее озеро данных
  • Успешное внедрение озера данных с помощью организованности

 

Модуль 10 - Решение задачи по стримингу данных.

  • Что такое Apache Flink
  • Что такое Apache Flink 2 
  • Apache Kafka: что это и как работает
  • Роль Apache Kafka в Big Data и DevOps: краткий ликбез и практические кейсы
  • Apache Kafka: обзор
  • Apache NiFi: что это такое и краткий обзор возможностей
  • Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark
  • Apache Sqoop

 

Модуль 11 - Задачи Машинного Обучения глазами инженера данных.

  • Разбираемся, в чем разница между Data Mining и Data Extraction
  • MLOps: подробное руководство для начинающих
  • MLOps - решающее конкурентное преимущество?
  • Что такое MLOps? Объяснение операций машинного обучения
  • Машинное обучение для людей
  • Статьи и тексты о машинном обучении
  • Создание успешной корпоративной платформы искусственного интеллекта
DWH Advanced topics
1 DBT: Advanced topics
- advanced Macros + Jinja
- Complex analytics SQL: Geospatial + Sessionizing + Pattern Matching
- Enabling Slim CI
- CI and Deployment with Github Actions
2 DBT: Extending with modules
- importing modules (libraries)
- Overview of modules: dbt_utils, calendar, logging
- Creating your own module
3 DWH + External Data:
- S3 based Data Lake
- Accessing Semi-structured Data
- External Data: Parquet, ORC
- Hive, Presto, Athena
- dbt module: External Data
4 ML and A/B - feature engineering with dbt
- A/B testing
- Deploying models: MLOps
- (SageMaker) demo
 

Модуль 12 - Лучшие практики инженера данных

 

 

Модуль 13 - Data Vault

  • Введение в Data Vault
  • Основы Data Vault
  • Что такое data vault: моделирование КХД для архитектора big data
  • 5 достоинств и 2 недостатка data vault для КХД и архитектора big data
  • Все о Data Vault (часть 1 - Знакомство с Data Vault)
  • Все о Data Vault (часть 2 - Компоненты Data Vault)
  • Все о Data Vault (часть 3 - Даты окончания действия и основы соединений)
  • Все о Data Vault (часть 4 - Таблицы Связей)
  • Все о Data Vault (часть 5 - Методика загрузки)

 

Модуль 14 - Дополнительные структуры

  • Как и зачем «Ашан» построил платформу для работы с Big Data в публичном облаке
  • Продаем «Дом озера данных»
  • Среда разработки данных с CI/CD
  • Развитие грамотности в сфере данных, ориентированных на людей
  • Становясь Data-Driven организацией: скрытые возможности и проблемы
  • Проект «Инженерия данных» для начинающих — Пакетная обработка данных
  • Инжиниринг данных — упражнения
  • Что такое область подготовки данных?

 

  • DataMart
  • Все о Data Vault (часть 2)
  • Дата инженерия не для дата инженеров
  • CI/CD для пайплайнов данных
  • Тестирование
Recap
1 End-to-end solution - put everything in place. Собираем воедино все части
- Где могут возникнуть проблемы и Как их решить
- Разбор реальных кейсов: Wheely, Spasibo
- Коммуникация - понимаем, чего хочет заказчик и делаем чуть больше
- Deliver result
 
 

Модуль 15 - Data Mesh в телекоме

Любая телекоммуникационная компания собирает и обрабатывает огромное количество данных, стараясь извлечь из них максимальную ценность, используя, в частности «озера данных». Вместе с тем, в классическом подходе к работе с Data Lake имеются принципиальные ограничения при централизованном развитии хранилища – чем больше интегрированных систем и данных, тем больше требуется ресурсов на их поддержку и развитие, а значит, возникает больше кросс-зависимостей, что означает лавинообразный рост ответственности для определенных групп сотрудников компании. В итоге, например команда работы с Data Lake, становится бутылочным горлышком процесса доставки данных от источников к потребителям. Решение – распределенная структура управления данными (Data Mesh), позволяющая разделить ответственность: владение данными (генерация, описание, контроль качества, публикация) сосредоточено в бизнес-функциях, а CDO выступает в роли провайдера инструментария хранения, обработки данных, а также методологии управления ими. Доклад посвящен обсуждению опыта развертывания и эксплуатации Data Mesh в компании «Билайн». Особое внимание уделено процессам Data Governance, обеспечивающим взаимодействие между узлами распределенной структуры: внедрение каталога данных, определение ландшафта данных, роли владельца данных, общие политики для всех узлов.

 
 

Дополнительно

  • Глоссарий по управлению данными (Data Governance), хранилищам данных (DWH) и бизнес-аналитике (BI)
  • Паттерны архитектуры ПО в инженерии данных

 

Компоненты аналтитического решения сгруппированы по типам и назначению.

 

Узнать стоимость решенияЗапросить видео презентацию

Запросить видео презентацию Запросить доступ к демо стенду online

Задать вопрос

loading...

Решения

Анализировать ФинансыУвеличивайте ПродажиОптимальный Склад и ЛогистикаМаркетинговые Метрики

Клиенты

  • Mondi

    План-фактный анализ деятельности отдела лесообеспечения, анализ рабочего времени сотрудников на предприятии; анализ численности сотрудников; структура валового дохода.

  • Adriver

    Группа компаний Internest работает на рынке интернет-рекламы с 1997 года.

    Основное направление деятельности - создание технологических и бизнес-решений в области интернет-маркетинга.  

  • Аргус-Спектр

    Анализ эффективности отдела планирования; анализ эффективности деятельности компании.

  • ETNA Software

    Анализ времени работы сотрудников в разрезах; анализ исправления ошибок (bugfixing): количество ошибок, скорость и время их исправление, в разрезах клиенты, проекты, работники, задачи; анализ биллинга отдела продаж.

  • Решения
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Банки
    • Страхование
    • Фармацевтика
    • Лизинг
    • Логистика
    • Медицина
    • Нефтегазовый сектор
    • Сеть ресторанов
  • Продукты
    • Qlik Sense
    • QlikView
    • Tableau
    • Microsoft Power BI
    • ATK BiView-1C Коннектор (для Qlik/Tableau/PowerBI)
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • NPrinting
    • Геоаналитика Qlik GeoAnalytics
    • KliqPlanning Suite
    • Qlik WebConnectors
    • QlikView R Коннектор
    • QlikView/Qlik Sense SAP Коннектор
    • Alteryx
    • Qlik Data Catalog
    • Документация ATK BiView
  • Услуги
    • Консалтинг
    • Пилотный проект
    • Поддержка
    • План обучения и сертификации Qlik
    • Бесплатное обучение
    • Учебные курсы
    • Сертификация Qlik
    • Аудит приложений
  • Курсы
    • Учебный курс по Qlik Sense
    • Учебный курс по Tableau
    • Учебный курс по Microsoft Power BI
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс Информационная грамотность
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по NPrinting
    • Учебный курс по Azure Databricks
    • Учебный курс по Google BigQuery
  • Компания
    • О нас
    • Руководство
    • Новости
    • Клиенты
    • Скачать
    • Контакты
  • Функциональные решения
    • Продажи
    • Финансы
    • Склад
    • HR
    • S&OP и прогнозная аналитика
    • Внутренний аудит
    • Геоаналитика
    • Категорийный менеджмент
    • Построение хранилища данных
    • Система управления KPI и BSC
    • Управление цепочками поставок
    • Маркетинг
    • Цифровая трансформация
    • Сквозная аналитика
    • Process Mining
QlikView Partner
LinkedInYouTubeVkontakteFacebook
ООО "Би Ай Консалт",
ИНН: 7811437757,
ОГРН: 1097847154184
199178, Россия,
Санкт-Петербург,
6-ая линия В.О., Д. 63, 4 этаж
Тел: +7 (812) 334-08-01
Тел: +7 (499) 608-13-06
E-mail: info@biconsult.ru