BI Consult
  • Перейти на QlikSense
  • Перейти на QlikView
  • Перейти на Tableau
  • Перейти на Power BI
  • Контакты
  • +7 812 334-08-01
    +7 499 608-13-06
  • EN
  • Отправить сообщение
  • Главная
  • Продукты Business-Qlik
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Страхование
    • Банки
    • Лизинг
    • Логистика
    • Нефтегазовый сектор
    • Медицина
    • Сеть ресторанов
    • Энергетика
    • Фрод-менеджмент
    • E-Commerce
    • Фармацевтика
    • Построение хранилища данных
    • Создание Data Lake
    • Цифровая трансформация
    • Управление по KPI
    • Финансы
    • Продажи
    • Склад
    • HR
    • Маркетинг
    • Внутренний аудит
    • Категорийный менеджмент
    • S&OP и прогнозная аналитика
    • Геоаналитика
    • Цепочки поставок (SCM)
    • Process Mining
    • Сквозная аналитика
  • Платформы
    • Qlik Sense
    • QlikView
    • Tableau
    • Microsoft Power BI
    • Геоаналитика Qlik GeoAnalytics
    • Qlik NPrinting - рассылка отчетности QlikView/Qlik Sense
    • KliqPlanning Suite - бюджетирование в QlikView
    • ATK BiView-1C Коннектор (для Qlik/Tableau/PowerBI)
    • QlikView/Qlik Sense SAP Коннектор
    • QlikView R-Коннектор
    • Qlik Web Connectors - коннектор Google, Facebook, Twitter
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • Библиотека extention для Qlik
    • Qlik Alerting
    • Qlik Data Integration Platform - создание Data Lake
    • Qlik Data Catalog решение для Data Governance
    • ATK BiView документация
  • Услуги
    • Консалтинг
    • Пилотный проект
    • План обучения и сертификации
    • Подготовка специалистов по Qlik
    • Бесплатное обучение Qlik
    • Сертификация Qlik
    • Поддержка
    • Технические задания
    • Сбор требований для проекта внедрения BI-системы
    • Аудит приложений Qlik и Tableau
    • Разработка BI Стратегии
    • Styleguide для BI-системы
    • Как выбрать BI-систему
  • Курсы
    • Учебный курс по Qlik Sense
    • Учебный курс по Tableau
    • Учебный курс по Microsoft Power BI
    • Учебный курс Информационная грамотность (Data Literacy)
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по NPrinting
    • Учебный курс по BigQuery
    • Учебный курс по Azure Databricks
    • Учебный курс по DWH
    • Учебный курс по Data Governance
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс администратора Qlik Sense
  • Компания
    • Руководство
    • Новости
    • Клиенты
    • Карьера
    • Скачать
    • Контакты

QlikView / Qlik Sense

  • Qlik Sense
    • Возможности Qlik Sense
    • Qlik Sense Enterprise
    • Qlik Sense Desktop
    • Qlik Sense Saas облачная инфраструктура для компаний
    • Источники данных и хранение данных
    • Безопасность и разграничение прав доступа
    • Масштабируемость
    • Политика лицензирования Qlik Sense
    • Qlik Sense November 2021: новые возможности
    • Географические карты в Qlik Sense
    • Qlik Sense Cloud / Qlik Sense в облаке
    • Учебное пособие по Qlik Sense
  • QlikView
    • Архитектура
    • Отличия QlikView от традиционных BI-систем
    • Политика лицензирования QlikView
    • Системные требования и сайзинг
    • Отличие от OLAP-систем
    • QlikView on Mobile
    • Qlik и Big Data
    • Демонстрационные примеры
    • QlikView в "облаке" (Amazon) / QlikView in the cloud
    • Интеграция QlikView с Microsoft SharePoint
    • Учебное пособие по QlikView
    • Что такое QlikView Publisher
    • QlikView Extranet Server и дистрибуция отчетности внешним пользователям
  • Qlik Data Catalog
  • Qlik Alerting
  • Qlik Data Integration Platform
  • Add-ons для QlikView
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • QlikView/Qlik Sense ATK BiView-1C Коннектор
    • Документация ATK BiView
    • Qlik NPrinting
    • Геоаналитика Qlik GeoAnalytics
    • GeoQlik
    • KliqPlanning Suite
    • QlikView/Qlik Sense SAP Коннектор
    • QlikView R-Коннектор
    • Qlik Web Connectors
    • QlikView Cognos TM1 Коннектор
    • Визуализация графов в Qlik Sense с помощью Ogma / Linkurious
  • Учебный курс по Qlik Sense

Tableau

  • Tableau
    • Tableau Desktop
    • Tableau Server
    • Tableau Prep
    • Технологии
    • Источники данных Tableau
    • Безопасность в Tableau
    • Политика лицензирования
    • Tableau 2021: новые возможности
    • Сравнение продуктов Tableau (Desktop, Server, Online, Public)
    • Демонстрационные примеры
    • Учебный портал Tableau
    • Коробочное решение "Мониторинг Tableau Server"
    • Чем отличаются Tableau Reader и Viewer?
  • Учебный курс по Tableau

Другое

  • Microsoft Power BI
    • Power BI Desktop
    • Power BI Report Server
    • Отраслевые решения Microsoft Power BI
    • Политика лицензирования Microsoft Power BI
    • Power BI Mobile
    • Учебные курсы Microsoft Power BI
    • Архитектура Power BI
    • Обработка данных в Power BI
    • Аудит системы Power BI
  • Учебный курс по Microsoft Power BI
  • Alteryx
    • Alteryx Designer
    • Инструменты Alteryx Designer
    • Alteryx Server
    • Alteryx Analytics Gallery
    • Alteryx. Создание приложения, workflow, ETL
  • Data Engeneering
    • Создание Data Lake
    • Создание Data Warehouse
    • Учебный курс "Современная архитектура хранилища данных"
Главная » Курсы » Учебный курс по Data Science (ML, AI)

Что такое перекрестная проверка в машинном обучении?

Введение в перекрестную проверку в машинном обучении и ее реализация с помощью Python.

В машинном обучении перекрестная проверка – это статистический метод оценки производительности обобщения, который является более стабильным и тщательным, чем использование разделения набора данных на набор для обучения и набор для тестирования. В этой статье я расскажу, что такое перекрестная проверка и как ее использовать для машинного обучения с помощью языка программирования Python.

 

Что такое перекрестная проверка

При перекрестной проверке данные разделяются несколько раз и обучаются несколько моделей. Самая часто используемая версия перекрестной проверки – это k-кратная перекрестная проверка, где k – это заданное пользователем число, обычно 5 или 10.

При пятиэтапной перекрестной проверке данные сначала разделяются на пять частей (приблизительно) равного размера, называемые свертками. Затем формируется последовательность моделей. Первая модель обучается с использованием первой складки в качестве тестового набора, а остальные складки (2–5) используются в качестве обучающей выборки.

Модель строится с использованием данных из складок 2–5, затем точность оценивается для складки 1. Затем строится другая модель, на этот раз с использованием складки 2 в качестве тестового набора и данных из складок 1, 3, 4 и 5 в качестве обучающего набора.

Этот процесс повторяется с использованием складок 3, 4 и 5 в качестве тестовых наборов. Для каждого из этих пяти разделов данных на наборы для обучения и тестирования мы вычисляем точность. В итоге мы собрали пять значений точности.

 

Реализация перекрестной проверки с Python

Мы можем легко реализовать процесс перекрестной проверки с помощью языка программирования Python, используя библиотеку Scikit-learn в Python.

Перекрестная проверка реализована в scikit-learn с использованием функции cross_val_score модуля model_selection. Параметры функции cross_val_score – это модель, которую мы хотим оценить, обучающие данные и наземные метки истинности. Давайте оценим LogisticRegression на наборе данных iris:

 

from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

iris = load_iris()
logreg = LogisticRegression()

scores = cross_val_score(logreg, iris.data, iris.target)
print("Cross-validation scores: {}".format(scores))

 

Результат:

Cross-validation scores: [ 0.961 0.922 0.958]

 

По умолчанию cross_val_score выполняет тройную перекрестную проверку, возвращая три значения точности. Мы можем изменить количество используемых складок, изменив параметр cv:

 

scores = cross_val_score(logreg, iris.data, iris.target, cv=5)
print("Cross-validation scores: {}".format(scores))

 

Результат:

Cross-validation scores: [ 1. 0.967 0.933 0.9 1. ]

 

Обычный способ суммировать точность перекрестной проверки – вычислить среднее:

 

print("Average cross-validation score: {:.2f}".format(scores.mean()))

 

Результат:

Average cross-validation score: 0,96.

 

Преимущества и недостатки использования перекрестной проверки

Использование перекрестной проверки вместо разделения на одно обучение и один набор тестов дает несколько преимуществ. Прежде всего, следует помнить, что train_test_split выполняет случайное разделение данных.

Представьте, что нам «повезло» со случайным разделением данных, и все примеры, которые трудно разделить на категории, попадают в обучающий набор. В этом случае набор тестов будет содержать только «простые» примеры, а точность нашего набора тестов будет нереалистичной.

И наоборот, если нам «не повезло», мы могли случайным образом поместить все примеры, которые трудно ранжировать, в тестовый набор и, следовательно, получить нереалистичную оценку.

Однако при использовании перекрестной проверки каждый пример будет в тестовом наборе ровно один раз: каждый пример находится в одной из складок, и каждая складка является тестовым набором один раз. Следовательно, модель должна хорошо обобщаться для всех выборок в наборе данных, чтобы все баллы перекрестной проверки (и их среднее значение) были высокими.

Наличие нескольких разделений данных также дает информацию о чувствительности нашей модели к выбору набора обучающих данных. Для набора данных радужной оболочки мы увидели точность от 90% до 100%. Это довольно большой диапазон, и он дает нам представление о том, как модель может работать в худшем случае и в лучшем случае при применении к новым данным.

Еще одно преимущество перекрестной проверки перед использованием одного разделения данных состоит в том, что мы используем наши данные более эффективно. При использовании train_test_split мы обычно используем 75% данных для обучения и 25% данных для оценки.

При использовании пятикратной перекрестной проверки на каждой итерации мы можем использовать четыре пятых данных (80%) для обучения модели. При использовании 10 перекрестных проверок мы можем использовать девять десятых данных (90%) для обучения модели. Чем больше данных, тем точнее модели.

Главный недостаток – увеличение вычислительных затрат. Поскольку в настоящее время мы обучаем k моделей вместо одной, перекрестная проверка будет примерно в k раз медленнее, чем выполнение одного деления данных.

 

Вывод

Используя среднюю перекрестную проверку, мы можем сделать следующий вывод: ожидается, что модель будет иметь в среднем около 96% точности. Глядя на пять баллов, полученных в результате пятикратной перекрестной проверки, мы также можем сделать вывод, что существует относительно большая разница в точности между складками, от 100% до 90%.

Это может означать, что модель очень зависит от конкретных складок, используемых для обучения, но это также может быть просто следствием небольшого размера набора данных.

Надеюсь, вам понравилась эта статья о том, что такое перекрестная проверка, и ее реализация с использованием Python, а также ее преимущества и недостатки.

 

Узнать стоимость решенияЗапросить видео презентацию

Запросить видео презентацию Запросить доступ к демо стенду online Узнать стоимость лицензий

Задать вопрос

loading...

Решения

Анализировать ФинансыУвеличивайте ПродажиОптимальный Склад и ЛогистикаМаркетинговые Метрики

Клиенты

  • ПетроИнТрейд
    Анализ и управление продажами.

    Прогнозирование производства в QlikView, прогнозирование производства продукции в QlikView, прогнозирование объема производства в QlikView, прогнозирование издержек производства в QlikView.

    Сравнительный анализ выбранных периодов по ключевым показателям, в том числе like-for-like анализ (LFL)
    Конструктор отчетов (табличный и графический);
    ABC-XYZ анализ товаров, категорий, брендов, магазинов, поставщиков  в различных разрезах; анализ стабильности ассортимента;
    Анализ развития направлений: анализ внедрений, анализ активности руководителей направления по развитию, анализ первых продаж продукта клиентам
    Панель управления по продажам (dashboard);
  • Линзмастер

    Детальный анализ заказов и оплат клиентов компании; анализ эффективности рабочего времени сотрудников на местах; анализ эффективности проводимых акций; реализация складской аналитики; перенос существующей аналитики из Oracle BI в QlikView; реализация аналитики для выявления аномалий, ошибок и подозрительных ситуаций,прогнозирование производства в QlikView, прогнозирование производства продукции в QlikView, прогнозирование объема производства в QlikView, прогнозирование издержек производства в QlikView.

  • akron

    Анализ исполнения бюджета движения денежных средств (расходная часть)

    Компания завершила первый этап внедрения решения бизнес-аналитики в рамках комплексной программы цифровой трансформации бизнеса. Qlik Sense объединяет данные из всех ключевых учетных и производственных систем Группы (как ERP-системыИСА, так и MES-системы) и становится важным источником информации для принятия управленческих решений в режиме реального времени. В компании успешно внедрены дэшборды для аналитики склада, финансов, закупок, дефектов производственной линии и управления целевыми ресурсами, а также работе ИТ.

  • Ascott Group

    Анализ и прогнозирование продаж, анализ каналов сбыта, планирование и управление продажами, анализ эффективности маркетинговых акций.

  • Решения
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Банки
    • Страхование
    • Фармацевтика
    • Лизинг
    • Логистика
    • Медицина
    • Нефтегазовый сектор
    • Сеть ресторанов
  • Продукты
    • Qlik Sense
    • QlikView
    • Tableau
    • Microsoft Power BI
    • ATK BiView-1C Коннектор (для Qlik/Tableau/PowerBI)
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • NPrinting
    • Геоаналитика Qlik GeoAnalytics
    • KliqPlanning Suite
    • Qlik WebConnectors
    • QlikView R Коннектор
    • QlikView/Qlik Sense SAP Коннектор
    • Alteryx
    • Qlik Data Catalog
    • Документация ATK BiView
  • Услуги
    • Консалтинг
    • Пилотный проект
    • Поддержка
    • План обучения и сертификации Qlik
    • Бесплатное обучение
    • Учебные курсы
    • Сертификация Qlik
    • Аудит приложений
  • Курсы
    • Учебный курс по Qlik Sense
    • Учебный курс по Tableau
    • Учебный курс по Microsoft Power BI
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс Информационная грамотность
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по NPrinting
    • Учебный курс по Azure Databricks
    • Учебный курс по Google BigQuery
  • Компания
    • О нас
    • Руководство
    • Новости
    • Клиенты
    • Скачать
    • Контакты
  • Функциональные решения
    • Продажи
    • Финансы
    • Склад
    • HR
    • S&OP и прогнозная аналитика
    • Внутренний аудит
    • Геоаналитика
    • Категорийный менеджмент
    • Построение хранилища данных
    • Система управления KPI и BSC
    • Управление цепочками поставок
    • Маркетинг
    • Цифровая трансформация
    • Сквозная аналитика
    • Process Mining
QlikView Partner
LinkedInYouTubeVkontakteFacebook
ООО "Би Ай Консалт",
ИНН: 7811437757,
ОГРН: 1097847154184
199178, Россия,
Санкт-Петербург,
6-ая линия В.О., Д. 63, 4 этаж
Тел: +7 (812) 334-08-01
Тел: +7 (499) 608-13-06
E-mail: info@biconsult.ru