BI Consult
  • Перейти на QlikSense
  • Перейти на QlikView
  • Перейти на Tableau
  • Перейти на Power BI
  • Контакты
  • +7 812 334-08-01
    +7 499 608-13-06
  • EN
  • Отправить сообщение
  • Главная
  • Продукты Business-Qlik
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Страхование
    • Банки
    • Лизинг
    • Логистика
    • Нефтегазовый сектор
    • Медицина
    • Сеть ресторанов
    • Энергетика
    • Фрод-менеджмент
    • E-Commerce
    • Фармацевтика
    • Построение хранилища данных
    • Создание Data Lake
    • Цифровая трансформация
    • Управление по KPI
    • Финансы
    • Продажи
    • Склад
    • HR
    • Маркетинг
    • Внутренний аудит
    • Категорийный менеджмент
    • S&OP и прогнозная аналитика
    • Геоаналитика
    • Цепочки поставок (SCM)
    • Process Mining
    • Сквозная аналитика
  • Платформы
    • Qlik Sense
    • QlikView
    • Tableau
    • Microsoft Power BI
    • Геоаналитика Qlik GeoAnalytics
    • Qlik NPrinting - рассылка отчетности QlikView/Qlik Sense
    • KliqPlanning Suite - бюджетирование в QlikView
    • ATK BiView-1C Коннектор (для Qlik/Tableau/PowerBI)
    • QlikView/Qlik Sense SAP Коннектор
    • QlikView R-Коннектор
    • Qlik Web Connectors - коннектор Google, Facebook, Twitter
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • Библиотека extention для Qlik
    • Qlik Alerting
    • Qlik Data Integration Platform - создание Data Lake
    • Qlik Data Catalog решение для Data Governance
    • ATK BiView документация
  • Услуги
    • Консалтинг
    • Пилотный проект
    • План обучения и сертификации
    • Подготовка специалистов по Qlik
    • Бесплатное обучение Qlik
    • Сертификация Qlik
    • Поддержка
    • Технические задания
    • Сбор требований для проекта внедрения BI-системы
    • Аудит приложений Qlik и Tableau
    • Разработка BI Стратегии
    • Styleguide для BI-системы
    • Как выбрать BI-систему
  • Курсы
    • Учебный курс по Qlik Sense
    • Учебный курс по Tableau
    • Учебный курс по Microsoft Power BI
    • Учебный курс Информационная грамотность (Data Literacy)
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по NPrinting
    • Учебный курс по BigQuery
    • Учебный курс по Azure Databricks
    • Учебный курс по DWH
    • Учебный курс по Data Governance
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс администратора Qlik Sense
  • Компания
    • Руководство
    • Новости
    • Клиенты
    • Карьера
    • Скачать
    • Контакты

QlikView / Qlik Sense

  • Qlik Sense
    • Возможности Qlik Sense
    • Qlik Sense Enterprise
    • Qlik Sense Desktop
    • Qlik Sense Saas облачная инфраструктура для компаний
    • Источники данных и хранение данных
    • Безопасность и разграничение прав доступа
    • Масштабируемость
    • Политика лицензирования Qlik Sense
    • Qlik Sense November 2021: новые возможности
    • Географические карты в Qlik Sense
    • Qlik Sense Cloud / Qlik Sense в облаке
    • Учебное пособие по Qlik Sense
  • QlikView
    • Архитектура
    • Отличия QlikView от традиционных BI-систем
    • Политика лицензирования QlikView
    • Системные требования и сайзинг
    • Отличие от OLAP-систем
    • QlikView on Mobile
    • Qlik и Big Data
    • Демонстрационные примеры
    • QlikView в "облаке" (Amazon) / QlikView in the cloud
    • Интеграция QlikView с Microsoft SharePoint
    • Учебное пособие по QlikView
    • Что такое QlikView Publisher
    • QlikView Extranet Server и дистрибуция отчетности внешним пользователям
  • Qlik Data Catalog
  • Qlik Alerting
  • Qlik Data Integration Platform
  • Add-ons для QlikView
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • QlikView/Qlik Sense ATK BiView-1C Коннектор
    • Документация ATK BiView
    • Qlik NPrinting
    • Геоаналитика Qlik GeoAnalytics
    • GeoQlik
    • KliqPlanning Suite
    • QlikView/Qlik Sense SAP Коннектор
    • QlikView R-Коннектор
    • Qlik Web Connectors
    • QlikView Cognos TM1 Коннектор
    • Визуализация графов в Qlik Sense с помощью Ogma / Linkurious
  • Учебный курс по Qlik Sense

Tableau

  • Tableau
    • Tableau Desktop
    • Tableau Server
    • Tableau Prep
    • Технологии
    • Источники данных Tableau
    • Безопасность в Tableau
    • Политика лицензирования
    • Tableau 2021: новые возможности
    • Сравнение продуктов Tableau (Desktop, Server, Online, Public)
    • Демонстрационные примеры
    • Учебный портал Tableau
    • Коробочное решение "Мониторинг Tableau Server"
    • Чем отличаются Tableau Reader и Viewer?
  • Учебный курс по Tableau

Другое

  • Microsoft Power BI
    • Power BI Desktop
    • Power BI Report Server
    • Отраслевые решения Microsoft Power BI
    • Политика лицензирования Microsoft Power BI
    • Power BI Mobile
    • Учебные курсы Microsoft Power BI
    • Архитектура Power BI
    • Обработка данных в Power BI
    • Аудит системы Power BI
  • Учебный курс по Microsoft Power BI
  • Alteryx
    • Alteryx Designer
    • Инструменты Alteryx Designer
    • Alteryx Server
    • Alteryx Analytics Gallery
    • Alteryx. Создание приложения, workflow, ETL
  • Data Engeneering
    • Создание Data Lake
    • Создание Data Warehouse
    • Учебный курс "Современная архитектура хранилища данных"
Главная » Курсы » Учебный курс по Data Science (ML, AI)

K-ближайшие соседи (KNN) с Python

Руководство по машинному обучению по K-ближайшим соседям с Python.

В scikit-learn много алгоритмов классификации, которые мы можем использовать для обучения модели машинного обучения. В этой статье я расскажу вам о машинном обучении по алгоритму K-ближайших соседей (KNN) с языком программирования Python.

 

Введение в K-ближайших соседей (KNN)

Создание модели машинного обучения – это о хранении обучающего набора. Чтобы предсказать новую точку данных, алгоритм K-ближайших соседей (KNN) находит точку в обучающем наборе, которая находится ближе всего к новой точке. Затем он присваивает метку этой точки обучения новой точке данных.

K в k ближайших соседей означает, что вместо использования только соседа, ближайшего к новой точке данных, мы можем рассматривать любое фиксированное количество k соседей в обучении (например, трех или пяти ближайших соседей). Затем мы можем сделать прогноз, используя класс большинства среди этих соседей.

Все модели машинного обучения scikit-learn реализованы в своих классах, называемых классами оценки. Алгоритм классификации k-ближайших соседей (KNN) реализован в классе KNeighborsClassifier модуля Neighbours.

 

Руководство по машинному обучению по K-ближайшим соседям (KNN) с Python

Данные, которые я буду использовать для реализации алгоритма KNN – это набор данных Iris, классический набор данных в машинном обучении и статистике. Набор данных Iris включен в модуль наборов данных Scikit-learn. Мы можем легко импортировать его, вызвав функцию load_iris:

 

 from sklearn.datasets import load_iris
 iris_dataset = load_iris()

 

Следующий шаг – разделить данные на обучающий и тестовый наборы. Scikit-learn содержит функцию, которая перетасовывает набор данных и разделяет его на два. Эта функция известна как функция train_test_split:

 

 from sklearn.model_selection import train_test_split
 X_train, X_test, y_train, y_test = train_test_split(
  iris_dataset['data'], iris_dataset['target'], random_state=0)

 

Эта функция извлечет 75% строк данных в качестве обучающего набора вместе с соответствующими метками для этих данных. Остальные 25% данных известны как тестовый набор. Какое количество данных вы хотите поместить в обучающий и тестовый набор, соответственно, не является фиксированным, но использование тестового набора, содержащего 25% данных, должно быть очень хорошим подходом.

 

Визуализация данных

Перед построением модели машинного обучения часто бывает полезно проверить данные, чтобы увидеть, легко ли решается задача без машинного обучения или желаемой информации может и не быть в данных. Один из лучших способов изучить данные – визуализировать их.

Один из способов сделать это – использовать диаграмму рассеяния. На диаграмме рассеяния один объект размещается по оси x, а другой – по оси Y, и для каждой точки данных будет отрисована точка:

 

 iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
 # create a scatter matrix from the dataframe, color by y_train
 pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15),
 marker='o', hist_kwds={'bins': 20}, s=60,
 alpha=.8, cmap=mglearn.cm3)

 

 

На диаграмме рассеяния выше мы можем видеть, что три класса кажутся относительно хорошо разделенными, используя измерения чашелистиков и лепестков. Модель машинного обучения, вероятно, сможет научиться их разделять.

 

K-ближайшие соседи с Python

Теперь мы можем приступить к построению реальной модели машинного обучения, а именно K-ближайших соседей. Именно тогда мы определим параметры модели. Самый важный параметр классификатора K соседей – это количество соседей, которое мы установим равным 1:

 

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

 

Чтобы построить модель на обучающем наборе, нам нужно вызвать метод fit объекта KNN:

 

knn.fit(X_train, y_train)
KNeighborsClassifier(n_neighbors=1)

 

Метод fit возвращает сам объект KNN, поэтому мы получаем строковое представление нашего классификатора. Представление показывает нам, какие параметры использовались для создания модели. Почти все они являются значениями по умолчанию, но вы также можете найти n_neighbors = 1, который является параметром, который мы передали.

 

Как сделать прогноз

Теперь мы можем делать прогнозы, используя эту модель, для новых данных, для которых мы можем не знать правильные метки. Чтобы делать прогнозы, нам нужно вызвать метод прогнозирования объекта KNN:

 

 prediction = knn.predict(X_new)
 print("Prediction:", prediction)
 print("Predicted target name:",
 iris_dataset['target_names'][prediction])

 

Результат:

Prediction: [0]

Predicted target name: ['setosa']

 

Наша модель K-ближайших соседей предсказывает, что этот новый ирис принадлежит к классу 0, и это означает, что его вид – setosa. Надеюсь, вам понравилась эта статья о машинном обучении K-ближайших соседей (KNN) с реализацией на языке программирования Python.

 

Узнать стоимость решенияЗапросить видео презентацию

Запросить видео презентацию Запросить доступ к демо стенду online Узнать стоимость лицензий

Задать вопрос

loading...

Решения

Анализировать ФинансыУвеличивайте ПродажиОптимальный Склад и ЛогистикаМаркетинговые Метрики

Клиенты

  • Работы по настройке и техническая поддержка инсталляции QlikView, поддержка решения по рассылке отчетов NPrinting

  • classic-spb

    Созданная в 1998 году, компания "Классик" сегодня - современная, обладающая огромными возможностями организация, специализирующаяся в сфере оптовых и розничных продаж продовольствия, оказания услуг по логистике.

  • akron

    Анализ исполнения бюджета движения денежных средств (расходная часть)

    Компания завершила первый этап внедрения решения бизнес-аналитики в рамках комплексной программы цифровой трансформации бизнеса. Qlik Sense объединяет данные из всех ключевых учетных и производственных систем Группы (как ERP-системыИСА, так и MES-системы) и становится важным источником информации для принятия управленческих решений в режиме реального времени. В компании успешно внедрены дэшборды для аналитики склада, финансов, закупок, дефектов производственной линии и управления целевыми ресурсами, а также работе ИТ.

  • Консолидация корпоративной финансовой отчетности по группе компаний; система учета версий и сценариев формирования бюджета

  • Решения
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Банки
    • Страхование
    • Фармацевтика
    • Лизинг
    • Логистика
    • Медицина
    • Нефтегазовый сектор
    • Сеть ресторанов
  • Продукты
    • Qlik Sense
    • QlikView
    • Tableau
    • Microsoft Power BI
    • ATK BiView-1C Коннектор (для Qlik/Tableau/PowerBI)
    • Vizlib Qlik Sense extentions (библиотека экстеншнов)
    • NPrinting
    • Геоаналитика Qlik GeoAnalytics
    • KliqPlanning Suite
    • Qlik WebConnectors
    • QlikView R Коннектор
    • QlikView/Qlik Sense SAP Коннектор
    • Alteryx
    • Qlik Data Catalog
    • Документация ATK BiView
  • Услуги
    • Консалтинг
    • Пилотный проект
    • Поддержка
    • План обучения и сертификации Qlik
    • Бесплатное обучение
    • Учебные курсы
    • Сертификация Qlik
    • Аудит приложений
  • Курсы
    • Учебный курс по Qlik Sense
    • Учебный курс по Tableau
    • Учебный курс по Microsoft Power BI
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс Информационная грамотность
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по NPrinting
    • Учебный курс по Azure Databricks
    • Учебный курс по Google BigQuery
  • Компания
    • О нас
    • Руководство
    • Новости
    • Клиенты
    • Скачать
    • Контакты
  • Функциональные решения
    • Продажи
    • Финансы
    • Склад
    • HR
    • S&OP и прогнозная аналитика
    • Внутренний аудит
    • Геоаналитика
    • Категорийный менеджмент
    • Построение хранилища данных
    • Система управления KPI и BSC
    • Управление цепочками поставок
    • Маркетинг
    • Цифровая трансформация
    • Сквозная аналитика
    • Process Mining
QlikView Partner
LinkedInYouTubeVkontakteFacebook
ООО "Би Ай Консалт",
ИНН: 7811437757,
ОГРН: 1097847154184
199178, Россия,
Санкт-Петербург,
6-ая линия В.О., Д. 63, 4 этаж
Тел: +7 (812) 334-08-01
Тел: +7 (499) 608-13-06
E-mail: info@biconsult.ru