Инструменты Alteryx Designer
Alteryx разработал среду для перетаскивания и смешивания данных и расширенной аналитики, которая помогает аналитику получить необходимую информацию в течение нескольких часов, а не недель. Программа делает это с помощью широкого спектра инструментов, которые дают доступ, готовят, анализируют и выводят данные быстрее и проще. Каждая вкладка представляет собой образец определенных инструментов Designer Alteryx, которые поддерживают полный спектр возможностей в пределах Alteryx.
- Ввод/Вывод - дает доступ к данным, как на локальном компьютере, так и в реляционной базе данных, в облаке, или в сторонних системах и передает эти данные в различные форматы и источники.
- Подготовка - простота процесса получения готовых для анализа данных, или последующих процессов с набором инструментов для перетаскивания, устраняет необходимость SQL-кодирования и сложных формул.
- Присоединение - работа с несколькими источниками данных не должна быть сложной. Смешивает несколько источников данных через ряд инструментов, независимо от структуры данных и форматов.
- Прогноз – дает доступ к более чем 30 подготовленным инструментам и наиболее широко используемым процедурам прогностического анализа, группировки и прогнозирования, чтобы помогать аналитику на протяжении всего процесса прогностического анализа.
- Пространственный - геопространственные данные могут дать обширную информацию, которой можно пользоваться, принимать более обоснованные решения на основе местоположения, участков замены, временного анализа и многого другого.
- Расследование - перед началом процесса анализа, аналитики должны понимать детали данных, прежде чем они могут погрузиться в более глубокий анализ.
- Интерпретация и трансформация - данные проходят все формы и форматы, их можно много раз переформатировать с использованием инструментов интерпретации и трансформации для дальнейшего анализа.
Ввод/Вывод
Данные могут хранится в нескольких местах, например, на локальном компьютере, в реляционной базе данных, в облаке, или в посторонних системах. Alteryx Analytics позволяет пользователям получать доступ и передавать различные данные множества видов из разных источников. Ниже приведены примеры типов инструментов, доступных в Alteryx Analytics для ввода и вывода данных.
- Просмотр Добавьте один или несколько пунктов в поток данных, чтобы просмотреть и проверить свои данные.
- Дата Время Сейчас Введите текущую дату и время в модуле времени работы в формате выбора пользователя. (Удобно для добавления даты и времени в оглавление отчета).
- Папка Введите список названий файлов и атрибутов из указанной папки.
- Ввод Перенесите данные в Ваш модуль, выбрав файл, или подключившись к базе данных (опционально, с помощью запроса).
- Ввод Карты Вручную нарисуйте или выберите объекты на карте (точки, линии и многоугольники), чтобы сохранить их в модуле.
- Вывод Выведите содержимое потока данных в файл или базу данных.
- Ввод Текста Вручную добавьте данные, которые будут храниться в модуле.
- Ввод XDF Этот инструмент позволяет получить доступ к файлу формата XDF (формат, используемый системой Revolution R Enterprise's RevoScaleR для масштабирования прогностического анализа миллионов различных записей) для: (1) использования файла XDF в качестве входных данных для инструмента прогностической аналитики, или (2) для чтения файлов в потоке данных Alteryx и для соблюдения дальнейшей гигиены данных либо для смешивания.
- Вывод XDF Этот инструмент считывает поток данных Alteryx в файл формата XDF, формат файла используется системой Revolution R Enterprise's RevoScaleR для масштабирования прогностического анализа для миллионов различных записей. По умолчанию, новые XDF-файлы хранятся, как временные файлы с возможностью записи на диск в виде постоянного файла и могут быть доступны в Alteryx с помощью инструмента Ввода XDF.
- Вывод API Возврат результатов потока данных непосредственно в функции обратного вызова API. Используется с разработкой пользовательских приложений.
- Foursquare Поиск площадок Foursquare по местонахождению с возможностью фильтрации по поисковому запросу.
- Поиск Twitter Поиск твитов за последних 7 дней по заданным условиям с указанием места и пользователей в качестве дополнительных свойств.
- Загрузка Amazon S3 Читает файлы CSV, DBF и YXDB с Amazon S3.
- Выгрузка Amazon S3 Записывает файлы CSV, DBF и YXDB на Amazon S3.
- Загрузка Получение данных из указанного URL, в том числе сайта FTP, для использования в потоке данных.
- Google Аналитика Ввод данных из Google Аналитики
- Ввод Marketo Инструмент ввода Marketo считывает записи Marketo для указанного диапазона дат. Могут быть получены два типа записей Marketo: • LeadRecord: это – главные записи, может будет по одной главной записи для каждой категории. • ChangeRecord: эти записи отслеживают деятельность главных. Есть потенциально много отчетов ChangeRecord для каждой LeadRecord. Инструмент ввода извлекает записи в количестве 1000 записей, а инструмент Marketo Append делает запрос API для каждой записи
- Marketo Append Инструмент Marketo Append извлекает записи Marketo и добавляет их к записям входящего потока данных. Могут быть получены два типа записей Marketo: • LeadRecord: это – главные записи, может будет по одной главной записи для каждой категории. • ActivityRecord: Эти записи отслеживают деятельность главных. Есть потенциально много записей ActivityRecord для каждого LeadRecord. Оба эти типа записей извлекаются с указанием LeadKey, который должен быть поставлен выше в потоке инструмента. Более подробную информацию о LeadKeys можно найти в разделе Append Tab в свойствах конфигурации.
- Вывод Marketo Инструмент ввода Marketo использует функции Marketo API: syncLead (). Данные записываются на Marketo с использованием операции "Upsert". Это означает, что если запись не существует в настоящее время, она будет создана (см 'Вставки' ниже). Если запись существует в настоящее время, она будет обновлена.
- Ввод MongoDB Чтение и запрос данных из базы данных MongoDB. MongoDB - масштабируемая база с высокой производительностью и открытым исходным кодом базы данных NoSQL.
- Вывод MongoDB Запись данных в базу данных MongoDB. MongoDB – масштабируемая база с высокой производительностью и открытым исходным кодом базы данных NoSQL.
- Ввод Salesforce Чтение и запрос данных с Salesforce.com.
- Вывод Salesforce Запись данных на Salesforce.com.
- Ввод в Список SharePoint Чтение списка на SharePoint.
- Вывод Списка SharePoint Запись данных в список на SharePoint.
- Просмотр Данных In-DB Просмотр данных в любой момент рабочего процесса In-DB. Примечание: при каждом In-DB просмотре посылается запрос в базу данных, что может повлиять на производительность.
- Соединение In-DB Установите соединение с базой данных для процесса In-DB
- Поток Данных В Перенос данных со стандартного процесса в процесс In-DB.
- Поток Данных Из Направление данных с процесса In-DB в стандартный процесс с опцией сортировки записей.
- Запись In-DB Используйте поток данных In-DB, чтобы создать или обновить таблицу напрямую или в базе данных.
Подготовка
Большинство аналитиков хотели бы тратить больше времени, анализируя данные, а не подготавливая их к анализу. Alteryx Analytics помогает сократить время подготовки данных на 30% (по отзывам пользователей), что дает аналитикам больше времени на проверку гипотез и оценку моделей. Alteryx Analytics облегчает процесс перетаскивания инструментов и устраняет необходимость SQL-кодирования и использования сложных формул.
- Авто Поле Автоматически установите тип поля для каждой строки поля до минимально возможного размера и типа, так чтобы разместить данные в каждом столбце.
- Фильтр Запрос записи, основанный на разделении данных на два потока, True (записи, которые удовлетворяют условие выражения) и False (которые не удовлетворяют).
- Фильтр In-DB Фильтр записи In-DB с базовым фильтром, или с использованием «родного» языка базы данных (например, SQL).
- Фильтр Данных Макрос фильтра данных разработан, чтобы дать пользователю возможность легко отфильтровать данные, основанные на критериях, с использованием интерфейса на основе календаря.
- Формула Создание или изменение поля с помощью одного или нескольких выражений для выполнения широкого спектра расчетов и/или операций.
- Формула In-DB Создание или изменение поля в потоке данных In-DB с выражением и использованием «родного» языка базы данных (например, SQL).
- Создание Строк Создание новых строк данных. Полезно для создания последовательности чисел, операций, или данных.
- Приписывание Значений Обновление конкретных значений в числовом поле данных с другим выбранным значением. Полезно для замены значения NULL ().
- Многопрофильная Сортировка Сгруппируйте несколько числовых полей в таблицы или строки, особенно для использования в прогностическом анализе.
- Многополярная Формула Создать или обновить несколько полей, используя единое выражение для выполнения широкого спектра расчетов и/или операций.
- Многостроковая Формула Создание или обновление одного поля может ссылаться на поля в последующих и / или предыдущих строках, чтобы выполнить широкий спектр расчетов и / или операций. Полезно для разбора сложных данных и создания отчета о текущих итогах.
- Случайный % Образцов Генерируйте случайные числа или процент записей, проходящих через поток данных.
- Запись ID Назначьте уникальный идентификатор для каждой записи.
- Образец Ограничьте поток данных в числах, процентах или в случайном наборе записей.
- Образец In-DB Ограничьте поток данных в ряду In-DB, или в процентах записей.
- Выбор Выбор или отмена, реорганизация и переименование поля, изменение типа поля или размера, назначение описания.
- Выбор In-DB Выбор, отмена, реорганизация и переименование поля в рабочем процессе In-DB.
- Выбор Записей Выберите определенные записи и/или диапазонов записей, включая прерывающиеся диапазоны. Полезен для устранения неисправностей и выборок.
- Сортировка Сортировка записей на основе значений одного или нескольких полей.
- Группировка Группируйте данные в наборы на основе диапазона значений в поле.
- Уникальность Разделите данные на два потока, продублируйте уникальные записи, основываясь на полях по выбору пользователя.
Присоединение
Сегодняшние аналитики сталкиваются с проблемой того, что не все данные находятся в одной системе, или в одном месте. Получение доступа к этим данным является первым шагом в процессе анализа; аналитик смешивает и комбинирует эти данные, чтобы сделать более обоснованное решение и это является ключевым компонентом создания рабочего аналитического набора данных, на основании которого аналитики могут принимать решения. Alteryx Analytics дает аналитикам возможность смешивать данные из нескольких источников, независимо от структуры данных и форматов (с помощью ряда инструментов).
- Добавление Поля Добавьте поля из источника входного сигнала для каждой записи в целевой вход. Каждая запись целевого входа будет дублироваться для каждой записи на входе источника.
- Найти Заменить Поиск данных в одном поле из одного потока данных и замена при помощи заданной области из другого потока. Похоже на Excel VLOOKUP.
- Присоединение Объединение двух потоков данных на основе общих полей (или положения записи). В соединенном выходе каждая строка будет содержать данные из обоих входов.
- Присоединение In-DB Объединение двух потоков данных In-DB, основанных на общих полях, выполняющих внутреннее или внешнее соединение.
- Множественное Присоединение Объединение двух или более входов, основанное на общих полях (или положении записи). В соединенном выходе каждая строка будет содержать данные из обоих входов.
- Создание группы Инструмент «Создание Группы» принимает данные и собирает их в группы, основанные на этих отношениях.
- Нечеткие Пары Определение неидентичных дубликатов в потоке данных.
- Сопоставление Бизнес-файлов Dun и Bradstreet Сопоставьте клиентский, или перспективный файл с бизнес-файлом Dun & Bradstreet. (для этого требуется, программа Alteryx с пакетом данных и установленным файлом «Dun & Bradstreet»)
- Соответствие домашнего Experian-файла Сопоставьте пользовательский файл с бытовым пользовательским файлом Experian. (для этого требуется, программа Alteryx с пакетом данных и установленной программой «Experian ConsumerView Household» и отдельным файлом)
- Объединение Соедините два или несколько потоков данных с аналогичными структурами, основываясь на названиях полей или позиций. На выходе, каждый столбец содержит данные из каждого входа.
- Объединение In-DB Объединение двух или нескольких потоков данных In-DB с аналогичными структурами, основываясь на названиях полей или позиций. На выходе, каждый столбец содержит данные из каждого входа.
Прогноз
Alteryx Analytics делает прогностическую аналитику доступной для пользователей всех типов и навыков. Программа предоставляет более 30 инструментов для наиболее широко используемых процедур прогностического анализа, группируя, и прогнозируя, чтобы помочь аналитику в ходе всего процесса прогностического анализа. Эти инструменты строятся на R-фреймворке при помощи перетаскивания, устраняя необходимость в программировании сценариев.
- Тестовый Анализ AB Сравните процентное изменение меры производительности с тем же показателем за год до этого.
- Управление AB Инструмент «Control Select» назначает от одного до десяти блоков управления (например, магазины, клиенты и т.д.) каждому члену набора предварительно отобранных испытательных блоков на основе таких критериев, как сезонные модели и тенденции роста для ключевого показателя эффективности, наряду с другими пользовательскими критериями.
- Обращение AB Определите, какая группа является наилучшей для тестирования AB.
- Тренды AB Создание мер трендов и сезонных моделей, которые можно использовать для того, чтобы назначить инструменты модулям управления (например, магазины или клиенты) для тестирования A/B. Мера тренда основывается на периодическом изменении в скользящей средней (принятой в течение одного года) на интересующем Вас отрезке. Та же мера используется для оценки сезонных эффектов. В частности, процент от общего уровня измерения используется для оценки сезонных колебаний в отчетный период.
- Улучшенная Модель Предоставляет обобщенные модели регрессионного роста на основе метода градиентного бустинга Фридмана. *Система работает путем поочередного добавления простых моделей решений и моделей ансамбля для того, чтобы свести к минимуму соответствующую функцию потерь.
- Регрессия Счета Оцените модель регрессии для данных счета (например, количество магазинов, которые клиент посещает за год) с использованием модели регрессии Пуассона, квази-регрессии Пуассона, биномиальной или отрицательной регрессии. Функция R, которая используется для достижения этой цели – glm() (из пакета статистики R) и glm.nb() (из пакета MASS).
- Дерево Решений Предсказание целевой переменной с использованием одной или более прогнозирующих переменных, которые, как ожидается, оказывают влияние на целевую переменную при построении набора по правилам, которые оптимизируют критерий. Если целевая переменная идентифицирует принадлежность к одной из множества категорий, строится классификационное дерево (на основе коэффициента Джини), чтобы максимизировать «чистоту» на каждом участке. Если целевая переменная - непрерывная переменная, строится дерево регрессии с использованием критериев раскола и «минимизации суммы квадратов ошибок» на каждом участке раскола.
- Модель Леса Предсказание целевой переменной с использованием одной или более прогностических переменных, которые, как ожидается, оказывают влияние на целевую переменную с помощью построения и объединения набора моделей для дерева решений ("ансамбль" из моделей дерева решений).
- Гамма-Регрессия Основываясь на обобщенной линейной модели R и Revo, которая называется Гамма-регрессией, (основанной на базовом гамма-распределении) и управляет строго положительными целевыми переменными, которые обладают длинным «правым хвостом» (так большинство значений относительно невелики, и есть длинный «правый хвост» распределения).
- График Подъема Сравните улучшение (или подъем), который обеспечивают различные модели, а также "случайное предположение", которое должно помочь определить, какая модель «лучше». Создайте совокупный график (также называемый графиком прибыли), или инкрементную диаграмму.
- Правила Бизнес Корзины Шаг 1 из потребительской корзины анализа: возьмите ориентировочные данные транзакций и создайте набор правил ассоциации или частый набор элементов. Сводный отчет данных по сделке и правил/наборов элементов производится вместе с объектом модели и может быть дополнительно исследован в MB Inspect tool.
- Исследование Бизнес Корзины Шаг 2 для анализа потребительской корзины: возьмите выходные данные инструмента MB Rules, а также обеспечьте перечисление и анализ этих правил, которые можно фильтровать по нескольким критериям для того, чтобы уменьшить количество или возвращенные правила, или комплекты до управляемого количества.
- Вложенный Тест Изучите две модели и определите, какая из них содержит подмножество переменных, которые содержатся в другой, и является статистически эквивалентной с точки зрения их прогностических возможностей.
- Линейная Регрессия Установка требуемой переменной (целевой переменной) для одной или нескольких переменных (предикторов), которые, как ожидается, оказывают влияние на целевую переменную. (Модель также известна как линейная модель регрессии или модель наименьших квадратов.)
- Логистическая Регрессия Установка бинарной (да / нет) переменной (целевой переменной) для одной или нескольких переменных (предикторов), которые, как ожидается, оказывают влияние на целевую переменную.
- Наивный классификатор Байеса Создание биномиальной или мультиномиальной вероятностной классификации модели отношений между множеством предикторов и категорической целевой переменной. Наивный классификатор Байеса предполагает, что все переменные предиктора независимы друг от друга и, основываясь на входной выборке, предсказывает распределение вероятностей по множеству классов, таким образом, вычисляя вероятность принадлежности к каждому классу целевой переменной.
- Нейронные Сети Этот инструмент позволяет пользователю создавать модель восприимчивой нейронной сети с одним скрытым слоем. Нейроны в скрытом слое используют логистическую (также известную как сигмовидная) функцию активации, и функцию активации выходного сигнала, которые зависят от характера целевой области. В частности, для задач бинарной классификации (например, определение вероятности того, покупает ли клиент что-нибудь, или не покупает), функции активации вывода, для которых используется логистика для полиномиальных задач классификации (например, определение вероятности того, выбирает ли клиент вариант А, В, или С), а на выходе функция активации SoftMax; для решения проблем регрессии (где целью является непрерывное, числовое поле) линейная функция активации используется для вывода.
- Поддержка Векторных Вычислительных Машин Поддержка Векторных Вычислительных Машин (ПВМ), или Поддержка Векторных Вычислительных Сетей (ПВС) - популярные контролируемые алгоритмы обучения, которые используют для задач классификации, они предназначены для использования в тех случаях, когда данные (например, данные наблюдения) считаются линейно неразрывными. Другими словами, целевые значения не могут быть разделены на основные класса с помощью простой границы из одной линии.*
- Модель Сплайнов Этот инструмент реализует модель многомерного регрессионного сплайна (MARS) Фридмана. Он является более современным классом модели (как и Модель Леса и Улучшенная Модель) и обрабатывает переменный выбор и нелинейные отношения непосредственно с алгоритмом. В некотором смысле модель похожа на дерево решений, но вместо того, чтобы совершать дискретные скачки в "расколах", (так называемые «узлы» в этом методе) они размещаются в "петле", где наклон эффекта предиктора является мишенью изменения, в результате влияния цифровых предсказателей, он может быть смоделирован при помощи фрагментарно-линейных компонентов.
- Пошагово Определение "лучших" предикторов для включения в модель из наибольшего набора потенциальных предикторов для линейных, логистических и других традиционных моделей регрессии. Alteryx R использует обратную переменную и смешанную обратную либо прямую переменную выбора на основе ступенчатого инструмента регрессии.
- Счет Расчет прогнозируемых значений для целевой переменной модели. Выполняется путем добавления поля "Показатель" в каждую запись в выходе потока данных, на основе входов: объект модели R (производится по Логистической Регрессии, Дереву решений, Модели Леса или Линейной Регрессии), а поток данных согласуется с объектом модели (в том, что касается названий полей и типов полей).
- Испытание средних Сравнение разницы средних значений (с помощью двух образцов Т-теста Welch) для числового поля между контрольной группой и одной или несколькими другими группами.
- TS ARIMA Оценка одномерной модели прогнозирования временных рядов с использованием интегрированного авто-регрессивного метода движущегося среднего (или ARIMA).
- Сравнение TS Сравнение одной или нескольких одномерных моделей временных рядов, созданных при помощи инструментов ETS или ARIMA.
- TS ETS Оценка одномерной модели прогнозирования временных рядов с использованием экспоненциального метода сглаживания.
- Регистратор TS Этот инструмент позволяет пользователю принять поток данных временных рядов данных и "заполнить" пробелы в серии.
- Ковариантный Прогноз TS Модель Ковариантного Прогноза TS предоставляет прогнозы модели ARIMA и оценивается при помощи использования регрессоров для заданного пользователем числа будущих периодов. Кроме того, верхняя и нижняя границы интервала конфиденциальности обеспечены для двух различных (заданных пользователем) уровней процента конфиденциальности. Для каждого уровня конфиденциальности, ожидаемая вероятность того, что истинное значение будет находиться в пределах предоставленных рамок, соответствует проценту уровня конфиденциальности. В дополнение к модели, должны также предоставляться значения ковариантов для прогнозируемого периода.
- Прогноз TS Обеспечение прогнозов с модели ARIMA или ETS для конкретного числа будущих периодов.
- Участок TS Создание количества различных одномерных временных рядов участков для помощи в понимании данных временных рядов и определения разработки модели прогнозирования.
- Добавление Кластера Добавление кластера задания из инструмента K-Centroids Cluster Analysis в поток данных, содержащий набор полей (с теми же названиями, но не обязательно с теми же значениями), который используется для создания оригинального разрешения кластера.
- Анализ K-Centroids Разделяющие записи в группах "K" вокруг центров тяжести с назначением членства кластера и использованием K-средней, К-медианой, или Нейронно-газовой кластеризации.
- Диагностика K-Centroids Оценка соответствующего количества кластеров с учетом данных и выбранного алгоритма Прогнозирующей группировки (K-средние, K-Медианы, или Нейронный Газ).
- K-Ближайший Сосед Найти выбранное количество ближайших соседей в потоке "данных", которые соответствуют каждой записи в потоке "запроса" по их Евклидовым расстояниям.
- Принципиальные Компоненты Уменьшение размера (количества числовых полей) в базе данных путем преобразования оригинального набора полей в меньший набор, что составляет большую часть дисперсии (т.е. информации) в данных. Новые поля называются факторами, или основными компонентами.
- Инструмент R Выполнение сценария языка R и связь между входящими и исходящими данными обеспечивает Alteryx R инструмент с открытым исходным кодом, который используется для статистического анализа и прогноза.
Пространственный
Геопространственные данные могут предоставить огромное количество ценной информации. Тем не менее, достаточно трудно самостоятельно получить значимую информацию, которую позже можно будет трансформировать, улучшать или организовывать. Alteryx Analytics предлагает широкий спектр инструментов для пространственного анализа, чтобы помочь организациям пользоваться геопространственными данными и принимать более обоснованные решения.
- Буфер Увеличьте или уменьшите размер пространственного объекта (как правило, это многоугольник).
- Создание Точек Создание пространственных точек в потоке данных с использованием цифровых координат поля.
- Расстояние Расчет расстояния, или времени между двумя точками, линиями или многоугольниками.
- Найти ближайшее Определение ближайших точек, или многоугольников в одном файле к точкам во втором файле.
- Обобщение Упрощение многоугольника, или полилинии объекта путем уменьшения количества узлов.
- Карта Тепла Создание многоугольника, который представляет различные уровни "тепла" (например спрос) в данной области, на основе отдельных записей (например, клиентов).
- Создание Таблицы Создать сетки в пределах пространственных объектов в потоке данных.
- Не перекрывающее время в работе Создать площадки для временной замены, которые не перекрываются файлами точек.
- Полисборка Создание многоугольника, или полилинии из множества точек.
- Множественное разделение Разбивка многоугольника, или полилинии на составные многоугольники, линии или точки.
- Гладкость Скругление острых углов многоугольника или полилиний путем добавления узлов вдоль линии.
- Пространственная Информация Извлечение информации о пространственном объекте, например об области, центре тяжести, ограничивающем прямоугольнике и т.д.
- Пространственное соответсвие Объединение двух потоков данных на базе отношения между двумя наборами пространственных объектов для определения того, пересекаются ли объекты, содержат ли друг друга, или касаются.
- Пространственный Процесс Создание новых пространственных объектов из сочетания или пересечения двух пространственных объектов.
- Торговая зона Определение радиусов (в том числе неперекрывающихся) или многоугольника времени в работе с заданными точками.
Расследование
Перед началом процессом анализа, пользователи должны знать все подробности о своих данных. Alteryx дает пользователям массив данных и инструменты для анализа, чтобы быстро и легко понять данные.
- Ассоциативный Анализ Определение того, какие поля в базе данных являются двумерной ассоциацией друг с другом.
- Резервная Таблица Создание таблицы, основанной на выбранных полях, чтобы перечислить все комбинации значений в поле с частотой и столбиками процентов.
- Создание Образцов Разбивает поток данных на две или три случайных выборки с заданным процентом записей в оценке и проверки образцов. Если сумма меньше 100%, остальные записи попадают в образец.
- Распределительный Анализ Позволяет соотнести один или несколько распределений со входными данными и сравнить их на основе ряда статистических критериев. На основании статистической значимости (значения р) результатов этих тестов, пользователь может определить, какое распределение лучше всего представляет данные.
- Краткий Отчет Поля Создание краткого резюме об описательной статистике для выбранных полей данных.
- Таблица Частоты Создание анализа частоты для выбранных полей - выходные данные содержат сводку выбранного поля (ей) с подсчетами частот и процентов для каждого значения в поле.
- Гистограмма Обеспечивает гистограмму для числового поля. При желании, также обеспечивает сглаженный плотный эмпирический участок. Частоты отображаются, когда участок плотности не выбран, и вероятно, когда этот параметр выбран. Количество разрывов может быть установлено пользователем, или автоматически определяется при помощи использования метода Sturges.
- График Тепла Этот инструмент образовывает эмпирическую двумерную плотность двух числовых полей, с использованием цвета для отображения изменения плотности данных для различных уровней двух полей.
- Поле супервыборки Создает образец входных данных так, чтобы было равное представление значений данных, чтобы эффективно использовать их в прогнозирующей модели.
- Корреляция Пирсона Заменяет коэффициент корреляции Пирсона в предыдущих версиях. Коэффициент Пирсона определяется путем деления ковариации двух переменных на продукт их стандартных отклонений.
- Участок средних Переносит цифровое или двоичное поле категории (в пересчете на нулевое и единичное значение) и поле ответа вместе с полем категории и графиком средних в поле ответа для каждой из категорий (уровней) поля категоризации.
- Разброс Точек Создает расширенную диаграмму с опцией включения коробчатой диаграммы в поля, линии линейной регрессии, гладкой кривую с помощью непараметрической регрессии, сглаженного условного распространения, аномального значения идентификации, и линии регрессии. Плавная кривая может повлиять на соотношения между двумя переменными по отношению к традиционной диаграммы разброса, в частности, в случаях, со многими наблюдениями, или высоким уровнем дисперсии в данных.
- Коэффициент Корреляции Спирмена Оценивает, насколько хорошо произвольная монотонная функция может описать отношения между двумя переменными, не делая каких-либо других предположений о конкретной природе соотношений между переменными.
- График Скрипки Показывает распределение одной числовой переменной и передает плотность распределения на основе более гладкого ядра, которое указывает плотность значений (через ширину) числового поля. В дополнение к сжатому характеру распределения числовой переменной, график скрипки представляет собой отличный способ визуализации соотношения между цифровым и категориальным переменным путем создания отдельного графика скрипки для каждого значения категориальной переменной.
Интерпретация и Трансформация
Данные приходят во всех формах и форматах и их часто необходимо переформатировать и менять, чтобы данные, которые будут проанализированы. Alteryx содержит ряд инструментов для интерпретации и трансформации для помощи пользователям в дальнейшем анализе.
- Дата Время Преобразование данных даты/времени из различных форматов, в том числе из подходящих для выражений и читабельных для человека форматов.
- RegEx Интерпретирует, соединяет или заменяет данные, используя синтаксис регулярных выражений.
- Текст по Столбцам Интерпретация текста из одного поля в отдельные строки и столбцы.
- Интерпретация XML Читает фрагменты XML и разбивает их на отдельные поля.
- Интерпретация JSON Инструмент интерпретации JSON отделяет текст Java Script Object Notation в схеме таблицы с целью дальнейшей переработки. Его можно снова собрать в удобном формате JSON, подав выходные данные на инструмент JSON Build.
- Упорядочивание Вручную переносит и переставляет поля для презентаций.
- Счет записей Считает записи, которые проходят через поток данных. Подсчет возвращает ноль, если нет записей проходящих через программу.
- Перекресный Возвращает ориентированный поток данных так, что вертикальные поля встают по горизонтальной оси, сведенные в указанных местах.
- Промежуточная сумма Рассчитывает накопленную сумму для каждой записи в потоке данных.
- Суммирование Сводит данные с помощью группировки, суммирования, подсчета, пространственной обработки, конкатенации и многого другого. Выход содержит только результаты расчета (ов).
- Суммирование In-DB Суммирует данные In-DB с помощью группировки, суммирования, подсчета, пространственной обработки, конкатенации и многого другого. Выход содержит только результаты расчета (ов).
- Транспонирование Изменяет ориентацию потока данных таким образом, что горизонтальные поля размещаются на вертикальной оси.
- Среднее Взвешенное Рассчитывает среднее взвешенное набора значений, где некоторые записи могут вносить больший вклад, чем другие.