Исследование хорошо структурированных данных
Раздел 1. Характеристики данных.
Раздел 3. Реструктуризация данных.
Как узнать, что ваши данные готовы к анализу? В этом модуле вы узнаете, как распознавать готовность данных и как при необходимости реструктурировать их.
Цели
По завершении этого модуля вы сможете:
- Определять характеристики значимых данных.
- Различать хорошо структурированные данные и плохо структурированные данные.
- Определять варианты реструктуризации данных.
Раздел 1 Характеристики данных
В модуле «Введение в информационную грамотность» мы обсуждаем характеристики, которые известный информационный технолог, Стивен Фью определил, как качества, которые помогают людям эффективно работать с данными. Подобно тому, как люди, которые эффективно работают с данными, имеют определенные черты, эффективные данные также имеют определенные характеристики. По словам Стивена Фью, качественные данные являются важной частью анализа данных, что приводит к важным выводам.
Особенности значимых данных
Далеко не все знают о списке характеристик, которые можно найти у значимых данных. Просматривая эти характеристики, поразмышляйте над собственным опытом. Сталкивались ли вы с данными, которые были полезны в вашей личной жизни или в работе? Какими из этих качеств обладали ваши данные? Сталкивались ли вы с данными, которые не были полезны в вашей личной жизни или в работе? Каких из этих качеств не было у ваших данных?
Разверните каждый элемент ниже, чтобы узнать больше об этой характеристике высококачественных данных.
Объем
Большой объем актуальных и доступных данных означает, что у вас больше шансов получить то, что вам нужно, и найти ответы на свои вопросы.
Примечание. Нет необходимости просто собирать данные ради самих данных; важна их актуальность.
История
Данные, которые относятся к прошлому, позволяют увидеть, как возникла нынешняя ситуация из-за закономерностей, которые возникли с течением времени, например, просмотрите показатели продаж за последние 10 лет, чтобы заметить увеличение или уменьшение.
Последовательность
По мере того, как что-то меняется, данные следует корректировать для их согласованности. Данные о заработной плате и ценах, скорректированные с учетом инфляции, являются хорошим примером этого принципа.
Несколько переменных
Данные должны содержать как количественные (измеряемые численно), так и качественные (характеристические, не измеряемые числами) переменные. Чем больше переменных в данных, тем больше вы сможете узнать из них.
Самый низкий уровень детализации
Чем более детализированы данные, тем больше вы сможете исследовать их на различных уровнях детализации. Например, если вы хотите понять тенденции в езде на велосипеде в вашем штате, было бы полезно увидеть, как на эти тенденции влияет округ, город и район.
Чистота
Чтобы данные были значимыми, они не должны быть неточными или неполными и в них не должно быть ошибок.
Ясность
Данные должны быть изложены в понятных терминах, а не кодами. Например, типы жилья вроде «одна семья», «дом для двух семей» и «таунхаус» гораздо легче понять, чем «1Fam», «2fmhs» и «Twnh».
Размерная структура
Доступный способ структурировать данные – разделить их на два типа: измерения (качественные значения) и меры (количественные значения).
Сегменты
Группы, основанные на схожих характеристиках, должны быть встроены в данные для облегчения анализа. Например, данные о фильмах можно сгруппировать по жанрам (боевик, научная фантастика, мелодрама, комедия и т. д.).
Понятное происхождение
Чтобы доверять данным, вы должны знать, что они поступили из надежного источника и обрабатывались надежными способами.
Пример
Представьте, что у вас есть файл Excel под названием «Январь-работа-реакторов», который был загружен с Data.gov, веб-сайта, где вы можете получить доступ к открытым данным правительства США.
Файл содержит информацию о расположении и мощностях ядерных реакторов в США. На следующем изображении представлен скриншот первых 16 строк данных.
Щелкните на изображение, чтобы увеличить его.
Data.gov
Снимок первых 16 строк данных
Учитывайте особенности значимых данных
Подумайте о качествах значимых данных. Вы знаете, что этот набор данных взят с Data.gov, веб-сайта, на котором вы можете получить доступ к открытым данным правительства США, и вы видите, что он содержит данные за 2003-2018 годы. Какие две особенности значимых данных здесь представлены? Подумайте об этом и ответьте на вопрос ниже.
Какие качества значимых данных очевидны в этом наборе данных? Выберите два.
- История
- Сегменты
- Понятное происхождение
Проверка знаний
Какое из следующих определений лучше всего соответствует характеристике «ясности» данных, описанной в этом уроке?
- Содержат как количественные, так и качественные переменные.
- Написаны понятным языком, а не кодом.
- Возвращают в прошлое, чтобы показать закономерности.
- Содержат группы, основанные на схожих характеристиках.
Резюме
Теперь у вас есть понимание некоторых характеристик эффективных данных. На следующем уроке вы узнаете, как организованы данные, а также в чем различие между хорошо структурированными и плохо структурированными данными.
Раздел 2. Организация данных
Теперь, когда вы знакомы с характеристиками качественных данных, вы готовы узнать, как они организованы.
Данные организованы в строки и столбцы:
- Столбцы расположены вертикально, и каждый столбец представляет отдельную переменную (или поле). Модуль «Введение в информационную грамотность» определяет переменную как измерение, свойство или характеристику элемента, которые могут изменяться.
- Строки горизонтальны, и каждая строка представляет одну единицу анализа.
Давайте рассмотрим это на примере. Подумайте о членах своей семьи или друзьях и создайте таблицу, используя переменные (или поля): имя, возраст, рост и любимая еда. Ваша таблица может выглядеть примерно так, как показано ниже.
В этой таблице указаны имя, возраст, рост и любимая еда для четырех человек.
Как видите, переменные (или поля) организованы в столбцы, по одному для имени, возраста, роста и любимой еды. Каждая строка представляет одну единицу анализа (или значение). В этом случае, прочитав любую строку, вы узнаете имя, возраст, рост и любимую еду одного человека. Например, Алии 8 лет, ее рост составляет 50 дюймов, и она любит мороженое.
Хорошо структурированные данные
Хорошо структурированные данные организованы следующим образом:
- Каждая переменная (поле) находится в одном столбце с заголовком столбца.
- Каждое отдельное наблюдение этой переменной (значения) находится в отдельной строке.
Эта простая таблица содержит столбец и заголовок столбца для каждой переменной со значениями на уровне строк для каждого столбца.
Например, посмотрите на эту простую таблицу. Переменные (поля) – это поставщик, город и штат, и каждая из них существует в собственном столбце с заголовком столбца. В каждой строке перечислены наблюдения за переменными (значениями), в данном случае имя и местонахождение поставщика по городу и штату.
Плохо структурированные данные
Плохо структурированные данные содержат определенные характеристики, которые вызывают беспорядок в данных или могут затруднить их интерпретацию программным обеспечением. Вот некоторые из этих проблем:
- Переменные (поля) находятся не в одном столбце, а в заголовке столбца.
- Каждое отдельное наблюдение переменной (значения) не находится в отдельной строке.
- Заголовки форматируются как строки над заголовками столбцов или как дополнительные столбцы.
- Дополнительные столбцы и строки.
- Заголовки столбцов отформатированы как подзаголовки, а не в первой строке.
Например, посмотрите на эту плохо отформатированную таблицу, в которой указано среднее количество фильмов, которые в 2019 году посмотрела выборка из 16000 человек в Калифорнии и Нью-Йорке.
Замечаете какую-либо из характеристик плохо структурированных данных, перечисленных выше?
Уделите минутку и подумайте над этим, а затем нажмите на маркеры, чтобы проверить свои ответы.
Заголовки в строках
Первая строка должна содержать только заголовки столбцов. Эта строка и строка под ней являются заголовками, а не заголовками столбцов.
Заголовки столбцов в 3-й строке
Несмотря на то, что они выделены, ячейки «Характеристики» и «Размер выборки» не будут считываться заголовками столбцов большинством программ.
Переменная (поле) как подзаголовок
Подзаголовки (возрастная группа, среднее количество просмотров фильмов в 2019 году) в этом столбце – это переменные (поля), которые должны находиться в отдельных столбцах.
Дополнительная колонка
Это заголовок отчета, но он отформатирован как отдельный столбец.
Дополнительный ряд
Страна – это переменная (поле), которая должна быть отдельным столбцом, с заголовком столбца, а не строкой.
Проверка знаний
Плохо структурированную таблицу выше можно реструктурировать тремя способами, как показано на следующем изображении. Рассмотрите все три из этих реструктурированных таблиц, а затем решите, какая из них теперь хорошо структурирована.
Какая из трех реструктурированных таблиц, показанных выше, теперь структурирована хорошо: Таблица 1 (слева), Таблица 2 (в центре) или Таблица 3 (справа)?
- Таблица 1 (слева)
- Таблица 2 (в центре)
- Таблица 3 (справа)
Правильные и неправильные ответы будут описаны отдельно после проверки знаний. Переверните каждую карту ниже, чтобы еще раз прочитать объяснение к этой таблице.
Таблица 1. В этой таблице по-прежнему используется переменная (или поле) Среднее количество фильмов, просмотренных в 2019 году, в качестве подзаголовков, поэтому она по-прежнему плохо отформатирована.
Таблица 2 – В этой таблице есть столбец для каждой переменной (или поля) с заголовком столбца для каждой и каждое отдельное наблюдение этой переменной (или значения) в отдельной строке, поэтому теперь она структурирована хорошо.
Таблица 3 – В этой таблице по-прежнему используется заголовок в первой строке вместо заголовка столбцов, а переменные (или поля), Возрастная группа и Среднее количество фильмов, просмотренных в 2019 году, по-прежнему являются подзаголовками. Она остается плохо структурированной.
Резюме
Теперь вы знаете, как организованы данные, и разницу между хорошо структурированными и плохо структурированными данными. На следующем уроке вы рассмотрите некоторые из способов реструктуризации плохо структурированных данных.
Раздел 3. Реструктуризация данных
Что делать, если ваши данные структурированы плохо? Вот некоторые подходы, которые вы можете использовать для реструктуризации данных: изменение базы данных; использование языка программирования, например, R или Python; использование инструментов платформ Tableau и Qlik; и использование других инструментов ETL (извлечение, преобразование, загрузка).
В некоторых случаях вы будете настраивать метаданные, описывающие данные, вместо того, чтобы изменять фактические данные. Метаданные включают такую информацию, как вычисления, переименованные поля и форматирование по умолчанию. Метаданные также могут включать в себя изменения, внесенные в структуру данных.
В этом уроке описаны несколько настроек, которые вы можете внести в плохо структурированные данные, чтобы затем использовать их эффективно. Вы также будете применять эти изменения, используя параметры, упомянутые выше, по желанию.
Обзор: хорошо структурированные данные
Вернемся к тому, что вы узнали ранее в этом модуле о том, как организованы хорошо структурированные данные:
- Каждая переменная находится в одном столбце с заголовком столбца.
- Каждое отдельное наблюдение этой переменной находится в отдельной строке.
Эта простая таблица содержит столбец и заголовок столбца для каждой переменной со значениями на уровне строк для каждого столбца.
Ранее мы рассматривали эту простую таблицу. Переменные здесь следующие: поставщик, город и штат, и каждая из них существует в собственном столбце с заголовком столбца. В каждой строке перечислены наблюдения (или значения) для переменных (или полей), в данном случае имя и местонахождение поставщика по городу и штату.
Если ваши данные плохо структурированы, какие у вас есть варианты? В таких случаях вам нужно будет выполнить ряд действий по подготовке данных, чтобы набор данных можно было использовать для анализа.
Вот некоторые общие задачи по преобразованию данных в хорошо структурированные.
- Транспонирование столбцов и строк и наоборот
- Разделение полей
Давайте подробнее рассмотрим эти варианты.
Транспонирование столбцов и строк
Что такое транспонирование?
Проще говоря, транспонирование меняет столбцы на строки, а в некоторых случаях наоборот.
Используйте транспонирование на «широких» наборах данных, когда информация захватывается многими столбцами, а столбцы содержат аналогичную информацию. Эта структура, возможно, будет более удобной для пользовательского отчета, но не так полезна для анализа. Например, Tableau Desktop лучше всего работает с анализом данных в структуре таблицы «высокий/узкий».
Рассмотрим следующую таблицу, в которой перечислены сборы за парковку, уплачиваемые сотрудниками. Для каждого сотрудника есть строка с полем (столбцом) на каждую дату, например, 05.02.2020, 06.02.2020 и так далее.
Эта таблица содержит "широкие" данные, в ней используется отдельный столбец для ежедневной оплаты парковки.
Если мы перенесем эту структуру данных в Tableau Desktop или Qlik Sense, мы получим поле для каждого столбца. Все пять полей представляют плату за парковку, внесенную за этот день. Это сильно затрудняет анализ во времени, поскольку данные хранятся в отдельных полях. Поля (переменные) «Сотрудник», «Дата» и «Плата за парковку» должны существовать в своих собственных столбцах с заголовками столбцов. В каждой строке должны быть указаны значения (наблюдения за переменными), в данном случае имя сотрудника, дата и внесенная плата за парковку.
После получения транспонированной таблицы достигается желаемая структура данных, как показано в следующем примере.
После транспонирования эта таблица содержит "высокие" данные с единственным столбцом для полей (переменных) "Сотрудник", "Дата" и "Плата за парковку".
Разделение
Что такое разделение?
Проще говоря, разделение разделяет столбец, содержащий несколько фрагментов информации, на несколько столбцов, по одному для каждого фрагмента.
Разделение разделяет значения строкового (текстового) поля на основе разделителя (символа, такого как запятая, двоеточие или дефис, который находится между отдельными частями информации в значении поля). Разделение полезно, когда компоненты поля имеют значение, которое можно использовать для анализа ваших данных.
В следующем примере значения в поле «Авиакомпания» содержат название авиакомпании, а также двухбуквенный код авиакомпании. Двоеточие между этими двумя типами данных является разделителем.
Перед разделением поле «Авиакомпания» содержит названия авиакомпаний, а также двухбуквенные коды авиакомпаний.
После разделения названия и коды авиакомпаний находятся в отдельных столбцах таблицы.
После разделения таблица содержит отдельные столбцы для названий авиакомпаний и кодов авиакомпаний.
Проверка знаний
Рассмотрим следующую таблицу. Одно поле (или столбец) содержит значения города и штата. Другие столбцы содержат данные о продажах за каждый квартал (Q1, Q2, Q3, Q4).
- Вы хотите создать отдельные столбцы для значений города и штата.
- Вы также хотели бы сформировать данные так, чтобы они имели один столбец «Кварталы» и один столбец для значений Продаж.
Какие операции со структурой данных вы бы провели для достижения желаемых результатов?
- Разделить поля «Город» и «Штат» и транспонировать поля Q1, Q2, Q3 и Q4.
- Транспонировать поля «Город» и «Штат» и разделить поля Q1, Q2, Q3 и Q4.
- Транспонировать поля «Город» и «Штат», а также транспонировать поля Q1, Q2, Q3 и Q4.
- Разделить поля «Город» и «Штат», а также разделить поля Q1, Q2, Q3 и Q4.
Резюме
Теперь у вас есть представление о характеристиках и организации данных, а также о некоторых вариантах реструктурирования данных, включая транспонирование и разделение полей.
#dataliteracy, #информационная грамотность, #DataLiteracyProject
Следующая статья: Корреляция и регрессия