Изучение распределений
Раздел 1. Распределение дискретных переменных.
Раздел 2. Распределения непрерывных переменных – гистограммы.
Раздел 3. Распределения непрерывных переменных – диаграммы размаха.
В этом модуле вы продолжите совершенствовать свои навыки работы с данными и узнаете о распределениях данных, а также о том, как графически представлены эти распределения.
Цели
По завершении этого модуля вы сможете:
- Различать частотное и пропорциональное распределение для дискретных переменных.
- Определять формы распределений для непрерывных переменных.
- Понимать гистограммы и диаграммы размаха.
Раздел 1, Распределение дискретных переменных
Модуль «Распознавание хорошо структурированных данных» объясняет, как данные организованы в столбцах, полях и строках. В хорошо структурированных данных каждая переменная (поле) находится в своем собственном столбце, а каждое отдельное наблюдение этой переменной (значения) находится в отдельной строке. Модуль "Изучение переменных поля и типов полей" показывает, что переменные могут быть дискретными или непрерывными. Дискретные переменные имеют значения, которые являются отдельными и разными, тогда как непрерывные переменные имеют значения, которые образуют неразрывное целое.
При работе с данными иногда может возникнуть желание увидеть распределения набора данных. Распределение показывает все возможные значения данных и частоту (количество) их появления. Другими словами, распределение описывает, сколько раз встречается каждое значение данных. То, что вы видите на организованном распределении, зависит от того, является ли переменная дискретной или непрерывной.
Распределение дискретных переменных
Когда мы смотрим на распределения дискретных переменных, мы видим частоту (общее количество) или пропорцию (проценты). Давайте посмотрим на пример, взятый из главы Дэвида М. Лейна и Хайди Цимер о распределении в онлайн-статье Введение в статистику.
Частотное распределение
Представьте, что у вас есть мешок с конфетами шести разных цветов. Рассмотрим переменную цвет. Это номинальная качественная переменная, поэтому вы знаете, что она будет дискретной.
Дискретные переменные можно подсчитывать отдельно. Вы высыпаете содержимое мешка с конфетами и быстро подсчитываете их количество. Как видите, из 55 конфет у нас 17 коричневых, 18 красных, 7 желтых, 7 зеленых, 2 синих и 4 оранжевых.
Этот быстрый подсчет дает вам частотное распределение цветов в вашем мешке с конфетами.
Вы можете составить следующую таблицу частот, чтобы описать это распределение.
Цвет |
Частота |
---|---|
Коричневый |
17 |
Красный |
18 |
Желтый |
7 |
Зеленый |
7 |
Синий |
2 |
Оранжевый |
4 |
Вы также можете использовать график, чтобы показать это частотное распределение. Следующая столбиковая диаграмма показывает частотное распределение цветов конфет, или, другими словами, сколько конфет каждого цвета было в вашем мешке.
Столбиковая диаграмма, которая показывает частотное распределение цветов конфет
Распределение по пропорциональным долям
Частотное распределение в предыдущем примере касалось только вашего мешка с конфетами. Что, если вам понадобится узнать о распределении цветов для всех мешков с конфетами такого типа?
Производитель конфет предоставляет некоторую информацию, но не указывает точно, сколько конфет каждого цвета они когда-либо производили.
Вместо частоты (общее количество когда-либо созданных цветов) они показывают пропорциональные доли для каждого из цветов. Вы можете думать о пропорциональных долях как о процентах каждого произведенного цвета, выраженных в десятичных дробях. Например, доля красных конфет составляет 0,20, и это означает, что 20% произведенных конфет являются красными.
Каждая конфета имеет один из шести цветов, поэтому, если сложить все пропорциональные доли, общая сумма составит 1,00 (или 100%).
График, показывающий эти пропорциональные доли, называется пропорциональным распределением. На следующей гистограмме показано пропорциональное распределение цветов конфет или, другими словами, какой процент имеет каждый цвет от общего количества произведенных конфет.
Столбиковая диаграмма, показывающая пропорциональное распределение цветов конфет
Проверка знаний
Дети из третьего класса каждый день выбирают на завтрак яблоко, банан или сливу. Вы хотите показать, сколько детей выбрало каждый из этих фруктов.
Что бы вы использовали, чтобы представить такую информацию?
- Частотное распределение
- Пропорциональное распределение
Резюме
Итак, здесь вы узнали о двух типах распределений дискретных переменных: частотном и пропорциональном. На следующем уроке вы узнаете, как показать распределение для непрерывных переменных.
Раздел 2. Распределения непрерывных переменных – гистограммы
На предыдущем уроке вы рассмотрели распределения дискретной переменной (цвет конфет). Как вы помните, дискретные переменные имеют отдельные различающиеся значения, тогда как непрерывные переменные имеют значения, которые образуют неразрывное целое. На этом уроке вы изучите распределения непрерывных переменных в целом и использование гистограмм в частности.
Следующий пример вы взяли из главы Дэвида М. Лейна и Хайди Цимер о распределении в онлайн-статье «Введение в статистику». Один из авторов записывал время своей реакции при перемещении курсора над целью в серии из 20 опытов. Переменная «время ответа» является непрерывной. Когда время измерялось в миллисекундах, двух одинаковых значений времени отклика не было.
На диаграмме ниже показано время отклика в миллисекундах.
Номер опыта |
Время ответа в миллисекундах |
Номер опыта |
Время ответа в миллисекундах |
1. |
568 |
11. |
720 |
2. |
577 |
12. |
728 |
3. |
581 |
13. |
729 |
4. |
640 |
14. |
777 |
5. |
641 |
15. |
808 |
6. |
645 |
16. |
824 |
7. |
657 |
17. |
825 |
8. |
673 |
18. |
865 |
9. |
696 |
19. |
875 |
10. |
703 |
20. |
1007 |
Сгруппированные частотные распределения
Вспомните, что вы узнали о частотном распределении на предыдущем уроке. Если представить значения времени ответа из показанной выше таблицы в виде частотного распределения, результаты не будут информативными. Было бы 20 различных значений, каждое с частотой в 1.
Чтобы решить эту задачу, мы создадим сгруппированное частотное распределение, в котором сведем в таблицу время отклика, попадающее в различные интервалы одинакового размера (диапазоны значений), как показано в таблице ниже.
Интервал (в миллисекундах) |
Частота |
---|---|
500-600 |
3 |
600-700 |
6 |
700-800 |
5 |
800-900 |
5 |
900-1000 |
0 |
1000-1100 |
1 |
Сгруппированные частотные распределения можно показать графически. График, представленный ниже, называется гистограммой. Метки на оси X – это средние значения интервалов, которые они представляют. Чуть позже мы рассмотрим гистограммы более подробно.
Столбиковая диаграмма сгруппированного частотного распределения интервалов времени отклика
Формы распределений
Распределения бывают разных форм. Распределения могут быть симметричными, со значениями, равномерно распределенными по центру. Также они могут иметь положительный перекос с большим количеством значений, сгруппированных справа, или отрицательный перекос с большим количеством значений, сгруппированных слева.
Представьте, что вы измерили рост людей из 3 разных групп и создали гистограмму для каждой группы, чтобы показать распределение роста людей в этой группе.
Величина интервала составляет 2,95 дюйма, поэтому рост людей составляет 59-61,95 дюйма, 62-64,95 дюйма и так далее.
Теперь вы хотите по отдельности изучить форму каждого распределения.
Три гистограммы, которые показывают распределение роста, по одной для каждой группы
Симметричные распределения
В нашем примере с данными о росте людей, распределение роста для одной из наших групп почти симметрично. Если сложить его пополам, две стороны будут почти идеально соответствовать друг другу.
В полностью симметричном распределении центр данных является и средним, и медианным, поскольку эти значения равны. Центр данных представлен обоими значениями, а разброс данных составляет одинаковую величину по обе стороны от центра.
Положительные асимметричные распределения
Некоторые распределения не симметричны. Если данные в распределении расходятся в положительном направлении дальше, чем в отрицательном, то такое распределение – распределение с положительным перекосом. Положительный перекос также называется перекосом вправо, потому что данные оттягиваются вправо. Правый «хвост» длиннее. Когда распределение имеет положительный перекос, медиана будет меньше среднего.
Представьте себе город, в котором живут несколько миллиардеров. Высокие доходы этих миллиардеров исказили бы средний доход города. Среднее значение дохода будет выше чем фактическое. Чтобы реально отразить экономическое состояние всех жителей города, лучше выбрать медианный доход.
Точно так же, глядя на наши данные о росте, одна группа показывает положительный перекос из-за присутствия в ней трех человек, рост которых близок или превышает 72 дюйма (6 футов). Их высокий рост делает среднее значение выше. Поэтому лучше будет использовать медиану для получения общей картины роста в группе.
Отрицательные асимметричные распределения
Еще одно асимметричное распределение – это отрицательное асимметричное распределение. Данные в отрицательном асимметричном распределении расходятся дальше в отрицательном направлении, чем в положительном. Отрицательный перекос также называется перекосом влево, потому что данные оттягиваются влево. Левый «хвост» длиннее. Когда распределение имеет отрицательный перекос, медиана будет больше среднего.
Например, представьте себе класс, в котором есть 20 учеников. В этом классе есть двое, которые никогда не посещали занятий и не выполняли никаких заданий. Эти ученики получили итоговую оценку «0». Их нули будут искажать результаты средней оценки в классе, из-за чего средняя успеваемость ученика будет казаться ниже чем есть на самом деле. Чтобы действительно отразить успехи учащихся в этом классе, лучше выбрать медианный балл.
Точно такая же ситуация с нашими данными о росте, где одна группа показывает отрицательный перекос из-за присутствия людей, рост которых меньше 60 дюймов (5 футов). Их низкий рост делает среднее значение меньшим.
Проверка знаний
В каком из распределений среднее значение и медиана будут равны?
- Симметричное распределение
- Положительное неравномерное распределение
- Отрицательное распределение перекоса
- Сгруппированное частотное распределение
Гистограмма похожа на столбиковую диаграмму, но она группирует значения для непрерывной переменной в диапазоны или интервалы равного размера.
Эта гистограмма использует набор данных с информацией об олимпийских спортсменах. Одна из переменных в наборе данных содержит возраст спортсменов от 18 до 90. Гистограмма позволяет увидеть, как спортсмены делятся на разные возрастные группы.
Интервалы – каждый интервал определяется четырехлетним периодом, например, 12–15, 16–19, 20–23, 24–27 и т. д. Этот интервал представляет возрастной диапазон от 16 до 19 лет.
Столбцы – каждая точка данных помещается в соответствующую ячейку, которая доходит до нижнего предела следующей ячейки, но не включает ее, и ячейка представлена столбцом.
Каждый столбец представляет собой количество элементов, соответствующих критериям интервала. Этот столбец показывает, что 48 спортсменов попадают в интервал возрастного диапазона 32–35 лет.
Проверка знаний
Посмотрите еще раз на гистограмму возрастных диапазонов олимпийских спортсменов. В какой возрастной группе больше всего людей? Помните, что столбцы соответствуют нижнему пределу следующего интервала, но не включают его.
Кликните на изображение, чтобы увеличить его.
- 20-23
- 24-27
- 28-31
- 32-35
Резюме
Итак, вы ознакомились с распределениями непрерывных переменных, организованными в виде гистограмм. На следующем уроке вы узнаете о просмотре распределений непрерывных переменных с помощью диаграмм размаха.
Раздел 3. Распределения непрерывных переменных
В этом модуле мы рассмотрим несколько способов представления распределения переменных. На этом уроке вы узнаете о другом важном графике, который называется диаграмма размаха (в Tableau) или блочная диаграмма (в Qlik Sense). Диаграммы размаха – это визуально сжатый способ увидеть и сопоставить распределения данных.
Прямоугольники на диаграмме размаха показывают средние 50% данных. Эти данные находятся в пределах от 25-го до 75-го процентиля с медианным значением 50-го процентиля.
Процентиль показывает, как оценка сравнивается с другими оценками в том же наборе данных. Например, вы проходите тест, чтобы измерить свой уровень интроверсии. Ваш показатель интроверсии сам по себе будет довольно трудно интерпретировать. Будет гораздо более информативно узнать процент людей с более низким показателем интроверсии, чем ваш. Этот процент является процентилем. Если 65% других испытуемых оказались менее застенчивыми, чем вы, ваш результат – 65-й процентиль.
«Усы» – это вертикальные линии, которые заканчиваются горизонтальной чертой. Их добавляют к прямоугольникам диаграммы, чтобы показать дополнительную информацию о распределении данных. Усы наносят нестандартно. Они дают представление о значениях, которые не находятся в пределах этих средних 50% данных (поле), в том числе указывают на выбросы. Выбросы можно интерпретировать, как нетипичные наблюдения или как значения, которые имеют крайнее отклонение от центра распределения.
Мы рассмотрим все эти концепции более подробно позже в этом уроке.
Создание диаграммы размаха
Следующий пример диаграммы размаха взят из главы Дэвида М. Лейна о диаграммах размаха в онлайн-статье «Введение в статистику».
Автор использовал аудиторный эксперимент с 31 студентом. Каждому студенту выдали 30 цветных прямоугольников, и их задача заключалась в том, чтобы как можно быстрее называть цвета.
Их время в секундах записано в следующей таблице:
|
||||||
14 |
17 |
18 |
19 |
20 |
21 |
29 |
15 |
17 |
18 |
19 |
20 |
22 |
|
16 |
17 |
18 |
19 |
20 |
23 |
|
16 |
17 |
18 |
20 |
20 |
24 |
|
17 |
18 |
18 |
20 |
21 |
24 |
Мы будем использовать этот набор данных, чтобы проиллюстрировать, как создать диаграмму размаха. Создание диаграммы размаха выполняется следующим образом:
- Рассчитать процентили.
- Построить прямоугольник в соответствии с процентилями.
- Определить размер шага.
- Добавить усы.
- Добавить внешнее значение.
Рассчитать процентили
Помните, что прямоугольники на диаграммах размаха простираются от 25-го до 75-го процентиля данных. В них отображается 50-й процентиль. Нижняя часть прямоугольника (нижний ящик) – это 25-й процентиль, а верхняя часть поля (верхний ящик) – 75-й процентиль.
Чтобы увидеть процентили мы будет использовать числовую линию, как показано в следующих шагах:
- Составим список значений от наименьшего к наибольшему.
31 значение на числовой прямой от наименьшего к наибольшему.
- Определим медиану или центральное значение. Среднее значение отображается на полпути между началом и концом последовательности чисел.
Для последовательности из 31 значения, медиана будет означать, что есть 15 значений до медианы и 15 значений после нее. Таким образом, медианное значение равно 19.
31 значение на числовой прямой от наименьшего к наибольшему с указанием медианной оценки.
- Определим 25-й процентиль. Значение 25-го процентиля появляется на полпути между началом последовательности и медианным значением.
В нашем примере с 31 значением, у этого промежуточного местоположения будет 7 значений перед ним и 7 значений между ним и медианой. Таким образом, значение 25-го процентиля равно 17.
31 значение на числовой прямой от наименьшего к наибольшему с указанием 25-го процентиля и среднего значения.
- Определим 75-й процентиль. Значение 75-го процентиля появляется на полпути между медианой и концом последовательности.
Для нашего списка из 31 значения, в этом промежуточном положении будет 7 значений между ним и медианой и 7 значений между ним и концом последовательности. Таким образом, значение 75-го процентиля равно 20.
31 значение на числовой прямой от наименьшего к наибольшему с указанием 75-м процентилем и иедианным значением
Построим диаграмму размаха в соответствии с процентилями
На диаграммах размаха нижняя часть прямоугольника (нижний ящик) – это 25-й процентиль, а верхняя часть прямоугольника (верхний ящик) – это 75-й процентиль. 50-й процентиль (медиана) проведен через их границу.
Для нашего набора из 31 значения мы определили, что:
- 25-й процентиль равен 17.
- 50-й процентиль (или медиана) равен 19.
- 75-й процентиль равен 20.
Итак, рисуем диаграмму следующим образом:
Прямоугольник простирается от 25-го до 75-го процентиля.
- 25-й процентиль (нижний ящик) совпадает с 17-м по оси y.
- 50-й процентиль (медиана) совпадает с 19 на оси ординат.
- 75-й процентиль (верхний ящик) совпадает с 20 по оси y.
Примечание. В поле отображаются средние 50% значений данных.
Определим размер шага
Теперь подготовимся к нанесению усов над и под прямоугольником, чтобы предоставить дополнительную информацию о разбросе данных. Размещение усов определяется по шагам, где шаг определяется как 1,5 x IQR, а IQR – это межквартильный диапазон.
Звучит сложно, но IQR просто означает разницу между значением верхней петли (75-й процентиль) и значением нижней петли (25-й процентиль). Помните, что средние 50% значений данных находятся в поле, ограниченном этими значениями.
В нашем наборе оценок значение верхней петли равно 20, а значение нижней петли – 17. Итак, IQR составляет 20-17, или 3.
Чтобы определить размер нашего шага, умножаем 3 (IQR) на 1,5, чтобы получить размер шага 4,5.
Добавим усы
Чтобы понять, как будут отображаться наши усы, давайте сначала рассмотрим некоторые термины и то, как они применяются к оценкам в нашем примере.
Так куда же девать усы?
Усы проводят от верхнего ящика к верхнему предельному значению и от нижнего ящика к нижнему предельному значению.
Хотя мы не прорисовываем усы полностью до внешних значений, мы все же представляем их в виде диаграмм размаха. Внешнее значение представлено маленьким o, а дальнее значение – звездочкой (*).
Для наших данных усы простираются от верхнего значения петли (20) до верхнего предельного значения (24) и от нижнего значения петли (17) до нижнего предельного значения (14).
График 3 Усы проходят от нижнего ящика до нижнего предельного значения и от верхнего ящика до верхнего предельного значения. Они не распространяются на границы.
Добавим внешнее значение
Значение за пределами внутренней границы, но не за пределами внешней границы, является внешним значением. В нашем наборе оценок есть одно из этих значений – 29, которое совпадает со значением внешней границы, но не превышает ее. Мы будем использовать маленькую букву o, чтобы обозначить это значение.
Все, на этом наше построение диаграммы размаха закончено!
Проверка знаний
Усы на диаграмме размаха простираются от верхнего и нижнего ящика до чего еще?
- Верхние и нижние внутренние границы.
- Верхние и нижние внешние границы.
- Верхнее и нижнее предельное значения
- Внешние и дальние значения
Диаграмма размаха против гистограммы
Вам может быть интересно, чем диаграммы размаха отличаются от гистограмм при отображении распределений.
- Гистограммы используют интервалы для отображения частоты значений.
- В диаграммах размаха средние 50% данных отображаются в ящике, а выбросы (если таковые имеются) представлены в виде усов.
Чтобы понять, как это выглядит, вернемся к данным, показывающим распределения роста людей. Мы увидим, как данные для каждой группы выглядят на гистограмме, и на диаграмме размаха.
Гистограммы и диаграммы размаха, показывающие распределение роста по группам
Обратите внимание, насколько меньше места занимает диаграмма размаха, что позволяет упростить сравнение распределений. Три параллельных распределения легче сравнивать на диаграммах размаха, чем на гистограммах.
Смотрите каждую вкладку ниже, чтобы увидеть распределения, представленные обоими типами диаграмм.
Симметричные распределения
Вот как выглядит почти симметричное распределение высот для одной из наших групп данных по росту на гистограмме в сравнении с диаграммой размаха. Обратите внимание, что на диаграмме размаха выбросов нет.
Положительные асимметричные распределения
Вот как выглядит положительно искаженное распределение высот для одной из наших групп данных по росту, когда оно отображается на гистограмме и на диаграмме размаха. Оба графика демонстрируют центр и разброс данных, но диаграмма разброса показывает выбросы более явно.
Отрицательные асимметричные распределения
Вот как отображается отрицательно искаженное распределение высот для одной из наших групп данных по росту, когда оно отображается на гистограмме и на диаграмме размаха. Оба графика демонстрируют центр и разброс данных, но диаграмма размаха более очевидно показывает то, что есть только один выброс.
Проверка знаний
Рассмотрим гистограмму, показанную здесь. Какая у нее форма (симметричная или перекошенная)?
Посмотрите на эту гистограмму, прежде чем отвечать на вопрос проверки знаний ниже.
Затем выберите, какая диаграмма размаха соответствует распределению, представленному на гистограмме.
Какой из этих трех диаграмм размаха соответствует распределение, представленное на гистограмме, которую вы видите выше?
- Диаграмма размаха A
- Диаграмма размаха B
- Диаграмма размаха C
Резюме
Итак, теперь вы понимаете, как распределения могут помочь вам исследовать, оценивать и взаимодействовать с данными.
#dataliteracy, #информационная грамотность, #DataLiteracyProject
Следующая статья Исследование хорошо структурированных данных