Изучение вариаций для рационального сравнения
Раздел 1. Измерение дисперсии.
Раздел 2. Вариация, нормальное распределение и неопределенность.
Раздел 3. Проверка гипотез и p-значения.
Когда вы смотрите на распределение ваших данных, что вы видите? Есть очень разрозненные данные? Что это распределение может рассказать вам о природе ваших данных и какие выводы вы можете сделать из него?
В этом модуле вы познакомитесь с концепциями вариаций и проведения продуманных или рациональных сравнений, которые могут помочь вам в дальнейшем изучении, понимании и обмене данными.
Цели
По завершении этого модуля вы сможете:
- Вычислить среднее значение, дисперсию и стандартное отклонение.
- Понимать непрерывные распределения.
- Определить использование и ограничения p-значений при проверке гипотез.
Раздел 1. Измерение дисперсии
В модуле Изучение распределений мы ввели такие понятия, как медиана (средние значения точек данных), среднее (среднее значение) и процентиль (значение сравнивается с другими значениями в том же наборе данных), а также такие понятия, как положительный перекос, отрицательный перекос и симметричное распределение, которые описывают, является ли медиана меньше, больше или равна среднему.
Теперь вы готовы познакомиться с некоторыми дополнительными концепциями.
Дисперсия и стандартное отклонение
Модуль Изучение распределений представляет форму (симметричную или наклонную) и центр (среднее или медианное значение) данных. Теперь посмотрим на дисперсию или разброс данных.
Представьте себе, что у вас есть результаты тестов двух групп студентов. В обеих группах средний результат теста составляет 70%. Однако баллы по опросу в группе А варьируются от 50% до 90%, а баллы по опросу в группе В варьируются от 40% до 100%. Оценки в группе B сильнее разбросаны, чем в группе A.
Мы хотим лучше понять распространение данных. Для этого мы измеряем дисперсию и стандартное отклонение.
Нажмите «Пуск», чтобы увидеть, как выполняются действия
Шаг 1. Проверьте среднее значение
Взглянув на данные, мы видим, что в каждой группе есть по 20 человек. Если мы посчитаем сумму всех баллов для каждой группы, то получим 140 баллов как для группы A, так и для группы B.
Чтобы вычислить среднее значение, поделим общую сумму для каждой группы на количество участников теста в группе.
Для каждой группы соотношение будет следующим: 140/20, а средний балл для каждой группы равен 7 (или 70%).
Группа A:
- 9 + 9 + 9 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 + 6 + 6 + 6 + 5 + 5 = 140
- 140/20 = 7
Группа B:
- 10 + 10 + 10 + 9 + 9 + 9 + 8 + 8 + 7 + 7 + 7 + 6 + 6 + 6 + 5 + 5 + 5 + 5 + 4 + 4 = 140
- 140/20 = 7
Шаг 2. Начнем вычисление дисперсии: найдем различия
Теперь, когда мы вычислили среднее значение, мы можем вычислить дисперсию. Дисперсия показывает, насколько разбросаны наши данные. Нулевое отклонение означает, что все значения данных идентичны. Высокая дисперсия указывает на то, что точки данных сильно отличаются от среднего значения и друг от друга.
Чтобы вычислить дисперсию, мы складываем квадраты расстояний каждой точки данных от среднего, а затем делим на количество точек данных.
Для начала давайте посчитаем разницу со средним баллом (равен 7) для каждого тестируемого. Например, разница между 9 и 7 равна 2 (9-7 = 2), а разница между 6 и 7 равна –1 (6-7 = –1).
Шаг 3. Продолжим вычисление дисперсии: возведем разницу в квадрат.
Чтобы вычислить дисперсию, мы складываем квадраты расстояний каждой точки данных от среднего, а затем делим на количество точек данных.
Мы рассчитали разницу со средним для каждого тестируемого. Теперь давайте возведем в квадрат каждую разницу. Например, разница между 9 и 7 равна 2 (9-7 = 2), а ее квадрат 2 равен 4 (поскольку 2 * 2 = 4). Разница между 6 и 7 равна – 1 (поскольку 6-7 = -1), а ее квадрат – 1 равен 1 (поскольку –1 * –1 = 1).
Шаг 4. Продолжим вычисление дисперсии: просуммируем разницу.
Чтобы вычислить дисперсию, мы сложим квадраты расстояний каждой точки данных до среднего, а затем поделим результат на количество точек данных.
Мы рассчитали разницу со средним для каждого тестируемого и возвели каждую разницу в квадрат. Теперь просуммируем квадраты разностей для каждой группы:
Группа A:
- 4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
Группа B:
- 9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
Шаг 5. Завершим вычисление дисперсии: усредним суммарную разницу.
Чтобы вычислить дисперсию, мы сложим квадраты расстояний каждой точки данных до среднего, а затем поделим результат на количество точек данных.
Мы рассчитали разницу со средним значением для каждого тестируемого, возвели в квадрат каждую разницу и просуммировали квадраты разностей для каждой группы.
Чтобы найти дисперсию, разделим суммарные квадраты для каждой группы на общее количество точек данных (участников опроса) в группе, или 20.
Дисперсия для группы A составляет 1,5, а для группы B – 3,9.
Группа A:
- 4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
- 30/20 = 1.5
Группа B:
- 9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
- 78/20 = 3.9
Шаг 6. Рассчитаем стандартное отклонение.
Стандартное отклонение измеряет дисперсию набора данных относительно его среднего значения и рассчитывается как квадратный корень из дисперсии. Если точки данных находятся дальше от среднего значения, в наборе данных есть большее отклонение. Другими словами, чем больше разброс данных, тем выше стандартное отклонение.
Мы рассчитали дисперсию для каждой группы. Чтобы найти стандартное отклонение для каждой группы, мы вычисляем квадратный корень из дисперсии.
Стандартное отклонение для группы A составляет 1,22, а стандартное отклонение для группы B составляет 1,97.
Группа A:
- Дисперсия = 1.5
- Квадратный корень из 1.5 = 1.22
Группа B:
- Дисперсия = 3.9
- Квадратный корень из 3.9 = 1.97
Шаг 7. Пересмотрим данные
Теперь мы можем показать, какие баллы студентов находятся в пределах одного стандартного отклонения от среднего для каждой группы. (Отличие от среднего может быть положительным или отрицательным.)
Результат
Вы ознакомились с процессом вычисления дисперсии и стандартного отклонения. Позже в этом уроке у вас будет возможность выполнить эти вычисления в простом сценарии.
Дисперсия выборки
Что делать, если у вас нет данных для генеральной совокупности?
Существует разница в вычислении дисперсии для генеральной совокупности и для выборки или подмножества генеральной совокупности. Для обоих вы вычисляете среднее значение, затем различия от среднего, возводите все различия в квадрат, а затем суммируете квадраты разницы.
При вычислении дисперсии совокупности, как в предыдущем примере, вы делите сумму квадратов отклонений от среднего на количество элементов в генеральной совокупности. Например, для генеральной совокупности из 20 человек делим на 20.
Маленькое n представляет количество наблюдений в выборке. При вычислении дисперсии выборки мы вычитаем 1, чтобы компенсировать смещение выборки.
При вычислении дисперсии выборки разделите сумму квадратов отклонений от среднего на количество элементов в выборке минус один. В этом случае, если у вас было 20 элементов в выборке (или подмножестве) генеральной совокупности, разделите на 19. Цель этого расчета – получить менее смещенную оценку дисперсии генеральной совокупности. Другими словами, деление на размер выборки минус один компенсирует работу с выборкой, а не со всей генеральной совокупностью.
Проверка знаний
Представьте, что вы опросили всех сотрудников своего отдела, о том, сколько напитков с кофеином они пьют за неделю, и составили следующую таблицу с ответами.
Чтобы не усложнять задачу, давайте рассмотрим ваш отдел как генеральную совокупность, а не как выборку.
Название |
Количество напитков с кофеином |
Отличие от среднего (6 напитков) |
Квадрат разницы со средним |
---|---|---|---|
Kaye |
4 |
(-2) |
4 |
Lanai |
5 |
(-1) |
1 |
Treasure |
6 |
0 |
0 |
Sander |
9 |
3 |
9 |
Чтобы найти дисперсию, сложите все квадраты разницы со средним. Затем разделите результат на количество точек данных (или сотрудников):
- 4 + 1 + 0 + 9 = 14
- 14/4 = 3.5
Стандартное отклонение – это квадратный корень из дисперсии. Квадратный корень из 3,5 равен 1,87.
Посмотрите еще раз на таблицу напитков с кофеином. Сколько людей находятся в пределах одного стандартного отклонения со средним количеством напитков с кофеином, потребляемых еженедельно?
- 1
- 2
- 3
- 4
Резюме
Вы познакомились с понятиями дисперсии и стандартного отклонения. На следующем уроке мы более подробно рассмотрим концепцию непрерывного распределения.
Раздел 2. Вариация, нормальное распределение и неопределенность
Модуль Изучение распределений показывает, что вы можете использовать гистограмму для построения графика распределения непрерывных значений. Теперь давайте посмотрим на концепцию непрерывных распределений.
Мы не будем обсуждать формулы, используемые для выполнения вычислений, упомянутых в этом уроке, но общее знакомство с этими концепциями может оказаться для вас полезным, когда вы продолжите исследовать, разбираться и взаимодействовать с данными.
Кривые плотности
Модуль Изучение распределений объясняет, как гистограммы могут представлять распределения конечных выборок непрерывных переменных. Высота каждого столбца гистограммы пропорциональна частоте значений в этом интервале. Другими словами, чем выше столбик, тем больше точек данных из выборки находятся в этом интервале.
Например, гистограмма слева показывает распределение роста в дюймах для 40 человек. Ясно, что это выборка данных из конечного числа точек данных. Однако, если вы рассмотрите все возможные значения непрерывной переменной роста, то увидите, что она может сильно варьироваться. Нам не хватило бы и всей жизни, чтобы создать гистограмму с ячейками всех возможных значений высоты. Это справедливо для любой непрерывной переменной.
Распределение высот на гистограмме
Вместо использования гистограммы для представления всех возможных значений непрерывной переменной мы можем использовать непрерывное распределение. Непрерывное распределение выглядит как плавная кривая, также называемая кривой плотности. Кривая плотности представляет больше, чем просто значения в конкретной выборке. Она представляет все возможные значения, а также вероятности их появления (насколько вероятно, что значения должны произойти).
Пример кривой плотности
При просмотре гистограмм мы используем высоту столбцов, чтобы понять количество точек данных, находящихся в этом интервале, или как часто точки данных попадают в этот интервал. Однако, когда мы смотрим на непрерывные распределения, мы не можем интерпретировать таким образом высоту кривой вероятности.
Снова представьте себе данные, которые содержат все возможные значения роста человека. Нет смысла спрашивать о вероятности того, что рост человека составляет ровно 61 дюйм. При бесконечном количестве значений спрашивать о росте в 61 дюйм то же самое, что спрашивать о вероятности роста в 61,002 дюйма или 60,9997 дюйма.
Вместо этого мы посмотрим на вероятность в пределах интервала. Вероятность в пределах интервала равна площади под кривой в пределах этого интервала.
Общая площадь под кривой равна 1 или 100%, потому что существует 100% вероятность того, что все возможные значения попадают куда-нибудь в пределах кривой.
Пример интервала в кривой плотности
Итак, подведем итог, вот некоторые концепции, которые следует иметь в виду, рассматривая кривые плотности:
- Непрерывные распределения представляют сразу все возможные точки данных.
- Ось Y представляет плотность вероятности, которая показывает вероятность получения значений в окрестности соответствующих точек на оси x.
- Общая площадь под кривой составляет 100% или 1.
Нормальное распределение
Теперь мы сосредоточимся на специальной кривой плотности, нормальном распределении или нормальной кривой. У нее симметричная форма, напоминающая колокол.
Когда вы посмотрите на распределения непрерывных переменных, изображенные на гистограммах, вы научитесь описывать симметричное распределение. Если вы сложите симметрично распределенную гистограмму пополам, две стороны будут идеально совпадать. В симметричных распределениях среднее и медиана равны.
Как и в случае с симметричным распределением, в нормальном распределении форма симметрична, а среднее значение равно медиане.
При нормальном распределении 68% данных находятся в пределах –1/+1 стандартного отклонения от среднего, а 95% данных находятся в пределах от –2 до +2 стандартных отклонений от среднего.
Вот основные характеристики нормального распределения:
- Они симметричны относительно среднего.
- Среднее значение и медиана равны.
- Площадь под кривой нормального распределения равна 1,0 (или 100%).
- Они более плотные в центре и менее плотные в хвостах.
- Они определяются двумя параметрами: средним значением и стандартным отклонением.
Посмотрите на нормальное распределение, показанное на кривой выше. При нормальном распределении 68% данных попадают в диапазон от +1 до –1 стандартного отклонения от среднего, 95% данных находятся в пределах от – 2 до +2 стандартного отклонения от среднего. Короткие «хвосты» по обе стороны кривой указывают на то, что очень немногие значения (5 %) будут выходить за пределы – 2 и + 2 стандартного отклонения от среднего.
Нормальные распределения с меньшими стандартными отклонениями будут уже и выше, чем нормальные распределения с большими стандартными отклонениями.
На этом изображении оба нормальных распределения имеют среднее значение «50». Более высокая кривая имеет стандартное отклонение «5», а более короткая кривая имеет стандартное отклонение «10».
Полезность нормального распределения
В своей книге «Истинное искусство» дизайнер данных и профессор Альберто Каиро объясняет, что «ни одно явление в природе не подчиняется идеальному нормальному распределению, но многие аппроксимируют его достаточно хорошо, поэтому мы можем сделать его одним из основных инструментов статистики». Каиро продолжает: «Если вы знаете, что изучаемое вами явление подчиняется нормальному распределению, даже не идеально, вы можете оценить вероятность любого случайного события с разумной точностью». Другими словами, мы можем использовать свойства нормальной кривой для оценки вероятности случайного события, оценки с разумной точностью.
Мы часто делаем оценки совокупности по выборке.
Мы часто делаем оценки генеральной совокупности по выборке, потому что мы редко можем измерить всю совокупность целиком. Если выборка представляет совокупность, нормальная кривая может стать полезным инструментом оценки.
Доверительные интервалы
При использовании нормальной кривой для оценки вероятности данных выборки вы можете использовать доверительные интервалы, чтобы получить предел погрешности.
Доверительные интервалы являются примером анализа. Анализ – это процесс создания вывода о популяции на основе выборки данных.
Доверительные интервалы выводятся из нормального распределения. Процент данных в этой области нормального распределения соответствует доверительному интервалу.
Доверительный интервал содержит среднее значение генеральной совокупности за указанную часть времени. Например, если вы хотите получить доверительный интервал в 95%, это означает, что 95% интервалов в ваших данных будут включать фактическое среднее значение.
95% доверительный интервал получается с использованием нормального распределения, при этом 95% данных попадают в пределы –2 и +2 стандартных отклонений от среднего.
Примеры неопределенности из реального мира
Альберто Каиро, автор, упомянутый ранее в этом уроке, написал ряд постов в своем блоге, они описывают реальные примеры того, как неопределенность можно представить (и неправильно понять) в визуализациях, изображающих пути ураганов. Вы можете получить доступ к постам в блоге о неправильной интерпретации карт прогнозов для ураганов 5-й категории за 2019 год, урагана Дориан, и к другим связанным темам на профессиональном веб-сайте Альберто Каира.
Проверка знаний
Какое из следующих утверждений относительно нормального распределения является самым точным?
- Большинство природных явлений полностью подчиняются нормальному распределению.
- При нормальном распределении медиана больше среднего.
- Нормальное распределение – это то же самое, что и симметричная гистограмма, показывающая конечный набор непрерывных значений.
- При использовании выборки данных, представляющей всю совокупность, нормальное распределение может стать полезным инструментом оценки.
Резюме
Теперь вы познакомились с непрерывными распределениями, включая особую форму нормальной кривой. В следующем уроке вы познакомитесь с концепцией проверки гипотез при использовании выборок данных.
Раздел 3. Проверка гипотез и p-значения
На предыдущем уроке вы познакомились с концепциями использования вариаций и нормального распределения для исследования, понимания и взаимодействия с данными. Вы также рассмотрели доверительные интервалы в качестве примера вывода.
На этом уроке вы продолжите изучать логический анализ. Анализ – это процесс создания вывода о популяции на основе выборки данных. Его проводят потому, что в большинстве случаев нецелесообразно получить все измерения для данной популяции.
Мы часто делаем оценки совокупности на основе выборки.
Другими словами, если у нас есть данные по всем членам популяции, нам не нужно проводить анализ различий между группами внутри этой популяции.
Когда невозможно собрать данные для каждого отдельного члена популяции, мы собираем данные из выборок, а затем проводим анализ.
В своей книге «Избегая ловушек данных» Бен Джонс, основатель и генеральный директор компании Data Literacy, отмечает, что перепись населения в Соединенных Штатах проводится только раз в десятилетие именно из-за того, что она очень дорогая и сложная. Процесс подсчета «каждого человека в каждом доме по всей стране, не лишен предвзятости и ошибок». Но, поскольку у большинства организаций нет финансовых или человеческих ресурсов, сопоставимых с ресурсами федерального правительства США, они принимают решения на основе выводов, сделанных на основе анализа выборок данных.
Проверка гипотезы
Многие типы организаций используют проверку гипотез. Некоторые компании, например, используют проверку гипотез для контроля качества, чтобы увидеть, соответствует ли определенный продукт стандарту, или для сравнения новых и старых методов продаж.
Медицинские исследования также часто базируются на выборках данных. Представьте себе, например, что биотехнологическая компания создала новый препарат для облегчения протекания болезни. Чтобы определить, работает ли лекарство, необходимо провести контролируемый эксперимент. Поскольку невозможно будет провести эксперименты на каждом отдельном человеке, у которого есть заболевание, для тестирования случайным образом отбирается подгруппа людей с этим заболеванием.
Экспериментальная группа и контрольные группы распределяются случайным образом. Экспериментальная группа получает лечение, а контрольная группа получает плацебо.
В этой выборке одна группа (экспериментальная группа) получает лекарство, а другая группа (контрольная группа) получает плацебо или сахарную таблетку вместо лекарства. Группы распределяются случайным образом, так что любую разницу в результатах лечения можно отнести к исследовательскому вмешательству.
Для обеих групп проводятся тесты и измерения. При проверке различий между двумя группами исследователи решают, насколько далеко должны быть друг от друга результаты, чтобы определить, существенно ли отличаются результаты экспериментальной и контрольной групп.
Исследователи собирают данные из групп выборки и проводят соответствующие статистические тесты. Затем они используют результаты этих тестов, чтобы определить, есть ли существенные различия в группах.
После того, как данные получены, исследователям необходимо будет сделать выводы о населении в целом (о каждом человеке, который страдает этим заболеванием).
Это называется проверкой гипотезы.
Проверка гипотез начинается с создания нулевых и альтернативных гипотез.
Нулевая гипотеза
Нулевая гипотеза утверждает, что лекарство не повлияет на состояние здоровья. Она предполагает, что результаты лечения тех, кто получает лекарство, не будут отличаться от результатов лечения тех, кто его не получает.
Альтернативная гипотеза
Альтернативная гипотеза утверждает, что разница есть. Она предполагает, что у тех, кто принимает лекарства, показатели здоровья будут лучше, чем у тех, кто его не получает.
Проверка гипотез начинается с предположения, что нулевая гипотеза верна. Затем тесты нацеливают на определение вероятности получения результатов, по крайней мере, столь же хороших, как в эксперименте или тесте, при условии, что нулевая гипотеза верна.
Другими словами, если есть низкая вероятность того, что результаты будут такими же хорошими, если ноль-гипотеза верна, значит есть свидетельства в поддержку альтернативной гипотезы. Если есть высокая вероятность того, что результаты будут такими же хорошими, если ноль-гипотеза верна, значит, свидетельств для поддержки альтернативной гипотезы недостаточно, и необходимо повторить попытку с новой формулой.
При проверке гипотез учитывается количество выборок, размер измеренной разницы и количество вариаций, наблюдаемых в каждой группе.
Числовой результат проверки гипотезы (вероятность того, что нулевая гипотеза верна) называется p-значением. P-значение используется для того, чтобы помочь определить, следует ли отвергать нулевую гипотезу. В этом случае отклонение нулевой гипотезы означает, что лекарство будет работать и для большей популяции. Небольшое p-значение указывает на то, что имеется достаточно доказательств, чтобы отвергнуть нулевую гипотезу и поддержать альтернативную гипотезу.
Однако важно отметить, что p-значение ничего не доказывает и не опровергает. Высокое p-значение не доказывает, что нулевая гипотеза верна, а низкое p-значение не доказывает, что она неверна. Вот почему p-значения следует рассматривать осторожно.
Что делать с p-значениями
Когда-то исследователей учили использовать значение p = 0,05 в качестве предела отсечки. Другими словами, значение p = 0,05 и ниже считалось достаточным для отклонения нулевой гипотезы. Обрезка в 0,05 соответствует хвостам нормального распределения. Помните, что доверительные интервалы в 95% соответствуют области нормального распределения, которая находится в пределах – 2 или +2 стандартных отклонений от среднего. Пороговое значение 0,05 (или 5%) соответствует области, которая выходит за пределы –2 или +2 стандартных отклонений от среднего.
За последние несколько лет этот подход пересмотрели. Например, в эксперименте с лекарствами, если использовать более низкое пороговое значение (эффективное повышение доверительного интервала выше 95%), может быть труднее отклонить нулевую гипотезу. С другой стороны, представьте, что после использования более низкого порога p-значение остается достаточно низким, чтобы отклонить нулевую гипотезу, но фактическая разница в результатах не очень велика.
По этим и многим другим причинам Американская статистическая ассоциация в 2016 году опубликовала заявление, в котором утверждала, что «само по себе p-значение не является хорошей мерой относительно модели или гипотезы». Чтобы прочитать полный текст статьи, нажмите здесь.
P-значениями также можно управлять с помощью типа данных, вводимых в анализ.
Чтобы увидеть пример того, как можно манипулировать p-значениями, взгляните на это интерактивное упражнение «p-hacking» на веб-сайте FiveThirtyEight, веб-сайте агрегации опросов, который также анализирует опросы общественного мнения, политику, экономику и спорт.
Проверка знаний
Какое из следующих утверждений о p-значениях является наиболее точным?
- P-значения – единственная причина проверки гипотез.
- P-значения следует рассматривать с абсолютной уверенностью.
- P-значения ниже 0,05 убедительно доказывают, что нулевая гипотеза неверна.
- На P-значения могут влиять другие факторы и ими можно манипулировать.
Резюме
Теперь вы познакомились со статистическим анализом, проверкой гипотез, и p-значениями. Понимание этих концепций поможет вам делать рациональные сравнения.
#dataliteracy, #информационная грамотность, #DataLiteracyProject
Следующая статья: Изучение переменных и типа поля