Введение в статистику вывода
Книги:
Курсы
Introduction to Probability and Data with R на платформе Coursera
Note
Больше источников здесь
Типы переменных и типы шкал
Понятие генеральной совокупности и выборки
Описательные статистики
Статистика вывода
Тест Стьюдента, ограничения, особенности
Количественные
Непрерывные (рост, вес, длина корня)
Дискретные (количество детей в семье)
Интервальные (температура в градусах Цельсия)
Ранговые (места в соревнованиях, тяжесть болезни)
Качественные (категориальные, номинативные)
Зависимые и независимые переменные - важно для проведения статистических критериев.
Генеральная совокупность — совокупность всех объектов (единиц), относительно которых предполагается делать выводы при изучении конкретной задачи.
Генеральная совокупность состоит из всех объектов, которые имеют качества, свойства, интересующие исследователя.
Например: все клетки определенной клеточной линии, все растения определенного генотипа.
Выборка — часть генеральной совокупности элементов, доступная для исследования.
По принципу отбора:
Независимые
Зависимые (например до и после применения лекарства)
По корректности отбора:
Репрезентативные
Нерепрезентативные
Основные стратегии отбора:
Простая случайная выборка
Стратифицированная
Описательные статистики:
Меры центральной тенденции
Меры изменчивости
Среднее - среднее арифметическое всех значений.
Медиана - середина упорядоченного ряда значений.
Мода - наиболее часто встречающееся значение в выборке.
[1] NA
[1] 195.625
[1] 190
Для вычисления моды можно использовать функцию dplyr::count()
dplyr::count()
# A tibble: 6 × 2
armor_type n
<chr> <int>
1 Fort 1
2 Heavy 29
3 Invulnerable 1
4 Light 11
5 Medium 15
6 Unarmored 14
Размах – разность между максимальным и минимальным значениями.
Межквартильный размах – разница между верхним и нижним квартилем.
Дисперсия – сумма квадратов отклонений, деленная на их количество.
Note
Отклонение – это разность между средним арифметическим и конкретным значением.
Стандартное отклонение – корень из дисперсии.
Дисперсия (variance):
\[ var = \frac{\sum_{i=1}^n(x_i - \overline{x})^2}{n}, \]
где \(\overline{x}\) - среднее, n - количество элементов в выборке
Стандартное отклонение (standard deviation, sd)
\[ sd = \sqrt{var} =\sqrt{\frac{\sum_{i=1}^n(x_i - \overline{x})^2}{n}} \]
Здесь приведена смещенная оценка - то есть в знаменателе n.
По умолчанию функции var()
и sd()
считают несмещенную оценку - в знаменателе n-1.
Боксплот
Стандартная ошибка
Доверительный интервал
Непрерывное распределение вероятностей с пиком в центре и симметричными боковыми сторонами, которое в одномерном случае задаётся функцией плотности вероятности, совпадающей с функцией Гаусса.
Согласно центральной предельной теореме (ЦПТ, central limit theorem), какой бы ни была форма распределения в генеральной совокупности, выборочное распределение средних будет стремиться к нормальному. При этом чем больше размер выборки, тем ближе выборочное распределение средних будет к нормальному.
Используем лог-нормальное распределение:
Как будут распределены средние из лог-нормального распределения?
Они будут распределены нормально!
wc3_units_armor <- wc3_units %>%
filter(armor_type == 'Heavy' | armor_type == 'Light')
t.test(wc3_units_armor$hp ~ wc3_units_armor$armor_type)
Welch Two Sample t-test
data: wc3_units_armor$hp by wc3_units_armor$armor_type
t = -2.3602, df = 21.493, p-value = 0.02778
alternative hypothesis: true difference in means between group Heavy and group Light is not equal to 0
95 percent confidence interval:
-536.65167 -34.28877
sample estimates:
mean in group Heavy mean in group Light
533.6207 819.0909