Критерии согласия. Теоретические и эмпирические частоты
Эмпирические частоты получают в результате опыта (наблюдения). Теоретические частоты рассчитывают по формулам. Для нормального закона распределения их можно найти следующим образом:
где — сумма эмпирических частот; — разность между двумя соседними вариантами; — выборочное среднеквадратическое отклонение; ; — выборочная средняя арифметическая; — см. прил. 1.
Обычно эмпирические и теоретические частоты различаются. Возможно, что расхождение случайно и связано с ограниченным количеством наблюдений; возможно, что расхождение неслучайно и объясняется тем, что для вычисления теоретических частот выдвинута статистическая гипотеза о том, что генеральная совокупность распределена нормально, а в действительности это не так. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.
Возникает необходимость установить правило (критерий), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным, то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым, то данные наблюдений не согласуются с гипотезой, и ее отвергают.
Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются.
Имеется несколько критериев согласия: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского и др. Ограничимся описанием того, как критерий применяется к проверке гипотезы о нормальном распределении генеральной совокупности (критерий применяется аналогично и для других распределений).
Допустим, что в результате наблюдений получена выборка:
значение признака ; эмпирическая частота .
Выдвинем статистическую гипотезу: генеральная совокупность, из которой извлечена данная выборка, имеет нормальное распределение. Требуется установить, согласуется ли эмпирическое распределение с этой гипотезой. Предположим, что по формуле (11.3) вычислены теоретические частоты .Обозначим среднее арифметическое квадратов разностей между эмпирическими и теоретическими частотами, взвешенное по обратным величинам теоретических частот:

Чем больше согласуются эмпирическое и теоретическое распределения, тем меньше различаются эмпирические и теоретические частоты и тем меньше значение . Отсюда следует, что характеризует близость эмпирического и теоретического распределений. В разных опытах принимает различные, наперед неизвестные значения, т. е. является случайной величиной. Плотность вероятности этого распределения (для выборки достаточно большого объема) не зависит от проверяемого закона распределения, а зависит от параметра , называемого числом степеней свободы. При проверке гипотезы о нормальном распределении генеральной совокупности , где — число групп, на которые разбиты данные наблюдений. Существуют таблицы (прил. 6), в которых указана вероятность того, что в результате влияния случайных факторов величина примет значение не меньше вычисленного по данным выборки .
Для определенности примем уровень значимости 0,01. Если вероятность, найденная по таблицам, окажется меньше 0,01, то это означает, что в результате влияния случайных причин наступило событие, которое практически невозможно. Таким образом, тот факт, что приняло значение нельзя объяснить случайными причинами; его можно объяснить тем, что генеральная совокупность не распределена нормально и, значит, выдвинутая гипотеза о нормальном распределении генеральной совокупности должна быть отвергнута. Если вероятность, найденная по таблицам, превышает 0,01, то гипотеза о нормальном распределении генеральной совокупности согласуется с данными наблюдений и поэтому может быть принята. Полученные выводы распространяются и на другие уровни значимости.
На практике надо, чтобы объем выборки был достаточно большим и чтобы каждая группа содержала не менее 5-8 значений признака.
Для проверки гипотезы о нормальном распределении генеральной совокупности нужно:
1) вычислить теоретические частоты по формуле (11.3);
2) вычислить , где — соответственно частоты эмпирические и теоретические;
3) вычислить число степеней свободы , где — число групп, на которые разбита выборка;
4) выбрать уровень значимости;
5) найти по таблице прил. 6 по найденным и вероятность причем если эта вероятность меньше принятого уровня значимости, то гипотезу о нормальном распределении генеральной совокупности отвергают; если вероятность больше уровня значимости, то гипотезу принимают.
Пример 5. Проверить, согласуются ли данные выборки со статистической гипотезой о нормальном распределении генеральной совокупности, из которой извлечена эта выборка:
Решение. Вычислим выборочное среднее и выборочную дисперсию по формулам из первой главы этой части: . Вычислим теоретические частоты по формулам (11.3)
Найдём . Вычислим число степеней свободы, учитывая, что число групп выборки Уровень значимости примем равным 0,01. По таблице прил. 6 при и находим вероятность ; при вероятность . Используя линейную интерполяцию, получаем приближённое значение искомой вероятности .
Следовательно, данные наблюдения согласуются с гипотезой о нормальном распределении генеральной совокупности.
Если заметили ошибку, опечатку или есть предложения, напишите в комментариях.
|