Дискуссионный математический форумМатематический форум
Математический форум Math Help Planet

Обсуждение и решение задач по математике, физике, химии, экономике

Теоретический раздел
Часовой пояс: UTC + 3 часа [ Летнее время ]
новый онлайн-сервис
число, сумма и дата прописью

Часовой пояс: UTC + 3 часа [ Летнее время ]


Критерии согласия. Теоретические и эмпирические частоты

Критерии согласия. Теоретические и эмпирические частоты


Эмпирические частоты получают в результате опыта (наблюдения). Теоретические частоты рассчитывают по формулам. Для нормального закона распределения их можно найти следующим образом:


n_i=\frac{\varphi(t_i)\,h}{\sigma_\text{v}}\sum\limits_{j=1}^{n}m_j

где \sum\limits_{j=1}^{n}m_j — сумма эмпирических частот; h — разность между двумя соседними вариантами; \sigma_\text{v} — выборочное среднеквадратическое отклонение; t_i=\frac{x_i-\overline{x}_\text{v}}{\sigma_\text{v}}; \overline{x}_\text{v} — выборочная средняя арифметическая; \varphi(t) — см. прил. 1.


Обычно эмпирические и теоретические частоты различаются. Возможно, что расхождение случайно и связано с ограниченным количеством наблюдений; возможно, что расхождение неслучайно и объясняется тем, что для вычисления теоретических частот выдвинута статистическая гипотеза о том, что генеральная совокупность распределена нормально, а в действительности это не так. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.


Возникает необходимость установить правило (критерий), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным, то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым, то данные наблюдений не согласуются с гипотезой, и ее отвергают.


Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются.


Имеется несколько критериев согласия: критерий хи-квадрат \chi^2 (Пирсона), критерий Колмогорова, критерий Романовского и др. Ограничимся описанием того, как критерий \chi^2 применяется к проверке гипотезы о нормальном распределении генеральной совокупности (критерий применяется аналогично и для других распределений).


Допустим, что в результате n наблюдений получена выборка:


значение признака x_1~~~x_2~~~\cdots~~~x_s;

эмпирическая частота m_1~~~m_2~~~\cdots~~~m_s.

Выдвинем статистическую гипотезу: генеральная совокупность, из которой извлечена данная выборка, имеет нормальное распределение. Требуется установить, согласуется ли эмпирическое распределение с этой гипотезой. Предположим, что по формуле (11.3) вычислены теоретические частоты n_1,n_2,\ldots,n_s.Обозначим \chi_q^2 среднее арифметическое квадратов разностей между эмпирическими и теоретическими частотами, взвешенное по обратным величинам теоретических частот:


\chi_q^2=\sum\limits_{i=1}^{s}\frac{(m_i-n_i)^2}{n_i}.

Чем больше согласуются эмпирическое и теоретическое распределения, тем меньше различаются эмпирические и теоретические частоты и тем меньше значение \chi_q^2. Отсюда следует, что \chi_q^2 характеризует близость эмпирического и теоретического распределений. В разных опытах \chi_q^2 принимает различные, наперед неизвестные значения, т. е. является случайной величиной. Плотность вероятности этого распределения (для выборки достаточно большого объема) не зависит от проверяемого закона распределения, а зависит от параметра k, называемого числом степеней свободы. При проверке гипотезы о нормальном распределении генеральной совокупности k=s-3, где s — число групп, на которые разбиты данные наблюдений. Существуют таблицы (прил. 6), в которых указана вероятность того, что в результате влияния случайных факторов величина \chi^2 примет значение не меньше вычисленного по данным выборки \chi_q^2.


Для определенности примем уровень значимости 0,01. Если вероятность, найденная по таблицам, окажется меньше 0,01, то это означает, что в результате влияния случайных причин наступило событие, которое практически невозможно. Таким образом, тот факт, что \chi^2 приняло значение \chi_q^2 нельзя объяснить случайными причинами; его можно объяснить тем, что генеральная совокупность не распределена нормально и, значит, выдвинутая гипотеза о нормальном распределении генеральной совокупности должна быть отвергнута. Если вероятность, найденная по таблицам, превышает 0,01, то гипотеза о нормальном распределении генеральной совокупности согласуется с данными наблюдений и поэтому может быть принята. Полученные выводы распространяются и на другие уровни значимости.


На практике надо, чтобы объем выборки был достаточно большим (n\geqslant50) и чтобы каждая группа содержала не менее 5-8 значений признака.


Для проверки гипотезы о нормальном распределении генеральной совокупности нужно:


1) вычислить теоретические частоты по формуле (11.3);


2) вычислить \chi_q^2=\sum\limits_{i=1}^{s}\frac{(m_i-n_i)^2}{n_i}, где m_i,n_i — соответственно частоты эмпирические и теоретические;


3) вычислить число степеней свободы k=s-3, где s — число групп, на которые разбита выборка;


4) выбрать уровень значимости;


5) найти по таблице прил. 6 по найденным k и \chi_q^2 вероятность P\{\chi^2\geqslant\chi_q^2\} причем если эта вероятность меньше принятого уровня значимости, то гипотезу о нормальном распределении генеральной совокупности отвергают; если вероятность больше уровня значимости, то гипотезу принимают.




Пример 5. Проверить, согласуются ли данные выборки со статистической гипотезой о нормальном распределении генеральной совокупности, из которой извлечена эта выборка:


\begin{array}{|c|c|c|c|c|c|c|c|c|c|} \hline{x_i}&15&20&25&30&35&40&45&50&55\\ \hline{m_i}&6&13&38&74&106&85&30&10&4\\ \hline\end{array}

Решение. Вычислим выборочное среднее и выборочную дисперсию по формулам из первой главы этой части: \overline{x}_\text{v}=34,\!7;~D_\text{v}=7,\!38. Вычислим теоретические частоты по формулам (11.3)


\begin{array}{|c|c|c|c|c|c|} \hline{x_i}&{m_i}&\overline{x}_i-\overline{x}_\text{v}&t_i&\varphi(t_i)&n_i\\\hline 15&6&\hfill-19,\!7&\hfill-2,\!67&0,\!0113&3\\ 20&13&\hfill-14,\!7&\hfill-1,\!99&0,\!0551&14\\ 25&38&\hfill-9,\!7&\hfill-1,\!31&0,\!1691&42\\ 30&74&\hfill-4,\!7&\hfill-0,\!63&0,\!3271&82\\ 35&106&\hfill0,\!3&\hfill0,\!05&0,\!3984&99\\ 40&85&\hfill5,\!3&\hfill0,\!73&0,\!3056&76\\ 45&30&\hfill10,\!3&\hfill1,\!41&0,\!1476&37\\ 50&10&\hfill15,\!3&\hfill2,\!09&0,\!0449&11\\ 55&4&\hfill20,\!3&\hfill2,\!77&0,\!0086&2\\ \hline{}&\sum{m_i=366}&{}&{}&{}&\sum{n_i=366}\\\hline \end{array}

Найдём \chi_q^2. Вычислим число степеней свободы, учитывая, что число групп выборки s=9;~k=s-3=6. Уровень значимости \alpha примем равным 0,01. По таблице прил. 6 при k=6 и \chi_q^2=9 находим вероятность P=0,\!1736; при \chi_q^2=10 вероятность P=0,\!1247. Используя линейную интерполяцию, получаем приближённое значение искомой вероятности 0,\!16>0,\!01.


Следовательно, данные наблюдения согласуются с гипотезой о нормальном распределении генеральной совокупности.

Математический форум (помощь с решением задач, обсуждение вопросов по математике).
Кнопка "Поделиться"
Если заметили ошибку, опечатку или есть предложения, напишите в комментариях.

Часовой пояс: UTC + 3 часа [ Летнее время ]


Яндекс.Метрика

Copyright © 2010-2023 MathHelpPlanet.com. All rights reserved