Дискуссионный математический форумМатематический форум

Математический форум Math Help Planet

Обсуждение и решение задач по математике, физике, химии, экономике

Теоретический раздел
Часовой пояс: UTC + 3 часа [ Летнее время ]
MathHelpPlanet.com RSS-лента Математического форума

Часовой пояс: UTC + 3 часа [ Летнее время ]


Статистические гипотезы

Статистические гипотезы


Определение статистической гипотезы. Нулевая и альтернативная, простая и сложная гипотезы. Ошибки первого и второго рода. Статистический критерий, наблюдаемое значение критерия. Критическая область. Область принятия нулевой гипотезы; критическая точка. Общая методика построения право-, лево- и двухсторонней критических областей


Понятие и определение статистической гипотезы


Проверка статистических гипотез тесно связана с теорией оценивания параметров. В естествознании, технике, экономике для выяснения того или иного случайного факта часто прибегают к высказыванию гипотез, которые можно проверить статистически, т. е. опираясь на результаты наблюдений в случайной выборке. Под статистическими подразумеваются такие гипотезы, которые относятся или к виду, или к отдельным параметрам распределения случайной величины. Например, статистической является гипотеза о том, что распределение производительности труда рабочих, выполняющих одинаковую работу в одинаковых условиях, имеет нормальный закон распределения. Статистической будет также гипотеза о том, что средние размеры деталей, производимые на однотипных, параллельно работающих станках, не различаются.


Статистическая гипотеза называется простой, если она однозначно определяет распределение случайной величины X, в противном случае гипотеза называется сложной. Например, простой гипотезой является предположение о том, что случайная величина X распределена по нормальному закону с математическим ожиданием, равным нулю, и дисперсией, равной единице. Если высказывается предположение, что случайная величина X имеет нормальное распределение с дисперсией, равной единице, а математическое ожидание — число из отрезка [a;b], то это сложная гипотеза. Другим примером сложной гипотезы является предположение о том, что непрерывная случайная величина A с вероятностью 1\slash 3 принимает значение из интервала (1;5), в этом случае распределение случайной величины X может быть любым из класса непрерывных распределений.


Часто распределение величины X известно, и по выборке наблюдений необходимо проверить предположения о значении параметров этого распределения. Такие гипотезы называются параметрическими.


Проверяемая гипотеза называется нулевой и обозначается H_0. Наряду с гипотезой H_0 рассматривают одну из альтернативных (конкурирующих) гипотез H_1. Например, если проверяется гипотеза о равенстве параметра \Theta некоторому заданному значению \Theta_0, то есть H_0\colon\Theta=\Theta_0, то в качестве альтернативной гипотезы можно рассмотреть одну из следующих гипотез: H_1^{(1)}\colon\Theta>\Theta_0; H_1^{2}\colon\Theta<\Theta_0; H_1^{3}\colon\Theta\ne\Theta_0; H_1^{4}\colon\Theta=\Theta_1, где \Theta_1 — заданное значение, \Theta_1\ne\Theta_0. Выбор альтернативной гипотезы определяется конкретной формулировкой задачи.


Правило, по которому принимается решение принять или отклонить гипотезу H_0, называется критерием K. Так как решение принимается на основе выборки наблюдений случайной величины X, необходимо выбрать подходящую статистику, называемую в этом случае статистикой Z критерия K. При проверке простой параметрической гипотезы H_0\colon\Theta=\Theta_0 в качестве статистики критерия выбирают ту же статистику, что и для оценки параметра \Theta.


Проверка статистической гипотезы основывается на принципе, в соответствии с которым маловероятные события считаются невозможными, а события, имеющие большую вероятность, — достоверными; Этот принцип можно реализовать следующим образом. Перед анализом выборки фиксируется некоторая малая вероятность \alpha, называемая уровнем значимости. Пусть V — множество значений статистики Z, а V_k\subseteq{V} — такое подмножество, что при условии истинности гипотезы H_0 вероятность попадания статистики критерия в V_k равна \alpha, то есть P\{Z\in{V_k/H_0}\}=\alpha.


Обозначим z_\text{v} выборочное значение статистики Z, вычисленное по выборке наблюдений. Критерий формулируется так: отклонить гипотезу H_0, если z_\text{v}\in{V_k}; принять гипотезу H_0, если z_\text{v}\in{V\setminus{V_k}}. Критерий, основанный на использовании заранее заданного уровня значимости, называют критерием значимости. Множество V_k всех значений статистики критерия Z, при которых принимается решение отклонить гипотезу H_0, называется критической областью; область V\setminus{V_k} называется областью принятия гипотезы H_0.


Уровень значимости \alpha определяет размер критической области V_k. Положение критической области на множестве значений статистики Z зависит от формулировки альтернативной гипотезы H_1. Например, если проверяется гипотеза H_0\colon\Theta=\Theta_0, а альтернативная гипотеза формулируется как H_1\colon\Theta>\Theta_0~(\Theta<\Theta_0), то критическая область размещается на правом (левом) "хвосте" распределения статистики Z, т. е. имеет вид неравенства Z>z_{1-\alpha}(Z<z_\alpha), где z_{1-\alpha},z_\alpha — значения статистики Z, которые принимаются с вероятностями соответственно 1-\alpha и \alpha при условии, что верна гипотеза H_0. В этом случае критерий называется односторонним (соответственно правосторонним и левосторонним). Если альтернативная гипотеза формулируется как H_1\colon\Theta\ne\Theta_0, то критическая область размещается на обоих "хвостах" распределения Z, то есть определяется совокупностью неравенств Z<z_{\alpha/2} и Z>z_{1-\alpha/2} в этом случае критерий называется двухсторонним.


Расположение критической области V_k для различных альтернативных гипотез показано на рис. 30, где f(z|H_0) — плотность распределения статистики Z критерия при условии, что верна гипотеза H_0, V\setminus{V_k} — область принятия гипотезы, P\{Z\in{V\setminus{V_k}}\}=1-\alpha.


Критическая область и статистические гипотезы

Проверку параметрической статистической гипотезы с помощью критерия значимости можно разбить на этапы:


1) сформулировать проверяемую (H_0) и альтернативную (H_1) гипотезы;


2) назначить уровень значимости \alpha;


3) выбрать статистику Z критерия для проверки гипотезы H_0;


4) определить выборочное распределение статистики Z при условии, что верна гипотеза H_0;


5) в зависимости от формулировки альтернативной гипотезы определить критическую область V_k одним из неравенств z>z_{1-\alpha}, Z<z_\alpha или совокупностью неравенств Z<z_{\alpha/2} и Z>z_{1-\alpha/2};


6) получить выборку наблюдений и вычислить выборочные значения z_\text{v} статистики критерия;


7) принять статистическое решение: если z_\text{v}\in{V_k}, то отклонить гипотезу H_0 как не согласующуюся с результатами наблюдений; если z_\text{v}\in{V\setminus{V_k}}, то принять гипотезу H_0, т. е. считать, что гипотеза H_0 не противоречит результатам наблюдений.


Обычно при выполнении пп. 4-7 используют статистику с нормальным распределением, статистику Стьюдента, Фишера.




Пример 3. По паспортным данным автомобильного двигателя расход топлива на 100 км пробега составляет 10 л. В результате изменения конструкции двигателя ожидается, что расход топлива уменьшится. Для проверки проводятся испытания 25 случайно отобранных автомобилей с модернизированным двигателем, причем выборочное среднее расходов топлива на 100 км пробега по результатам испытаний составило 9,3 л. Предположим, что выборка расходов топлива получена из нормально распределенной генеральной совокупности со средним m и дисперсией D=4л². Используя критерий значимости, проверить гипотезу, утверждающую, что изменение конструкции двигателя не повлияло на расход топлива.


Решение. Проверим гипотезу о среднем m нормально распределенной генеральной совокупности. Проверку проведем по этапам:


1) проверяемая гипотеза H_0\colon{m=10}; альтернативная гипотеза H_1\colon{m<10};


2) уровень значимости \alpha=0,\!05;


3) в качестве статистики критерия используем статистику математического ожидания — выборочное среднее;


4) так как выборка получена из нормально распределенной генеральной совокупности, выборочное среднее также имеет нормальное распределение с дисперсией \frac{D}{n}=\frac{4}{25}. При условии, что верна гипотеза H_0, математическое ожидание этого распределения равно 10. Нормированная статистика Z=\frac{\overline{X}-10}{\sqrt{4/25}} имеет нормальное распределение;


5) альтернативная гипотеза H_1\colon{m<10} предполагает уменьшение расхода топлива, следовательно, нужно использовать односторонний критерий. Критическая область определяется неравенством Z<z_{\alpha}. По прил. 5 находим z_{0,\!05}=-z_{0,\!95}=-1,\!645;


б) выборочное значение нормированной статистики критерия


z_\text{v}=\frac{9,\!3-10}{\sqrt{4/25}}=-\frac{0,\!7}{0,\!4}=-1,\!75;

7) статистическое решение: так как выборочное значение статистики критерия принадлежит критической области, гипотеза H_0 отклоняется: следует считать, что изменение конструкции двигателя привело к уменьшению расхода топлива. Границу \overline{x}_k критической области для исходной статистики X критерия можно получить из соотношения \frac{\overline{x}_k-10}{\sqrt{4/25}}=-1,\!645, откуда \overline{x}_k=9,\!342, т. е. критическая область для статистики X определяется неравенством X<9,\!342.


Ошибки первого и второго рода


Решение, принимаемое на основе критерия значимости, может быть ошибочным. Пусть выборочное значение статистики критерия попадает в критическую область, и гипотеза H_0, отклоняется в соответствии с критерием. Если, тем не менее, гипотеза H_0 верна, то принимаемое решение неверно. Ошибка, совершаемая при отклонении правильной гипотезы if о, называется ошибкой первого рода. Вероятность ошибки первого рода равна вероятности попадания статистики критерия в критическую область при условии, что верна гипотеза H_0, т. е. равна уровню значимости \alpha:


\alpha=P\{Z\in{V_k/H_0}\}.~~~~~~~~~~(11.1)

Ошибка второго рода происходит тогда, когда гипотеза H_0 принимается, но в действительности верна гипотеза H_1. Вероятность \beta ошибки второго рода вычисляется по формуле


\beta=P\{Z\in{V\setminus{V_k}/H_1}\}.~~~~~~~~~~(11.2)



Пример 4. В условиях примера 3 предположим, что наряду с гипотезой H_0\colon{m=10}л рассматривается альтернативная гипотеза H_1\colon{m=9}л. В качестве статистики критерия снова возьмем выборочное среднее \overline{X}. Предположим, что критическая область задана неравенством \overline{X}<9,\!44л. Найти вероятности ошибок первого и второго рода для критерия с такой критической областью.


Решение. Найдем вероятность ошибки первого рода. Статистика \overline{X} критерия при условии, что верна гипотеза H_0\colon{m=10}л, имеет нормальное распределение с математическим ожиданием, равным 10, и дисперсией, равной \sqrt{4/25}. Используя прил. 5, по формуле (11.1) находим


{\alpha=P\{\overline{X}<9,\!44/H_0\colon{m=10}\}=\Phi_1\!\left(\frac{9,\!44-10}{\sqrt{4/25}}\right)=\Phi_1(-1,\!4)=1-\Phi_1(1,\!4)\approx0,\!08.}

Это означает, что принятый критерий классифицирует примерно 8% автомобилей, имеющих расход 10 л на 100 км пробега, как автомобили, имеющие меньший расход топлива. При условии, что верна гипотеза H_1\colon{m=9}л, статистика \overline{X} имеет нормальное распределение с математическим ожиданием, равным 9, и дисперсией, равной \sqrt{4/25}. Вероятность ошибки второго рода найдем по формуле (11.2):


{\beta=P\{\overline{X}\geqslant9,\!44/H_1\colon{m=9}\}=\Phi_1\!\left(\frac{9,\!44-9}{\sqrt{4/25}}\right)1-\Phi_1(1,\!1)\approx0,\!136.}

Следовательно, в соответствии с принятым критерием 13,6% автомобилей, имеющих расход топлива 9 л на 100 км пробега, классифицируются как автомобили, имеющие расход топлива 10 л.

Перейти на форум (помощь с решением задач, обсуждение вопросов по математике).
Кнопка "Поделиться"

Часовой пояс: UTC + 3 часа [ Летнее время ]


Яндекс.Метрика

Copyright © 2010-2018 MathHelpPlanet.com. All rights reserved