Дискуссионный математический форумМатематический форум

Математический форум Math Help Planet

Обсуждение и решение задач по математике, физике, химии, экономике

Теоретический раздел
Часовой пояс: UTC + 4 часа [ Летнее время ]
MathHelpPlanet.com RSS-лента Математического форума

Часовой пояс: UTC + 4 часа [ Летнее время ]


Cтатистические гипотезы

Cтатистические гипотезы


Определение статистической гипотезы. Нулевая и альтернативная, простая и сложная гипотезы. Ошибки первого и второго рода. Статистический критерий, наблюдаемое значение критерия. Критическая область. Область принятия нулевой гипотезы; критическая точка. Общая методика построения право-, лево- и двухсторонней критических областей

Понятие и определение статистической гипотезы


Проверка статистических гипотез тесно связана с теорией оценивания параметров. В естествознании, технике, экономике для выяснения того или иного случайного факта часто прибегают к высказыванию гипотез, которые можно проверить статистически, т. е. опираясь на результаты наблюдений в случайной выборке. Под статистическими подразумеваются такие гипотезы, которые относятся или к виду, или к отдельным параметрам распределения случайной величины. Например, статистической является гипотеза о том, что распределение производительности труда рабочих, выполняющих одинаковую работу в одинаковых условиях, имеет нормальный закон распределения. Статистической будет также гипотеза о том, что средние размеры деталей, производимые на однотипных, параллельно работающих станках, не различаются.


Статистическая гипотеза называется простой, если она однозначно определяет распределение случайной величины [math]X[/math], в противном случае гипотеза называется сложной. Например, простой гипотезой является предположение о том, что случайная величина [math]X[/math] распределена по нормальному закону с математическим ожиданием, равным нулю, и дисперсией, равной единице. Если высказывается предположение, что случайная величина [math]X[/math] имеет нормальное распределение с дисперсией, равной единице, а математическое ожидание — число из отрезка [math][a;b][/math], то это сложная гипотеза. Другим примером сложной гипотезы является предположение о том, что непрерывная случайная величина [math]A[/math] с вероятностью [math]\frac{1}{3}[/math] принимает значение из интервала [math](1;5)[/math], в этом случае распределение случайной величины [math]X[/math] может быть любым из класса непрерывных распределений.


Часто распределение величины [math]X[/math] известно, и по выборке наблюдений необходимо проверить предположения о значении параметров этого распределения. Такие гипотезы называются параметрическими.


Проверяемая гипотеза называется нулевой и обозначается [math]H_0[/math]. Наряду с гипотезой [math]H_0[/math] рассматривают одну из альтернативных (конкурирующих) гипотез [math]H_1[/math]. Например, если проверяется гипотеза о равенстве параметра [math]\Theta[/math] некоторому заданному значению [math]\Theta_0[/math], то есть [math]H_0\colon\Theta=\Theta_0[/math], то в качестве альтернативной гипотезы можно рассмотреть одну из следующих гипотез: [math]H_1^{(1)}\colon\Theta>\Theta_0;[/math] [math]H_1^{2}\colon\Theta<\Theta_0;[/math] [math]H_1^{3}\colon\Theta\ne\Theta_0;[/math] [math]H_1^{4}\colon\Theta=\Theta_1,[/math] где [math]\Theta_1[/math] — заданное значение, [math]\Theta_1\ne\Theta_0[/math]. Выбор альтернативной гипотезы определяется конкретной формулировкой задачи.


Правило, по которому принимается решение принять или отклонить гипотезу [math]H_0[/math], называется критерием [math]K[/math]. Так как решение принимается на основе выборки наблюдений случайной величины [math]X[/math], необходимо выбрать подходящую статистику, называемую в этом случае статистикой [math]Z[/math] критерия [math]K[/math]. При проверке простой параметрической гипотезы [math]H_0\colon\Theta=\Theta_0[/math] в качестве статистики критерия выбирают ту же статистику, что и для оценки параметра [math]\Theta[/math].


Проверка статистической гипотезы основывается на принципе, в соответствии с которым маловероятные события считаются невозможными, а события, имеющие большую вероятность, — достоверными; Этот принцип можно реализовать следующим образом. Перед анализом выборки фиксируется некоторая малая вероятность [math]\alpha[/math], называемая уровнем значимости. Пусть [math]V[/math] — множество значений статистики [math]Z[/math], а [math]V_k\subseteq{V}[/math] — такое подмножество, что при условии истинности гипотезы [math]H_0[/math] вероятность попадания статистики критерия в [math]V_k[/math] равна [math]\alpha[/math], то есть [math]P\{Z\in{V_k/H_0}\}=\alpha[/math].


Обозначим [math]z_\text{v}[/math] выборочное значение статистики [math]Z[/math], вычисленное по выборке наблюдений. Критерий формулируется так: отклонить гипотезу [math]H_0[/math], если [math]z_\text{v}\in{V_k}[/math]; принять гипотезу [math]H_0[/math], если [math]z_\text{v}\in{V\setminus{V_k}}[/math]. Критерий, основанный на использовании заранее заданного уровня значимости, называют критерием значимости. Множество [math]V_k[/math] всех значений статистики критерия [math]Z[/math], при которых принимается решение отклонить гипотезу [math]H_0[/math], называется критической областью; область [math]V\setminus{V_k}[/math] называется областью принятия гипотезы [math]H_0[/math].


Уровень значимости [math]\alpha[/math] определяет размер критической области [math]V_k[/math]. Положение критической области на множестве значений статистики [math]Z[/math] зависит от формулировки альтернативной гипотезы [math]H_1[/math]. Например, если проверяется гипотеза [math]H_0\colon\Theta=\Theta_0[/math], а альтернативная гипотеза формулируется как [math]H_1\colon\Theta>\Theta_0~(\Theta<\Theta_0)[/math], то критическая область размещается на правом (левом) "хвосте" распределения статистики [math]Z[/math], т. е. имеет вид неравенства [math]Z>z_{1-\alpha}(Z<z_\alpha)[/math], где [math]z_{1-\alpha},z_\alpha[/math] — значения статистики [math]Z[/math], которые принимаются с вероятностями соответственно [math]1-\alpha[/math] и [math]\alpha[/math] при условии, что верна гипотеза [math]H_0[/math]. В этом случае критерий называется односторонним (соответственно правосторонним и левосторонним). Если альтернативная гипотеза формулируется как [math]H_1\colon\Theta\ne\Theta_0[/math], то критическая область размещается на обоих "хвостах" распределения [math]Z[/math], то есть определяется совокупностью неравенств [math]Z<z_{\alpha/2}[/math] и [math]Z>z_{1-\alpha/2}[/math] в этом случае критерий называется двухсторонним.


Расположение критической области [math]V_k[/math] для различных альтернативных гипотез показано на рис. 30, где [math]f(z|H_0)[/math] — плотность распределения статистики [math]Z[/math] критерия при условии, что верна гипотеза [math]H_0[/math], [math]V\setminus{V_k}[/math] — область принятия гипотезы, [math]P\{Z\in{V\setminus{V_k}}\}=1-\alpha[/math].


Изображение

Проверку параметрической статистической гипотезы с помощью критерия значимости можно разбить на этапы:


1) сформулировать проверяемую [math](H_0)[/math] и альтернативную [math](H_1)[/math] гипотезы;


2) назначить уровень значимости [math]\alpha[/math];


3) выбрать статистику [math]Z[/math] критерия для проверки гипотезы [math]H_0[/math];


4) определить выборочное распределение статистики [math]Z[/math] при условии, что верна гипотеза [math]H_0[/math];


5) в зависимости от формулировки альтернативной гипотезы определить критическую область [math]V_k[/math] одним из неравенств [math]z>z_{1-\alpha},[/math] [math]Z<z_\alpha[/math] или совокупностью неравенств [math]Z<z_{\alpha/2}[/math] и [math]Z>z_{1-\alpha/2}[/math];


6) получить выборку наблюдений и вычислить выборочные значения [math]z_\text{v}[/math] статистики критерия;


7) принять статистическое решение: если [math]z_\text{v}\in{V_k}[/math], то отклонить гипотезу [math]H_0[/math] как не согласующуюся с результатами наблюдений; если [math]z_\text{v}\in{V\setminus{V_k}}[/math], то принять гипотезу [math]H_0[/math], т. е. считать, что гипотеза [math]H_0[/math] не противоречит результатам наблюдений.


Обычно при выполнении пп. 4-7 используют статистику с нормальным распределением, статистику Стьюдента, Фишера.




Пример 3. По паспортным данным автомобильного двигателя расход топлива на 100 км пробега составляет 10 л. В результате изменения конструкции двигателя ожидается, что расход топлива уменьшится. Для проверки проводятся испытания 25 случайно отобранных автомобилей с модернизированным двигателем, причем выборочное среднее расходов топлива на 100 км пробега по результатам испытаний составило 9,3 л. Предположим, что выборка расходов топлива получена из нормально распределенной генеральной совокупности со средним [math]m[/math] и дисперсией [math]D=4[/math]л². Используя критерий значимости, проверить гипотезу, утверждающую, что изменение конструкции двигателя не повлияло на расход топлива.


Решение. Проверим гипотезу о среднем [math]m[/math] нормально распределенной генеральной совокупности. Проверку проведем по этапам:


1) проверяемая гипотеза [math]H_0\colon{m=10}[/math]; альтернативная гипотеза [math]H_1\colon{m<10}[/math];


2) уровень значимости [math]\alpha=0,\!05[/math];


3) в качестве статистики критерия используем статистику математического ожидания — выборочное среднее;


4) так как выборка получена из нормально распределенной генеральной совокупности, выборочное среднее также имеет нормальное распределение с дисперсией [math]\frac{D}{n}=\frac{4}{25}[/math]. При условии, что верна гипотеза [math]H_0[/math], математическое ожидание этого распределения равно 10. Нормированная статистика [math]Z=\frac{\overline{X}-10}{\sqrt{4/25}}[/math] имеет нормальное распределение;


5) альтернативная гипотеза [math]H_1\colon{m<10}[/math] предполагает уменьшение расхода топлива, следовательно, нужно использовать односторонний критерий. Критическая область определяется неравенством [math]Z<z_\alpha[/math]. По прил. 5 находим [math]z_{0,\!05}=-z_{0,\!95}=-1,\!645[/math];


б) выборочное значение нормированной статистики критерия


[math]z_\text{v}=\frac{9,\!3-10}{\sqrt{4/25}}=-\frac{0,\!7}{0,\!4}=-1,\!75;[/math]

7) статистическое решение: так как выборочное значение статистики критерия принадлежит критической области, гипотеза [math]H_0[/math] отклоняется: следует считать, что изменение конструкции двигателя привело к уменьшению расхода топлива. Границу [math]\overline{x}_k[/math] критической области для исходной статистики [math]X[/math] критерия можно получить из соотношения [math]\frac{\overline{x}_k-10}{\sqrt{4/25}}=-1,\!645[/math], откуда [math]\overline{x}_k=9,\!342[/math], т. е. критическая область для статистики [math]X[/math] определяется неравенством [math]X<9,\!342[/math].


Ошибки первого и второго рода


Решение, принимаемое на основе критерия значимости, может быть ошибочным. Пусть выборочное значение статистики критерия попадает в критическую область, и гипотеза [math]H_0[/math], отклоняется в соответствии с критерием. Если, тем не менее, гипотеза [math]H_0[/math] верна, то принимаемое решение неверно. Ошибка, совершаемая при отклонении правильной гипотезы if о, называется ошибкой первого рода. Вероятность ошибки первого рода равна вероятности попадания статистики критерия в критическую область при условии, что верна гипотеза [math]H_0[/math], т. е. равна уровню значимости [math]\alpha:[/math]


[math]\alpha=P\{Z\in{V_k/H_0}\}.~~~~~~~~~~(11.1)[/math]

Ошибка второго рода происходит тогда, когда гипотеза [math]H_0[/math] принимается, но в действительности верна гипотеза [math]H_1[/math]. Вероятность [math]\beta[/math] ошибки второго рода вычисляется по формуле


[math]\beta=P\{Z\in{V\setminus{V_k}/H_1}\}.~~~~~~~~~~(11.2)[/math]



Пример 4. В условиях примера 3 предположим, что наряду с гипотезой [math]H_0\colon{m=10}[/math]л рассматривается альтернативная гипотеза [math]H_1\colon{m=9}[/math]л. В качестве статистики критерия снова возьмем выборочное среднее [math]\overline{X}[/math]. Предположим, что критическая область задана неравенством [math]\overline{X}<9,\!44[/math]л. Найти вероятности ошибок первого и второго рода для критерия с такой критической областью.


Решение. Найдем вероятность ошибки первого рода. Статистика [math]\overline{X}[/math] критерия при условии, что верна гипотеза [math]H_0\colon{m=10}[/math]л, имеет нормальное распределение с математическим ожиданием, равным 10, и дисперсией, равной [math]\sqrt{4/25}[/math]. Используя прил. 5, по формуле (11.1) находим


[math]{\alpha=P\{\overline{X}<9,\!44/H_0\colon{m=10}\}=\Phi_1\!\left(\frac{9,\!44-10}{\sqrt{4/25}}\right)=\Phi_1(-1,\!4)=1-\Phi_1(1,\!4)\approx0,\!08.}[/math]

Это означает, что принятый критерий классифицирует примерно 8% автомобилей, имеющих расход 10 л на 100 км пробега, как автомобили, имеющие меньший расход топлива. При условии, что верна гипотеза [math]H_1\colon{m=9}[/math]л, статистика [math]\overline{X}[/math] имеет нормальное распределение с математическим ожиданием, равным 9, и дисперсией, равной [math]\sqrt{4/25}[/math]. Вероятность ошибки второго рода найдем по формуле (11.2):


[math]{\beta=P\{\overline{X}\geqslant9,\!44/H_1\colon{m=9}\}=\Phi_1\!\left(\frac{9,\!44-9}{\sqrt{4/25}}\right)1-\Phi_1(1,\!1)\approx0,\!136.}[/math]

Следовательно, в соответствии с принятым критерием 13,6% автомобилей, имеющих расход топлива 9 л на 100 км пробега, классифицируются как автомобили, имеющие расход топлива 10 л.


Часовой пояс: UTC + 4 часа [ Летнее время ]


Яндекс.Метрика

Copyright © 2010-2016 MathHelpPlanet.com. All rights reserved