Дискуссионный математический форумМатематический форум
Математический форум Math Help Planet

Обсуждение и решение задач по математике, физике, химии, экономике

Теоретический раздел
Часовой пояс: UTC + 3 часа [ Летнее время ]
новый онлайн-сервис
число, сумма и дата прописью

Часовой пояс: UTC + 3 часа [ Летнее время ]


Закон больших чисел и предельные теоремы

Закон больших чисел и предельные теоремы


Вполне естественна потребность количественно уточнить утверждение о том, что в «больших» сериях испытаний частоты появления события «близки» к его вероятности. Следует ясно представить себе известную деликатность этой задачи. В наиболее типичных для теории вероятностей случаях дело обстоит так, что в сколь угодно длинных сериях испытаний остаются теоретически возможными оба крайних значения частоты


\frac{\mu}{n}=\frac{n}{n}=1 и \frac{\mu}{n}=\frac{0}{n}=0

Поэтому, каково бы ни было число испытаний n, нельзя утверждать с полной достоверностью, что будет выполнено, скажем, неравенство


\left|\frac{\mu}{n}-p\right|<\frac{1}{10}

Например, если событие A заключается в выпадении при бросании игральной кости шестерки, то при n бросаниях с вероятностью (1\slash 6)^n>0 мы все время будем получать одни шестерки, т. е. с вероятностью (1\slash 6)^n получим частоту появления шестерок, равную единице, а с вероятностью (1-1\slash 6)^n>0 шестерка не выпадает ни одного раза, т. е. частота появления шестерок окажется равной нулю.


Во всех подобных задачах любая нетривиальная оценка близости между частотой и вероятностью действует не с полной достоверностью, а лишь с некоторой меньшей единицы вероятностью. Можно, например, доказать, что в случае независимых испытаний с постоянной вероятностью p появления события неравенство


\left|\frac{\mu}{n}-p\right|<0,\!02
(7)

для частоты \mu\slash n будет выполняться при n=10000 (и любом p) с вероятностью


p>0,\!9999.
(8)

Здесь мы прежде всего хотим подчеркнуть, что в приведенной формулировке количественная оценка близости частоты \mu\slash n к вероятности p связана с введением новой вероятности P.


Реальный смысл оценки (8) таков: если произвести N серий по n испытаний и сосчитать число M серий, в которых выполняется неравенство (7), то при достаточно большом N приближенно будет


\frac{M}{N}\approx P>0,\!9999.
(9)

Но если мы захотим уточнить соотношение (9) как в отношении степени близости M\slash N к вероятности P, так и в отношении надежности, с которой можно утверждать, что такая близость будет иметь место, то придется обратиться к рассмотрениям, аналогичным тем, которые мы уже провели в применении к близости \mu\slash n и p. При желании такое рассуждение можно повторять неограниченное число раз, но вполне понятно, что это не позволит нам совсем освободиться от необходимости на последнем этапе обратиться к вероятностям в примитивном грубом понимании этого термина.


Не следует думать, что подобного рода затруднения являются какой-то особенностью теории вероятностей. При математическом изучении реальных явлений мы всегда их схематизируем. Отклонения хода действительных явлений от теоретической схемы можно, в свою очередь, подвергнуть математическому изучению. Но для этого сами эти отклонения надо уложить в некоторую схему и этой последней пользоваться уже без формального математического анализа отклонений от нее.


Заметим, впрочем, что при реальном применении оценки


P\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\,<0,\!02\right\}>0,\!9999.
(10)

к единичной серии из n испытаний мы опираемся и на некоторые соображения симметрии: неравенство (10) указывает, что при очень большом числе N серий соотношение (7) будет выполняться не менее чем в 99,99% случаев; естественно с большой уверенностью ожидать, что, в частности, неравенство (7) осуществится в интересующей нас определенной серии из n испытаний, если мы имеем основания считать, что эта серия в ряду других серий занимает рядовое, ничем особенным не отмеченное положение.


Вероятности, которыми принято пренебрегать в различных практических положениях, различны. Выше уже отмечалось, что при ориентировочных расчетах расхода снарядов, гарантирующего выполнение поставленной задачи, удовлетворяются нормой расхода снарядов, при которой поставленная задача решается с вероятностью 0,95, т. е. пренебрегают вероятностями, не превышающими 0,05. Это объясняется тем, что переход на расчеты, исходящие из пренебрежения, скажем, лишь вероятностями, меньшими 0,01, приводил бы к большому увеличению норм расхода снарядов, т. е. практически во многих случаях к выводу о невозможности выполнить поставленную задачу за тот короткий промежуток времени, который для этого имеется, или с фактически могущим быть использованным запасом снарядов.


Иногда и в научных исследованиях ограничиваются статистическими приемами, рассчитанными исходя из пренебрежения вероятностями в 0,05. Но это следует делать лишь в случаях, когда собирание более обширного материала очень затруднительно. Рассмотрим в виде примера таких приемов следующую задачу. Допустим, что в определенных условиях употребительный препарат для лечения какого-либо заболевания дает положительный результат в 50%, т. е. с вероятностью 0,5. Предлагается новый препарат и для проверки его преимуществ над старым планируется применить его в десяти случаях, выбранных беспристрастно из числа больных, находящихся в том же положении, что и те, для которых установлена эффективность старого препарата в 50%. При этом устанавливается, что преимущество нового препарата будет считаться доказанным, если он даст положительный результат не менее чем в восьми случаях из десяти. Легко подсчитать, что такое решение связано с пренебрежением вероятностью получить ошибочный вывод (т. е. вывод о доказанности преимущества нового препарата, в то время как он равноценен или даже хуже старого) как раз порядка 0,05. В самом деле, если в каждом из десяти испытаний вероятность положительного исхода равна p, то вероятности получить при десяти испытаниях 10,9 или 8 положительных исходов, равны соответственно


P_{10}=p^{10},\qquad P_9=10p^9(1-p),\qquad P_8=45p^8(1-p)^2.

В сумме для случая p=\frac{1}{2} получаем P=P_{10}+P_9+P_8=\frac{56}{1024}\approx0,\!05.


Таким образом, в предположении, что на самом деле новый препарат точно равноценен старому, мы рискуем сделать ошибочный вывод о том, что новый препарат превосходит старый, с вероятностью порядка 0,05. Чтобы свести эту вероятность приблизительно к 0,01, не увеличивая числа испытаний n=10, пришлось бы установить, что преимущество нового препарата будет считаться доказанным лишь тогда, когда его применение даст положительный результат не менее чем в девяти случаях из десяти. Если это требование покажется сторонникам нового препарата слишком суровым, то придется назначить число испытаний n значительно большим, чем 10. Если, например, при n=100 установить, что преимущества нового препарата будут считаться доказанными при \mu>65, то вероятность ошибки будет лишь P\approx0,\!0015.


Если норма в 0,05 для серьезных научных исследований явно недостаточна, то вероятностью ошибки в 0,001 или в 0,003 по большей части принято пренебрегать даже в столь академических и обстоятельных исследованиях, как обработка астрономических наблюдений. Впрочем, иногда научные выводы, основанные на применении вероятностных закономерностей, обладают и значительно большей достоверностью (т. е. построены на пренебрежении значительно меньшими вероятностями). Об этом еще будет сказано далее.


В рассмотренных примерах мы уже неоднократно применяли частные случаи биномиальной формулы (6)


P_m=C_n^mp^m(1-p)^{n-m}

для вероятности P_m получить ровно т положительных исходов при n независимых испытаниях, в каждом из которых положительный исход имеет вероятность р. Рассмотрим при помощи этой формулы вопрос, поставленный в начале этого параграфа, о вероятности


P=\mathbf{P}\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\,<\varepsilon\right\},
(11)

где \mu — фактическое число положительных исходов. Очевидно, эта вероятность может быть записана в виде суммы тех P_m, для которых m удовлетворяет неравенству


\vline\,\frac{m}{n}-p\,\vline\,<\varepsilon,
(12)

то есть в виде
P=\sum_{m=m_1}^{m_2}P_m,
(13)

где m_1 — наименьшее из значений m, удовлетворяющих неравенству (12), а m_2 — наибольшее из таких m.


Формула (13) при сколько-нибудь больших n мало пригодна для непосредственных вычислений. Поэтому имело очень большое значение открытие Муавром для случая p=1\slash 2 и Лапласом при любом p асимптотической формулы, которая позволяет очень просто находить и изучать поведение вероятностей P_m при больших n. Формула эта имеет вид


P\sim\frac{1}{\sqrt{2\pi np(1-p)}}\exp\!\left[-\frac{(m-np)^2}{2np(1-p)}\right].
(14)

Если p не слишком близко к нулю или единице, то она достаточно точна уже при n порядка 100. Если положить


t=\frac{m-np}{\sqrt{np(1-p)}},
(15)
то формула (14) приобретет вид
P\sim\frac{1}{\sqrt{2\pi np(1-p)}}\,e^{-t^2/2}.
(16)

Из (13) и (16) можно вывести приближенное представление вероятности (11)


P\sim\frac{1}{\sqrt{2\pi}}\int\limits_{-T}^{T}e^{-t^2/2}\,dt=F(T),
(17)

где

T=\varepsilon\sqrt{\frac{n}{p(1-p)}}
(18)

Разность между левой и правой частями в (17) при постоянном и отличном от нуля и единицы p стремится при n\to\infty равномерно относительно \varepsilon к нулю. Для функции F(T) составлены подробные таблицы. Вот краткая выдержка из них


\begin{array}{c|c|c|c|c}T&1&2&3&4\\\hline F&0,\!68269&0,\!95450&0,\!99730&0,\!99993\end{array}

При T\to\infty значение функции F(T) стремится к единице.


Произведем при помощи формулы (17) оценку вероятности


P=\mathbf{P}\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\,<0,\!02\right\}\approx F\!\left(\frac{2}{\sqrt{p(1-p)}}\right) при n=10\,000,~\varepsilon=0,\!02, так как T=\frac{2}{\sqrt{p(1-p)}}.

Так как функция F(T) монотонно возрастает с возрастанием T, то для не зависящей от p оценки P снизу надо взять наименьшее возможное (при различных p) значение T. Такое наименьшее значение получится при p=1\slash 2, и оно будет равно 4. Поэтому приближенно


P\geqslant F(4)=0,\!99993.
(19)

В неравенстве (19) не учтена ошибка, происходящая из-за приближенного характера формулы (17). Производя оценку связанной с этим обстоятельством погрешности, можно во всяком случае установить, что P>0,\!9999.


В связи с рассмотренным примером применения формулы (17) следует отметить, что оценки остаточного члена формулы (17), дававшиеся в теоретических сочинениях по теории вероятностей, долго оставались мало удовлетворительными. Поэтому применения формулы (17) и ей подобных к расчетам при не очень больших n или при вероятностях p, очень близких к 0 или к 1 (а такие вероятности во многих случаях и имеют особенно большое значение) часто основывались лишь на опыте проверок такого рода результатов для ограниченного числа примеров, а не на достоверно установленных оценках возможной ошибки. Более подробное исследование, кроме того, показало, что во многих практически важных случаях приведенные выше асимптотические формулы нуждаются не только в оценке остаточного члена, но и в уточнении (так как без такого уточнения остаточный член слишком велик). В обоих направлениях наиболее полные результаты принадлежат С. Н. Бернштейну.


Соотношения (11), (17) и (18) можно переписать в виде


\mathbf{P}\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\,<t\sqrt{\frac{p(1-p)}{n}}\right\}\sim F(t).
(20)

Для достаточно больших t правая часть формулы (20), не содержащая n, сколь угодно близка к единице, т. е. к значению вероятности, которое соответствует полной достоверности. Мы видим, таким образом, что, как правило, отклонения частоты \mu\slash n от вероятности p имеют порядок 1\slash \sqrt{n}. Такая пропорциональность точности действия вероятностных закономерностей квадратному корню из числа наблюдений типична и для многих других вопросов. Иногда говорят даже в порядке несколько упрощенной популяризации о "законе квадратного корня из n" как основном законе теории вероятностей. Полную отчетливость эта мысль получила благодаря введению великим русским математиком П. Л. Чебышевым в систематическое употребление метода сведения различных вероятностных задач к подсчетам «математических ожиданий» и "дисперсий" для сумм и средних арифметических "случайных величин".


Случайной величиной называется величина, которая в данных условиях S может принимать различные значения с определенными вероятностями. Для нас достаточно рассмотреть случайные величины, могущие принимать лишь конечное число различных значений. Чтобы указать, как говорят, распределение вероятностей такого рода случайной величины \xi, достаточно указать возможные ее значения x_1,x_2,\ldots,x_r и вероятности


P_r=\mathbf{P}\{\xi=x_r\}.

В сумме эти вероятности по всем различным возможным значениям величины \xi всегда равны единице:


\sum_{r=1}^{s}P_r=1.

Примером случайной величины может служить изучавшееся выше число \mu положительных исходов при п испытаниях.


Математическим ожиданием величины \xi называется выражение


M(\xi)=\sum_{r=1}^{s}P_rx_r,

а дисперсией величины \xi называют математическое ожидание квадрата отклонения \xi-M(\xi), т. е. выражение


D(\xi)=\sum_{r=1}^{s}P_r(x_r-M(\xi))^2.

Корень квадратный из дисперсии
\sigma_{\xi}=\sqrt{D(\xi)}=\sqrt{\sum_{r=1}^{s}P_r(x_r-M(\xi))^2}

называется средним квадратическим отклонением (величины от ее математического ожидания M(\xi)).


В основе простейших применений дисперсий и средних квадратических отклонений лежит знаменитое неравенство Чебышева


\mathbf{P}\{|\xi-M(\xi)|\leqslant t_{\sigma_{\xi}}\}\geqslant1-\frac{1}{t^2},
(21)

Оно показывает, что отклонения случайной величины \xi от её математического ожидания M(\xi), значительно превышающие среднее квадратическое отклонение \sigma_{\xi}, встречаются редко.


При образовании сумм случайных величин \xi=\xi^{(1)}+ \xi^{(2)}+\cdots+\xi^{(n)} для их математических ожиданий всегда имеет место равенство


M(\xi)=M(\xi^{(1)})+M(\xi^{(2)})+\cdots+M(\xi^{(n)}).
(22)

Аналогичное равенство для дисперсий


D(\xi)=D(\xi^{(1)})+D(\xi^{(2)})+\cdots+D(\xi^{(n)}).
(23)

верно только при некоторых ограничениях. Для справедливости равенства (23) достаточно, например, чтобы величины \xi^{(i)} и \xi^{(j)} с различными номерами не были, как говорят, «коррелированны» между собой, т. е. чтобы при i\ne j выполнялось равенство


M\Bigl\{(\xi^{(i)}-M(\xi^{(i)}))(\xi^{(j)}-M(\xi^{(j)}))\Bigl\}=0
(24)

Коэффициентом корреляции между случайными величинами \xi^{(i)} и \xi^{(j)} называется выражение


R=\frac{M\Bigl\{\Bigl(\xi^{(i)}-M(\xi^{(i)})\Bigl)\Bigl(\xi^{(j)}-M(\xi^{(j)})\Bigl)\Bigl\}}{\sigma_{\xi^{(i)}}\,\sigma_{\xi^{(j)}}}.

Если \sigma_{\xi^{(i)}}>0 в \sigma_{\xi^{(j)}}>0, то условие (24) равносильно тому, что R=0.


Коэффициент корреляции R характеризует степень зависимости между случайными величинами. Всегда |R|\leqslant1, причем R=\pm1 только при наличии линейной связи


\eta=a\xi+b\quad(a\ne0).

Для независимых величин R=0.


В частности, равенство (24) соблюдается, если величины \xi^{(i)} и \xi^{(j)} независимы между собой. Таким образом, для взаимно независимых слагаемых всегда действует равенство (23). Для средних арифметических


\zeta=\frac{1}{n}\Bigl(\xi^{(1)}+\xi^{(2)}+\cdots+\xi^{(n)}\Bigl) из (23) вытекает

D(\zeta_=\frac{1}{n^2}\Bigl(D(\xi^{(1)})+ D(\xi^{(2)})+\cdots+ D(\xi^{(n)})\Bigl).
(25)

Предположим теперь, что для всех слагаемых дисперсии не превосходят некоторой постоянной


D(\xi^{(i)})\leqslant C^2. Тогда по (25) D(\zeta)\leqslant\frac{C^2}{n},

и в силу неравенства Чебышева при любом t


\mathbf{P}\!\left\{|\zeta-M(\zeta)|\leqslant\frac{tC}{\sqrt{n}}\right\}\geqslant1-\frac{1}{t^2}
(26)

Неравенство (26) содержит в себе так называемый закон больших чисел в форме, установленной Чебышевым: если величины \xi^{(i)} взаимно независимы и имеют ограниченные дисперсии, то при возрастании n их средние арифметические \zeta, всё реже заметно отклоняются от своих математических ожиданий M(\zeta).


Более точно говорят, что последовательность случайных величин \xi^{(1)},\,\xi^{(2)},\,\ldots\,\xi^{(n)},\,\ldots подчиняется закону больших чисел, если для соответствующих средних арифметических \zeta и при любом постоянном \varepsilon>0


\mathbf{P}\{|\zeta-M(\zeta)|\leqslant \varepsilon\}\to1\quad (n\to\infty).
(27)

Чтобы получить из неравенства (26) предельное соотношение (27), достаточно положить


t=\varepsilon\cdot\frac{\sqrt{n}}{C}.

Большой ряд исследований А.А. Маркова, С.Н. Бернштейна, А.Я. Хинчина и других посвящен вопросу возможно большего расширения условий применимости предельного соотношения (27), т. е. условий применимости закона больших чисел. Эти исследования имеют принципиальное значение. Однако еще более важным является точное исследование распределения вероятностей отклонений \zeta-M(\zeta).


Великой заслугой русской классической школы в теории вероятностей является установление того факта, что при очень широких условиях асимптотически (т. е. со все большей точностью при неограниченно растущих n) справедливо равенство


\mathbf{P}\!\left\{t_1\sigma_{\zeta}<\zeta-M(\zeta)<t_2\sigma_{\zeta}\right\}\sim\frac{1}{\sqrt{2\pi}}\int\limits_{t_1}^{t_2}e^{-t^2/2}\,dt\,.
(28)

Чебышев дал почти полное доказательство этой формулы для случая независимых и ограниченных слагаемых. Марков восполнил недостающее звено в рассуждениях Чебышева и расширил условия применимости формулы (28). Еще более общие условия были даны Ляпуновым. Вопрос о распространении формулы (28) на суммы зависимых слагаемых с особенной полнотой был изучен С. Н. Бернштейном.


Формула (28) охватила столь большое число частных задач, что долгое время ее называли центральной предельной теоремой теории вероятностей. Хотя при новейшем развитии теории вероятностей она оказалась включенной в ряд более общих закономерностей, ее значение трудно переоценить и в настоящее

время.

Если слагаемые независимы и их дисперсии одинаковы и равны: D(\xi^{(i)})=\sigma^2, то формуле (28) удобно, учитывая соотношение (25), придать вид


\mathbf{P}\!\left\{\frac{t_1\sigma}{\sqrt{n}}<\zeta-M(\zeta)<\frac{t_2\sigma}{\sqrt{n}}\right\}\sim\frac{1}{\sqrt{2\pi}}\int\limits_{t_1}^{t_2}e^{-t^2/2}\,dt\,.
(29)

Покажем, что соотношение (29) содержит в себе решение задачи об отклонениях частоты \mu\slash n от вероятности p, которой мы занимались ранее. Для этого введем случайные величины \xi^{(i)} определяя их следующим условием:


\xi^{(i)}=0, если i-е испытание имело отрицательный исход,

\xi^{(i)}=1, если i-е испытание имело положительный исход.


Легко проверить, что тогда

\begin{gathered} \mu=\xi^{(1)}+\xi^{(2)}+\cdots+\xi^{(n)}, \quad \frac{\mu}{n}=\zeta,\\[3pt] M(\xi^{(i)})=p, \quad D(\xi^{(i)})=p(1-p), \quad M(\zeta)=p, \end{gathered}

и формула (29) дает

\mathbf{P}\!\left\{t_1\sqrt{\frac{p(1-p)}{n}}<\frac{\mu}{n}-p<t_2\sqrt{\frac{p(1-p)}{n}}\right\}\sim\frac{1}{\sqrt{2\pi}}\int\limits_{t_1}^{t_2}e^{-t^2/2}\,dt,

что при t_1=-t,~t_2=t снова приводит к формуле (20).


Также см. Предельные теоремы теории вероятностей

Математический форум (помощь с решением задач, обсуждение вопросов по математике).
Кнопка "Поделиться"
Если заметили ошибку, опечатку или есть предложения, напишите в комментариях.

Часовой пояс: UTC + 3 часа [ Летнее время ]


Яндекс.Метрика

Copyright © 2010-2023 MathHelpPlanet.com. All rights reserved