Дискуссионный математический форумМатематический форум
Математический форум Math Help Planet

Обсуждение и решение задач по математике, физике, химии, экономике

Теоретический раздел
Часовой пояс: UTC + 3 часа [ Летнее время ]
новый онлайн-сервис
число, сумма и дата прописью

Часовой пояс: UTC + 3 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 17 ]  На страницу Пред.  1, 2
Автор Сообщение
 Заголовок сообщения: Re: Проверить нулевую гипотезу об однородности двух выборок
СообщениеДобавлено: 25 июн 2020, 16:13 
Не в сети
Начинающий
Зарегистрирован:
25 апр 2020, 20:26
Сообщений: 41
Cпасибо сказано: 27
Спасибо получено:
1 раз в 1 сообщении
Очков репутации: 1

Добавить очки репутацииУменьшить очки репутации
searcher писал(а):
marina2020 писал(а):
роверить нулевую гипотезу об однородности двух выборок при альтернативной гипотезе
F(X)≠F(Y)

Так ли я понял, что нам нужно проверить, что две выборки имеют одну и ту же функцию распределения? Причём. к какому классу относится эта функция распределения, нам ничего неизвестно. Тогда естественно воспользоваться непараметическими критериями типа критерия Колмогорова-Смирнова.



Спасибо
А тут можно воспользоваться критерием Вилкоксона для пункта А)?
В интернете нашла)

Вернуться к началу
 Профиль  
Cпасибо сказано 
 Заголовок сообщения: Re: Проверить нулевую гипотезу об однородности двух выборок
СообщениеДобавлено: 25 июн 2020, 16:36 
Не в сети
Последняя инстанция
Аватара пользователя
Зарегистрирован:
15 мар 2016, 15:08
Сообщений: 9390
Cпасибо сказано: 122
Спасибо получено:
1726 раз в 1634 сообщениях
Очков репутации: 235

Добавить очки репутацииУменьшить очки репутации
Почитайте вот это: http://datalearning.ru/study/Courses/mathstat/lections/lection05.pdf . Популярно о разных критериях согласия для проверки однородности.
Критерий Уилкоксона также называется критерием Манна-Уитни. Каким вам критерием воспользоваться лучше - пока не соображу. Вроде как этот критерий легко считается руками, не требует предположения о нормальности, но и не слишком точный. Если наблюдений много, можно воспользоваться компьютером и очевидно, что выборки из нормального распределения, то критерий хи-квадрат Пирсона будет уместен. Предлагаю подождать, может знатоки в тему зайдут.
У меня в плане пойти погулять

См. также Ивченко, Медведев, "Математическая статистика", глава 3, пар. 4, "Гипотеза однородности".

Вернуться к началу
 Профиль  
Cпасибо сказано 
За это сообщение пользователю searcher "Спасибо" сказали:
marina2020
 Заголовок сообщения: Re: Проверить нулевую гипотезу об однородности двух выборок
СообщениеДобавлено: 26 июн 2020, 00:47 
Не в сети
Одарённый
Зарегистрирован:
11 фев 2018, 14:41
Сообщений: 157
Cпасибо сказано: 6
Спасибо получено:
32 раз в 29 сообщениях
Очков репутации: 6

Добавить очки репутацииУменьшить очки репутации
Наш roadmap примерно такой (я буду использовать Python, мне так проще, хотя все воспроизводимо и в EXCEL)
1. Давайте глазками посмотрим на наши наборы
from matplotlib import pyplot as plt
plt.hist(x,bins=16)
plt.hist(y,bins=16)

Полученные графики как бы и сомнения не оставляют в том, что наборы данных у нас не подчиняются нормальному закону распределения(что-то у меня не получается всавить сюда рисунок, но в этом легко убедиться).
2. Для "очистки совести" и что-бы соблюсти общность изложения применим формальные тесты на оприделение соответствии данных нормальному распределению. Тут можно использовать различные критерии. Я применю тест Шапиро-Уилка.
from scipy import stats
stats.shapiro(x)
stats.shapiro(y)

Результаты ожидаемые:
(0.8360732793807983, 4.203513526590541e-05)
(0.8441519737243652, 6.508523074444383e-05)

Малое значение p-value (второй элемент каждой пары) подтвержает "ненормальность" выборки.
Если очень захотеть, можно применить и другие критерии, а именно
- тест д'Аугустино-Пирсона (stats.normaltest(x))
- тест согласия Колмогорова-Смирнова (stats.kstest(x, 'norm'))
или любой другой.
3. Итак, наши выборки не соответствуют нормальному закону распределения, при анализа гипотезы об однородности двух выборок придется применять непараметрические тесты.
Начнем с теста Манна- Уитни
stats.mannwhitneyu(x, y)

Результат
MannwhitneyuResult(statistic=644.0, pvalue=0.06719986877144166)

близкий к граничному и принять или нет гипотезу зависит от того, какой уровень значимости вы определите.
Применим тест Комлогорова-Смирнова согласия двух выборок:
stats.ks_2samp(x, y)

Результат:
Ks_2sampResult(statistic=0.225, pvalue=0.2656871402817289)

Определенно высокое значение pvalue не дает нам право отклонить нулевую гипотезу.

Теперь с загадочным "А) взять из выборки X 14 первых элементов, из выборки Y 23 первых элементов". Предполагаю, что это было дано вам, что-бы показать, как зависят результаты анализа от количества элементов в выборке. Итак, "урезаем" наши данные:

x=x[:14]
y=y[:23]


и повторяем последние два теста. Получаем результаты:
Ks_2sampResult(statistic=0.43788819875776397, pvalue=0.05077648920922484)
MannwhitneyuResult(statistic=88.0, pvalue=0.011488833549290941)


Имея такие данные мы бы с большим основанием отклонили бы гипотезу однородности.
Вот как-то примерно так.

Вернуться к началу
 Профиль  
Cпасибо сказано 
За это сообщение пользователю passant "Спасибо" сказали:
ipgmvq
 Заголовок сообщения: Re: Проверить нулевую гипотезу об однородности двух выборок
СообщениеДобавлено: 26 июн 2020, 05:14 
Не в сети
Последняя инстанция
Аватара пользователя
Зарегистрирован:
28 дек 2011, 15:16
Сообщений: 11671
Откуда: Дивногорск
Cпасибо сказано: 795
Спасибо получено:
1984 раз в 1822 сообщениях
Очков репутации: 314

Добавить очки репутацииУменьшить очки репутации
marina2020 писал(а):
А) взять из выборки X 14 первых элементов, из выборки Y 23 первых элементов
Б) X и Y

Могу лишь догадываться что случай А) для несвязанных выборок, а Б) для парных.

Вернуться к началу
 Профиль  
Cпасибо сказано 
 Заголовок сообщения: Re: Проверить нулевую гипотезу об однородности двух выборок
СообщениеДобавлено: 26 июн 2020, 08:20 
Не в сети
Профи
Зарегистрирован:
04 июн 2020, 01:04
Сообщений: 387
Cпасибо сказано: 33
Спасибо получено:
92 раз в 88 сообщениях
Очков репутации: 14

Добавить очки репутацииУменьшить очки репутации
я не знаю, насколько кто-то задумывается об этом при формулировании задач для студентов, но всё-таки, мне кажется, стоит упомянуть, что тест Колмогорова-Смирнова (KS) и (изначальный) тест Манна-Уитни (MWW) были созданы для непрерывных случайных величин. Для последних вероятность получения в (любой, если их несколько) выборке двух абсолютно одинаковых вещественных чисел стремится к нулю.
Поэтому при применении этих непараметрических тестов к экспериментам, в которых имеет место округление результатов, и тем более к выборками из дискретных случайных величин, возникла проблема связанных рангов (по-английски ties) — ситуации, когда в выборках оказываются абсолютно одинаковые числа.

Классический тест Колмогорова-Смирнова вообще с этим работать не умеет. Для ситуации с одной выборкой был создан модифицированный метод, реализованный в редкой (для других "статистических" языков программирования, включая достопочтенных SAS) программной библиотеке KSgeneral для языка R. Но тут у нас две выборки, поэтому он не подойдёт.

Классический тест Манна-Уитни лучше выдерживает связанные ранги и был дополнен поправками, которые позволяют их более-менее учитывать (но при этом уже не рассчитывают значение p точно). Приличные стат. пакеты (я люблю эстетику, изящество и универсальность Питона, но мое мнение, что Python, увы, на данной стадии развития пока в плане статистики, а не машинного обучения, вещь недоработанная, а иногда опасная) об этом предупреждает (потому что человек может не заметить связанного ранга в большой выборке). Эти поправки обычно уже реализованы в программных пакетах.

То, что в выборках нашей задачи есть множество связанных рангов, хорошо видно при сортировке значений.
Пример теста на R без его установки на свой компьютер.

Вывод: для данной ситуации со множеством связанных рангов (модифицированный) текст Манна-Уитни (MWW) существенно предпочтительнее теста Колмогорова-Смирнова (KS) и лучше им пользоваться уже в готовом ожидающем связанные ранги стат.пакете.

P.S. И конечно нельзя считать одновременно валидными значения p, полученные одним и тем же тестом для случайной выборки и её (случайной или неслучайно) подвыборки.

Вернуться к началу
 Профиль  
Cпасибо сказано 
 Заголовок сообщения: Re: Проверить нулевую гипотезу об однородности двух выборок
СообщениеДобавлено: 26 июн 2020, 14:42 
Не в сети
Одарённый
Зарегистрирован:
11 фев 2018, 14:41
Сообщений: 157
Cпасибо сказано: 6
Спасибо получено:
32 раз в 29 сообщениях
Очков репутации: 6

Добавить очки репутацииУменьшить очки репутации
Кстати, в Python-Scipy тест Манна-Уитни "... corrects for ties and by default uses a continuity correction".

Вернуться к началу
 Профиль  
Cпасибо сказано 
 Заголовок сообщения: Re: Проверить нулевую гипотезу об однородности двух выборок
СообщениеДобавлено: 26 июн 2020, 15:33 
Не в сети
Профи
Зарегистрирован:
04 июн 2020, 01:04
Сообщений: 387
Cпасибо сказано: 33
Спасибо получено:
92 раз в 88 сообщениях
Очков репутации: 14

Добавить очки репутацииУменьшить очки репутации
passant писал(а):
Кстати, в Python-Scipy тест Манна-Уитни "... corrects for ties and by default uses a continuity correction".

Да, спасибо! Я немного не об этом. Не о том, что MWW в scipy считает с учётом связанных рангов, а о том, что он не предупреждает (не даёт warning при исполнении), что в выборках есть связанные ранги и что p будет приближенным. Кстати, p в Вашем примере выше неверное, потому что эта функция в scipy по загадочной причине для MWW по дефолту выдает p в два раза меньше, чем в двустороннем тесте (это написано в документации, и это уже deprecated, однако... :%) ) Надо в этой функции либо прописывать атрибут alternative='two-sided' самому, либо умножать дефолтное p на два.

И то же самое для scipy.stats.ks_2samp (тест KS для двух выборок). Он принимает две выборки со связанными рангами (и не давится :crazy: ), не даёт никаких предупреждений и по дефолту считает p точно, а не асимптотически (можете проверить :) ). R в этом случае не только выдает warning, но и принудительно считает асимптотически (это прописано в документации).
Кстати в scipy.stats.ks_2samp и scipy.stats.kstest в документации сказано, что они только для непрерывных случайных величин, но про ties там не сказано ни слова.

Вернуться к началу
 Профиль  
Cпасибо сказано 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему    На страницу Пред.  1, 2  Страница 2 из 2 [ Сообщений: 17 ]

 Похожие темы   Автор   Ответы   Просмотры   Последнее сообщение 
Проверить гипотезу об однородности групп

в форуме Математическая статистика и Эконометрика

I3yDu

1

257

22 дек 2020, 21:19

Проверить нулевую гипотезу о том, что средний вес пакета

в форуме Математическая статистика и Эконометрика

Val_23

1

301

23 ноя 2022, 18:19

Проверить гипотезу

в форуме Теория вероятностей

Ferrari F1

1

408

24 янв 2016, 22:25

Проверить гипотезу

в форуме Математическая статистика и Эконометрика

Ferrari F1

7

549

24 янв 2016, 22:00

Проверить гипотезу о существовании связи

в форуме Математическая статистика и Эконометрика

nevsk

4

211

07 янв 2021, 12:52

Как проверить или опровергнуть гипотезу, используя SPSS?

в форуме Математическая статистика и Эконометрика

Eleno4ka

4

516

27 май 2017, 12:50

Проверить гипотезу, пользуясь критерием Пирсона

в форуме Теория вероятностей

SEA

5

454

03 фев 2016, 17:46

По критерию Пирсона проверить гипотезу о нормальном распред

в форуме Математическая статистика и Эконометрика

rubikona

0

488

22 май 2014, 19:13

Проверить эквивалентность двух систем векторов

в форуме Аналитическая геометрия и Векторная алгебра

N008

4

974

03 янв 2015, 19:37

Задача на проверку гипотезы однородности

в форуме Математическая статистика и Эконометрика

denis_fpmi

0

281

09 дек 2014, 23:16


Часовой пояс: UTC + 3 часа [ Летнее время ]



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 6


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  

Яндекс.Метрика

Copyright © 2010-2023 MathHelpPlanet.com. All rights reserved