Математический форум Math Help Planet
Обсуждение и решение задач по математике, физике, химии, экономике Теоретический раздел |
Часовой пояс: UTC + 3 часа [ Летнее время ] |
новый онлайн-сервис число, сумма и дата прописью |
|
Часовой пояс: UTC + 3 часа [ Летнее время ] |
Страница 2 из 2 |
[ Сообщений: 17 ] | На страницу Пред. 1, 2 |
|
Автор | Сообщение | |
---|---|---|
marina2020 |
|
|
searcher писал(а): marina2020 писал(а): роверить нулевую гипотезу об однородности двух выборок при альтернативной гипотезе F(X)≠F(Y) Так ли я понял, что нам нужно проверить, что две выборки имеют одну и ту же функцию распределения? Причём. к какому классу относится эта функция распределения, нам ничего неизвестно. Тогда естественно воспользоваться непараметическими критериями типа критерия Колмогорова-Смирнова. Спасибо А тут можно воспользоваться критерием Вилкоксона для пункта А)? В интернете нашла) |
||
Вернуться к началу | ||
searcher |
|
|
Почитайте вот это: http://datalearning.ru/study/Courses/mathstat/lections/lection05.pdf . Популярно о разных критериях согласия для проверки однородности.
Критерий Уилкоксона также называется критерием Манна-Уитни. Каким вам критерием воспользоваться лучше - пока не соображу. Вроде как этот критерий легко считается руками, не требует предположения о нормальности, но и не слишком точный. Если наблюдений много, можно воспользоваться компьютером и очевидно, что выборки из нормального распределения, то критерий хи-квадрат Пирсона будет уместен. Предлагаю подождать, может знатоки в тему зайдут. См. также Ивченко, Медведев, "Математическая статистика", глава 3, пар. 4, "Гипотеза однородности". |
||
Вернуться к началу | ||
За это сообщение пользователю searcher "Спасибо" сказали: marina2020 |
||
passant |
|
|
Наш roadmap примерно такой (я буду использовать Python, мне так проще, хотя все воспроизводимо и в EXCEL)
1. Давайте глазками посмотрим на наши наборы from matplotlib import pyplot as plt Полученные графики как бы и сомнения не оставляют в том, что наборы данных у нас не подчиняются нормальному закону распределения(что-то у меня не получается всавить сюда рисунок, но в этом легко убедиться). 2. Для "очистки совести" и что-бы соблюсти общность изложения применим формальные тесты на оприделение соответствии данных нормальному распределению. Тут можно использовать различные критерии. Я применю тест Шапиро-Уилка. from scipy import stats Результаты ожидаемые: (0.8360732793807983, 4.203513526590541e-05) Малое значение p-value (второй элемент каждой пары) подтвержает "ненормальность" выборки. Если очень захотеть, можно применить и другие критерии, а именно - тест д'Аугустино-Пирсона (stats.normaltest(x)) - тест согласия Колмогорова-Смирнова (stats.kstest(x, 'norm')) или любой другой. 3. Итак, наши выборки не соответствуют нормальному закону распределения, при анализа гипотезы об однородности двух выборок придется применять непараметрические тесты. Начнем с теста Манна- Уитни stats.mannwhitneyu(x, y) Результат MannwhitneyuResult(statistic=644.0, pvalue=0.06719986877144166) близкий к граничному и принять или нет гипотезу зависит от того, какой уровень значимости вы определите. Применим тест Комлогорова-Смирнова согласия двух выборок: stats.ks_2samp(x, y) Результат: Ks_2sampResult(statistic=0.225, pvalue=0.2656871402817289) Определенно высокое значение pvalue не дает нам право отклонить нулевую гипотезу. Теперь с загадочным "А) взять из выборки X 14 первых элементов, из выборки Y 23 первых элементов". Предполагаю, что это было дано вам, что-бы показать, как зависят результаты анализа от количества элементов в выборке. Итак, "урезаем" наши данные: x=x[:14] и повторяем последние два теста. Получаем результаты: Ks_2sampResult(statistic=0.43788819875776397, pvalue=0.05077648920922484) Имея такие данные мы бы с большим основанием отклонили бы гипотезу однородности. Вот как-то примерно так. |
||
Вернуться к началу | ||
За это сообщение пользователю passant "Спасибо" сказали: ipgmvq |
||
Talanov |
|
|
marina2020 писал(а): А) взять из выборки X 14 первых элементов, из выборки Y 23 первых элементов Б) X и Y Могу лишь догадываться что случай А) для несвязанных выборок, а Б) для парных. |
||
Вернуться к началу | ||
ipgmvq |
|
|
я не знаю, насколько кто-то задумывается об этом при формулировании задач для студентов, но всё-таки, мне кажется, стоит упомянуть, что тест Колмогорова-Смирнова (KS) и (изначальный) тест Манна-Уитни (MWW) были созданы для непрерывных случайных величин. Для последних вероятность получения в (любой, если их несколько) выборке двух абсолютно одинаковых вещественных чисел стремится к нулю.
Поэтому при применении этих непараметрических тестов к экспериментам, в которых имеет место округление результатов, и тем более к выборками из дискретных случайных величин, возникла проблема связанных рангов (по-английски ties) — ситуации, когда в выборках оказываются абсолютно одинаковые числа. Классический тест Колмогорова-Смирнова вообще с этим работать не умеет. Для ситуации с одной выборкой был создан модифицированный метод, реализованный в редкой (для других "статистических" языков программирования, включая достопочтенных SAS) программной библиотеке KSgeneral для языка R. Но тут у нас две выборки, поэтому он не подойдёт. Классический тест Манна-Уитни лучше выдерживает связанные ранги и был дополнен поправками, которые позволяют их более-менее учитывать (но при этом уже не рассчитывают значение p точно). Приличные стат. пакеты (я люблю эстетику, изящество и универсальность Питона, но мое мнение, что Python, увы, на данной стадии развития пока в плане статистики, а не машинного обучения, вещь недоработанная, а иногда опасная) об этом предупреждает (потому что человек может не заметить связанного ранга в большой выборке). Эти поправки обычно уже реализованы в программных пакетах. То, что в выборках нашей задачи есть множество связанных рангов, хорошо видно при сортировке значений. Пример теста на R без его установки на свой компьютер. Вывод: для данной ситуации со множеством связанных рангов (модифицированный) текст Манна-Уитни (MWW) существенно предпочтительнее теста Колмогорова-Смирнова (KS) и лучше им пользоваться уже в готовом ожидающем связанные ранги стат.пакете. P.S. И конечно нельзя считать одновременно валидными значения p, полученные одним и тем же тестом для случайной выборки и её (случайной или неслучайно) подвыборки. |
||
Вернуться к началу | ||
passant |
|
|
Кстати, в Python-Scipy тест Манна-Уитни "... corrects for ties and by default uses a continuity correction".
|
||
Вернуться к началу | ||
ipgmvq |
|
|
passant писал(а): Кстати, в Python-Scipy тест Манна-Уитни "... corrects for ties and by default uses a continuity correction". Да, спасибо! Я немного не об этом. Не о том, что MWW в scipy считает с учётом связанных рангов, а о том, что он не предупреждает (не даёт warning при исполнении), что в выборках есть связанные ранги и что p будет приближенным. Кстати, p в Вашем примере выше неверное, потому что эта функция в scipy по загадочной причине для MWW по дефолту выдает p в два раза меньше, чем в двустороннем тесте (это написано в документации, и это уже deprecated, однако... ) Надо в этой функции либо прописывать атрибут alternative='two-sided' самому, либо умножать дефолтное p на два. И то же самое для scipy.stats.ks_2samp (тест KS для двух выборок). Он принимает две выборки со связанными рангами (и не давится ), не даёт никаких предупреждений и по дефолту считает p точно, а не асимптотически (можете проверить ). R в этом случае не только выдает warning, но и принудительно считает асимптотически (это прописано в документации). Кстати в scipy.stats.ks_2samp и scipy.stats.kstest в документации сказано, что они только для непрерывных случайных величин, но про ties там не сказано ни слова. |
||
Вернуться к началу | ||
На страницу Пред. 1, 2 | [ Сообщений: 17 ] |
Похожие темы | Автор | Ответы | Просмотры | Последнее сообщение |
---|---|---|---|---|
Проверить гипотезу об однородности групп | 1 |
257 |
22 дек 2020, 21:19 |
|
Проверить нулевую гипотезу о том, что средний вес пакета | 1 |
301 |
23 ноя 2022, 18:19 |
|
Проверить гипотезу
в форуме Теория вероятностей |
1 |
408 |
24 янв 2016, 22:25 |
|
Проверить гипотезу | 7 |
549 |
24 янв 2016, 22:00 |
|
Проверить гипотезу о существовании связи | 4 |
211 |
07 янв 2021, 12:52 |
|
Как проверить или опровергнуть гипотезу, используя SPSS? | 4 |
516 |
27 май 2017, 12:50 |
|
Проверить гипотезу, пользуясь критерием Пирсона
в форуме Теория вероятностей |
5 |
454 |
03 фев 2016, 17:46 |
|
По критерию Пирсона проверить гипотезу о нормальном распред | 0 |
488 |
22 май 2014, 19:13 |
|
Проверить эквивалентность двух систем векторов | 4 |
974 |
03 янв 2015, 19:37 |
|
Задача на проверку гипотезы однородности | 0 |
281 |
09 дек 2014, 23:16 |
Часовой пояс: UTC + 3 часа [ Летнее время ] |
Кто сейчас на конференции |
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 6 |
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения |