Распределение фишера критерий. Функция фишер в excel и примеры ее работы

Критерий Фишера позволяет сравнивать величины выбороч­ных дисперсий двух независимых выборок. Для вычисления F эмп нуж­но найти отношение дисперсий двух выборок, причем так, что­бы большая по величине дисперсия находилась бы в числителе, а меньшая – в знаменателе. Формула вычисления критерия Фи­шера такова:

где - дисперсии первой и второй выборки соответственно.

Так как, согласно условию критерия, величина числителя должна быть больше или равна величине знаменателя, то значе­ние F эмп всегда будет больше или равно единице.

Чис­ло степеней свободы определяется также просто:

k 1 =n l - 1 для первой выборки (т.е. для той выборки, величина дисперсии которой больше) и k 2 = n 2 - 1 для второй выборки.

В Приложе­нии 1 критические значения критерия Фишера находятся по величинам k 1 (верхняя строчка таблицы) и k 2 (левый столбец таблицы).

Если t эмп >t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример 3. В двух третьих классах проводилось тестирование умственного развития по тесту ТУРМШ десяти учащихся. Полученные значения величин средних достоверно не различались, однако психолога интересует вопрос - есть ли различия в степени однородности показателей умственного развития между классами.

Решение. Для критерия Фишера необходимо сравнить дис­персии тестовых оценок в обоих классах. Резуль­таты тестирования представлены в таблице:

Таблица 3.

№№ учащихся

Первый класс

Второй класс

Рассчитав дисперсии для переменных X и Y, получаем:

s x 2 =572,83; s y 2 =174,04

Тогда по формуле (8) для расчета по F критерию Фишера находим:

По таблице из Приложения 1 для F критерия при степенях свободы в обоих случаях равных k=10 - 1 = 9 находим F крит =3,18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иcследователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

6.2 Непараметрические критерии

Сравнивая на глазок (по процентным соотношениям) результаты до и после какого-либо воздействия, исследователь приходит к заключению, что если наблюдаются различия, то имеет место различие в сравниваемых выборках. Подобный подход категорически неприемлем, так как для процентов нельзя определить уровень достоверности в различиях. Проценты, взятые сами по себе, не дают возможности делать статистически достоверные выводы. Чтобы доказать эффективность какого-либо воздействия, необходимо выявить статистически значимую тенденцию в смещении (сдвиге) показателей. Для решения подобных задач исследователь может использовать ряд критериев различия. Ниже будет рассмотрены непараметрические критерии: критерий знаков и критерий хи-квадрат.

Критерий Фишера

Критерий Фишера применяется при проверке гипотезы о равенстве дисперсий двух генеральных совокупностей, распределенных по нормальному закону. Он является параметрическим критерием.

F-критерий Фишера называют дисперсионным отношением, так как он формируется как отношение двух сравниваемых несмещенных оценок дисперсий.

Пусть в результате наблюдений получены две выборки. По ним вычислены дисперсии и , имеющие и степеней свободы. Будем считать, что первая выборка взята из генеральной совокупности с дисперсией , а вторая – из генеральной совокупности с дисперсией . Выдвигается нулевая гипотеза о равенстве двух дисперсий, т.е. H 0:
или . Для того, чтобы отвергнуть эту гипотезу нужно доказать значимость различия при заданном уровне значимости
.

Значение критерия вычисляется по формуле:

Очевидно, что при равенстве дисперсий величина критерия будет равна единице. В остальных случаях она будет больше (меньше) единицы.

Критерий имеет распределение Фишера
. Критерий Фишера – двусторонний критерий, и нулевая гипотеза
отвергается в пользу альтернативной
если . Здесь , где
– объем первой и второй выборки соответственно.

В системе STATISTICA реализован односторонний критерий Фишера, т.е. в качестве всегда берут максимальную дисперсию. В этом случае нулевая гипотеза отвергается в пользу альтернативы , если .

Пример

Пусть поставлена задача, сравнить эффективность обучения двух групп студентов. Уровень успеваемости - характеризует уровень управления процессом обучения, а дисперсия качество управления обучением, степень организованности процесса обучения. Оба показателя являются независимыми и в общем случае должны рассматриваться совместно. Уровень успеваемости (математическое ожидание) каждой группы студентов характеризуется средними арифметическими и , а качество характеризуется соответствующими выборочными дисперсиями оценок: и . При оценке уровня текущей успеваемости оказалось, что он одинаков у обоих учащихся: = = 4,0. Выборочные дисперсии:
и
. Числа степеней свободы, соответствующие этим оценкам:
и
. Отсюда для установления различий в эффективности обучения мы можем воспользоваться стабильностью успеваемости, т.е. проверим гипотезу .

Вычислим
(в числителе должна быть большая дисперсия), . По таблицам (STATISTICA Probability Distribution Calculator ) находим , которое меньше вычисленного, следовательно нулевая гипотеза должна быть отвергнута в пользу альтернативы . Это заключение может не удовлетворить исследователя, поскольку его интересует истинная величина отношения
(у нас в числителе всегда большая дисперсия). При проверке одностороннего критерия получим , что меньше вычисленного выше значения. Итак, нулевая гипотеза должна быть отвергнута в пользу альтернативы .

Критерий Фишера в программе STATISTICA в среде Windows

Для примера проверки гипотезы (критерий Фишера) используем (создаем) файл с двумя переменными (fisher.sta):

Рис. 1. Таблица с двумя независимыми переменными

Чтобы проверить гипотезу необходимо в базовой статистике (Basic Statistics and Tables ) выбрать проверку по Стьюденту для независимых переменных. (t-test, independent, by variables ).

Рис. 2. Проверка параметрических гипотез

После выбора переменных и нажатия на клавишу Summary производится подсчет значений среднеквадратичных отклонений и критерия Фишера. Кроме этого определяется уровень значимости p , при котором различие несущественно.

Рис. 3. Результаты проверки гипотезы (F- критерий)

Используя Probability Calculator и задав значение параметров можно построить график распределения Фишера с пометкой вычисленного значения.

Рис. 4. Область принятия (отклонения) гипотезы (F- критерий)

Источники.

    Проверка гипотез об отношениях двух дисперсий

URL: /tryphonov3/terms3/testdi.htm

    Лекция 6. :8080/resources/math/mop/lections/lection_6.htm

    F – критерий Фишера

URL: /home/portal/applications/Multivariatadvisor/F-Fisheer/F-Fisheer.htm

    Теория и практика вероятностно-статистических исследований.

URL: /active/referats/read/doc-3663-1.html

    F – критерий Фишера

Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью -критерия Фишера:

, (2.22)

где
– факторная сумма квадратов на одну степень свободы;
– остаточная сумма квадратов на одну степень свободы;
– коэффициент (индекс) множественной детерминации;
– число параметров при переменных(в линейной регрессии совпадает с числом включенных в модель факторов); – число наблюдений.

Оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Мерой для оценки включения фактора в модель служит частный
-критерий, т.е..

Частный
-критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом. В общем виде для факторачастный
-критерий определится как

, (2.23)

где
– коэффициент множественной детерминации для модели с полным набором факторов,
– тот же показатель, но без включения в модель фактора,– число наблюдений,
– число параметров в модели (без свободного члена).

Фактическое значение частного
-критерия сравнивается с табличным при уровне значимости
и числе степеней свободы: 1 и
. Если фактическое значение превышает
, то дополнительное включение факторав модель статистически оправданно и коэффициент чистой регрессиипри факторестатистически значим. Если же фактическое значениеменьше табличного, то дополнительное включение в модель факторане увеличивает существенно долю объясненной вариации признака, следовательно, нецелесообразно его включение в модель; коэффициент регрессии при данном факторе в этом случае статистически незначим.

Для двухфакторного уравнения частные
-критерии имеют вид:

,
. (2.23а)

С помощью частного
-критерия можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий факторвводился в уравнение множественной регрессии последним.

-Критерий стьюдента для уравнения множественной регрессии.

Частный
-критерий оценивает значимость коэффициентов чистой регрессии. Зная величину, можно определить и-критерий для коэффициента регрессии при-м факторе,, а именно:

. (2.24)

Оценка значимости коэффициентов чистой регрессии по -критерию Стьюдента может быть проведена и без расчета частных
-критериев. В этом случае, как и в парной регрессии, для каждого фактора используется формула:

, (2.25)

где – коэффициент чистой регрессии при факторе,– средняя квадратическая (стандартная) ошибка коэффициента регрессии.

Для уравнения множественной регрессии средняя квадратическая ошибка коэффициента регрессии может быть определена по следующей формуле:

, (2.26)

где ,– среднее квадратическое отклонение для признака,
– коэффициент детерминации для уравнения множественной регрессии,
– коэффициент детерминации для зависимости факторасо всеми другими факторами уравнения множественной регрессии;
– число степеней свободы для остаточной суммы квадратов отклонений.

Как видим, чтобы воспользоваться данной формулой, необходимы матрица межфакторной корреляции и расчет по ней соответствующих коэффициентов детерминации
. Так, для уравнения
оценка значимости коэффициентов регрессии,,предполагает расчет трех межфакторных коэффициентов детерминации:
,
,
.

Взаимосвязь показателей частного коэффициента корреляции, частного
-критерия и-критерия Стьюдента для коэффициентов чистой регрессии может использоваться в процедуре отбора факторов. Отсев факторов при построении уравнения регрессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением частного коэффициента корреляции, но и по величинами. Частный
-критерий широко используется и при построении модели методом включения переменных и шаговым регрессионным методом.

Для сравнения двух нормально распределенных совокупностей, у которых нет различий в средних выборочных значениях, но есть разница в дисперсиях, используют критерий Фишера . Фактический критерий рассчитывают по формуле:

где в числителе стоит большее значение выборочной дисперсии, а в знаменателе - меньшее. Для вывода о достоверности различий между выборками используют ОСНОВНОЙ ПРИНЦИП проверки статистических гипотез. Критические точки для
содержатся в таблице. Нулевую гипотезу отвергают, если фактически установленная величина
превзойдет или окажется равной критическому (стандартному) значению
этой величины для принятого уровня значимости и числа степеней свободы k 1 = n большая -1 ; k 2 = n меньшая -1 .

П р и м е р: при изучении влияния некоторого препарата на скорость проростания семян было установлено, что в экспериментальной партии семян и контроле средняя скорость проростания одинакова, но есть разница в дисперсиях.
=1250,
=417. Объемы выборок одинаковы и равны 20.

=2,12. Следовательно, нулевая гипотеза отвергается.

Корреляционная зависимость. Коэффициент корреляции и его свойства. Уравнения регрессии.

ЗАДАЧА корреляционного анализа сводится к:

    Установлению направления и формы связи между признаками;

    Измерению ее тесноты.

Функциональной называется однозначная зависимость между переменными величинами, когда определенному значению одной (независимой) переменнойх , называемой аргументом, соответствует определенное значение другой (зависимой) переменнойу , называемой функцией. (Пример : зависимость скорости химической реакции от температуры; зависимость силы притяжения от масс притягивающихся тел и расстояния между ними).

Корреляционной называется зависимость между переменными, имеющими статистистический характер, когда определенному значению одного признака (рассматриваемого в качестве независимой переменной) соответствует целый ряд числовых значений другого признака. (Пример : связь между урожаем и количеством осадков; между ростом и весом и т.д.).

Поле корреляции представляет собой множество точек, координаты которых равны полученным на опыте парам значений переменныхх иу .

По виду корреляционного поля можно судить о наличии или отсутствии связи и ее типе.



Связь называется положительной , если при увеличении одной переменной увеличивается другая переменная.

Связь называется отрицательной , если при увеличении одной переменной уменьшается другая переменная.

Связь называется линейной , если ее можно в аналитическом виде представить как
.

Показателем тесноты связи является коэффициент корреляции . Эмпирический коэффициент корреляции определяется выражением:

Коэффициент корреляции лежит в пределах от -1 до1 и характеризует степень близости между величинамиx иy . Если:


Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида
. Уравнение вида
и
называютсярегрессией . Уравнение прямой регрессииу нах в общем случае можно записать в виде

Уравнение прямой регрессии х нау в общем случае выглядит как

Наиболее вероятные значения коэффициентов а и в , с и d могут быть вычислены, например, при использовании метода наименьших квадратов.

На данном примере рассмотрим, как оценивается надежность полученного уравнение регрессии. Этот же тест используется для проверки гипотезы о том, что коэффициенты регрессии одновременно равны нулю, a=0 , b=0 . Другими словами, суть расчетов - ответить на вопрос: можно ли его использовать для дальнейшего анализа и прогнозов?

Для установления сходства или различия дисперсий в двух выборках используйте данный t-критерий .


Итак, целью анализа является получение некоторой оценки, с помощью которой можно было бы утверждать, что при некотором уровне α полученное уравнение регрессии - статистически надежно. Для этого используется коэффициент детерминации R 2 .
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k 1 =(m) и k 2 =(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:


где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2 (или через функцию Excel FРАСПОБР(вероятность;1;n-2)).
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k 1 =1 и k 2 =48, F табл = 4

Выводы : Поскольку фактическое значение F > F табл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна ) .

Дисперсионный анализ

.

Показатели качества уравнения регрессии

Пример . По совокупности 25 предприятий торговли изучается зависимость между признаками: X - цена на товар А, тыс. руб.; Y - прибыль торгового предприятия, млн. руб. При оценке регрессионной модели были получены следующие промежуточные результаты: ∑(y i -y x) 2 = 46000; ∑(y i -y ср) 2 = 138000. Какой показатель корреляции можно определить по этим данным? Рассчитайте величину этого показателя, на основе этого результата и с помощью F-критерия Фишера сделайте вывод о качестве модели регрессии.
Решение. По этим данным можно определить эмпирическое корреляционное отношение : , где ∑(y ср -y x) 2 = ∑(y i -y ср) 2 - ∑(y i -y x) 2 = 138000 - 46000 = 92 000.
η 2 = 92 000/138000 = 0.67, η = 0.816 (0.7 < η < 0.9 - связь между X и Y высокая).

F-критерий Фишера : n = 25, m = 1.
R 2 = 1 - 46000/138000 = 0.67, F = 0.67/(1-0.67)x(25 - 1 - 1) = 46. F табл (1; 23) = 4.27
Поскольку фактическое значение F > Fтабл, то найденная оценка уравнения регрессии статистически надежна.

Вопрос: Какую статистику используют для проверки значимости модели регрессии?
Ответ: Для значимости всей модели в целом используют F-статистику (критерий Фишера).