Оценка существенности параметров линейной регрессии и всего уравнения в целом. Проверка значимости уравнения регрессии

Для проверки значимости анализируется отношение коэффициента регрессии и его среднеквадратичного отклонения. Это отношение является распределением Стьюдента, то есть для определения значимости используем t – критерий:

- СКО от остаточной дисперсии;

- сумма отклонений от среднего значения

Если t рас. >t таб. , то коэффициент b i является значимым.

Доверительный интервал определяется по формуле:

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ

    Взять исходные данные согласно варианту работы (по номеру студента в журнале). Задан статический объект управления с двумя входами X 1 , X 2 и одним выходом Y . На объекте проведен пассивный эксперимент и получена выборка объемом 30 точек, содержащая значения Х 1 , Х 2 и Y для каждого эксперимента.

    Открыть новый файл в Excel 2007. Ввести исходную информацию в столбцы исходной таблицы - значения входных переменных X 1 , Х 2 и выходной переменной Y .

    Подготовить дополнительно два столбца для ввода расчетных значений Y и остатков.

    Вызвать программу «Регрессия»: Данные/ Анализ данных/ Регрессия.

Рис. 1. Диалоговое окно «Анализ данных».

    Ввести в диалоговое окно «Регрессия» адреса исходных данных:

    входной интервал Y, входной интервал X (2 столбца),

    установить уровень надежности 95%,

    в опции «Выходной интервал, указать левую верхнюю ячейку места вывода данных регрессионного анализа (первую ячейку на 2-странице рабочего листа),

    включить опции «Остатки» и «График остатков»,

    нажать кнопку ОК для запуска регрессионного анализа.

Рис. 2. Диалоговое окно «Регрессия».

    Excel выведет 4 таблицы и 2 графика зависимости остатков от переменных Х1 и Х2 .

    Отформатировать таблицу «Вывод итогов» - расширить столбец с наименованиями выходных данных, сделать во втором столбце 3 значащие цифры после запятой.

    Отформатировать таблицу «Дисперсионный анализ»- сделать удобным для чтения и понимания количество значащих цифр после запятых, сократить наименование переменных и настроить ширину столбцов.

    Отформатировать таблицу коэффициентов уравнения - сократить наименование переменных и скорректировать при необходимости ширину столбцов, сделать удобным для чтения и понимания количество значащих цифр, удалить 2 последних столбца (значения и разметку таблицы).

    Данные из таблицы «Вывод остатка» перенести в подготовленные столбцы исходной таблицы, затем таблицу «Вывод остатка» удалить (опция «специальная вставка»).

    Ввести полученные оценки коэффициентов в исходную таблицу.

    Подтянуть таблицы результатов по максимуму вверх страницы.

    Построить под таблицами диаграммы Y эксп , Y расч и ошибки прогноза (остатка).

    Отформатировать диаграммы остатков. По полученным графикам оценить правильность модели по входам Х1, Х2 .

    Распечатать результаты регрессионного анализа.

    Разобраться с результатами регрессионного анализа.

    Подготовить отчет по работе.

ПРИМЕР ВЫПОЛНЕНИЯ РАБОТЫ

Прием выполнения регрессионного анализа в пакете EXCEL представлен на рисунках 3-5.

Рис. 3. Пример регрессионного анализа в пакете EXCEL.


Рис.4 . Графики остатков переменных Х1, Х2

Рис. 5. Графики Y эксп ,Y расч и ошибки прогноза (остатка).

По данным регрессионного анализа можно сказать:

1. Уравнение регрессии полученное с помощью Excel, имеет вид:

    Коэффициент детерминации:

Вариация результата на 46,5% объясняется вариацией факторов.

    Общий F-критерий проверяет гипотезу о статистической значимости уравнения регрессии. Анализ выполняется при сравнении фактического и табличного значения F-критерия Фишера.

Так как фактическое значение превышает табличное
, то делаем вывод, что полученной уравнение регрессии статистически значимо.

    Коэффициент множественной корреляции:

    b 0 :

t таб. (29, 0.975)=2.05

b 0 :

Доверительный интервал:

    Определяем доверительный интервал для коэффициента b 1 :

Проверка значимости коэффициента b 1 :

t рас. >t таб. , коэффициент b 1 является значимым

Доверительный интервал:

    Определяем доверительный интервал для коэффициентаb 2 :

Проверка значимости для коэффициентаb 2 :

Определяем доверительный интервал:

ВАРИАНТЫ ЗАДАНИЙ

Таблица 2. Варианты заданий

№ варианта

Результативный признак Y i

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 2

Y 2

Y 2

Y 2

Y 2

№ фактора X i

№ фактора X i

Продолжение таблицы 1

№ варианта

Результативный признак Y i

Y 2

Y 2

Y 2

Y 2

Y 2

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

№ фактора X i

№ фактора X i

Таблица 3. Исходные данные

Y 1

Y 2

Y 3

X 1

X 2

X 3

X 4

X 5

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

    Задачи регрессионного анализа.

    Предпосылки регрессионного анализа.

    Основное уравнение дисперсионного анализа.

    Что показывает F- отношение Фишера?

    Как определяется табличное значение критерия Фишера?

    Что показывает коэффициент детерминации?

    Как определить значимость коэффициентов регрессии?

    Как определить доверительный интервал коэффициентов регрессии?

    Как определить расчетные значение t-критерия?

    Как определить табличное значение t-критерия?

    Сформулируйте основную идею дисперсионного анализа, для решения каких задач он наиболее эффективен?

    Каковы основные теоретические предпосылки дисперсионный анализ?

    Произведите разложение общей суммы квадратов отклонений на составляющие в дисперсионном анализе.

    Как получить оценки дисперсий из сумм квадратов отклонений?

    Как получаются необходимые числа степеней свободы?

    Как определяется стандартная ошибка?

    Поясните схему двухфакторного дисперсионного анализа.

    Чем отличается перекрестная классификация от иерархической классификации?

    Чем отличаются сбалансированные данные?

Отчет оформляется в текстовом редакторе Word на бумаге формата А4 ГОСТ 6656-76 (210х297 мм) и содержит:

    Название лабораторной работы.

    Цель работы.

  1. Результаты вычисления.

ВРЕМЯ, ОТВЕДЕННОЕ НА ВЫПОЛНЕНИЕ

ЛАБОРАТОРНОЙ РАБОТЫ

Подготовка к работе – 0,5 акад. часа.

Выполнение работы – 0,5 акад. часа.

Расчеты на ЭВМ – 0,5 акад. часа.

Оформление работы – 0,5 акад. часа.

ЛитЕратура

    Идентификация объектов управления. / А. Д. Семенов, Д. В. Артамонов, А. В. Брюхачев. Учебное пособие. - Пенза: ПГУ, 2003. - 211 с.

    Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTIC и EXCEL. / Вуколов Э.А. Учебное пособие. - М.: ФОРУМ, 2008. - 464 с.

    Основы теории идентификации объектов управления. / А.А. Игнатьев, С.А. Игнатьев. Учебное пособие. - Саратов: СГТУ, 2008. - 44 с.

    Теория вероятности и математическая статистика в примерах и задачах с применением EXCEL. / Г.В. Горелова, И.А. Кацко. - Ростов н/Д: Феникс, 2006.- 475 с.

    Цель работы 2

    Основные понятия 2

    Порядок выполнения работы 6

    Пример выполнения работы 9

    Вопросы для самоконтроля 13

    Время, отведенное на выполнение работы 14

    После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

    Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, коэффициент регрессии равен нулю, то есть b=0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную» (приложение 2).

    Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества причин. Условно всю совокупность причин можно разделить на две группы:

    • · изучаемый фактор х
    • · прочие факторы

    Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси охи у = y. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

    Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, то есть регрессией у по х, так и вызванный действием прочих величин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на результат у. Это равносильно тому, что коэффициент детерминации r 2 xy будет приближаться к единице.

    Любая сумма квадратов отклонений связана с числом степеней свободы (df - degrees of freedom), то есть с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных [(y 1 -y), (y 2 -y),…,(y n -y)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов?(y-y) 2 требуется (n-1) независимых отклонений.

    При расчете объясненной или факторной суммы квадратов?(y x -y) 2 используются теоретические (расчетные) значения результативного признака y x , найденные по линии регрессии: y x =а+b*x.

    В линейной регрессии сумма квадратов отклонений, обусловленных линейной регрессией, составит: ?(y x -y) 2 =b 2 *?(x -x) 2 .

    Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К тому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака у, то есть y x . Величина y x определяется по уравнению линейной регрессии: y x =а+b*x. Параметр а можно определить как: a=y-b*x. Подставив выражение параметра а в линейную модель получим:

    y x = y-b*x+b*x= y-b*(х-х).

    Отсюда видно, что при заданном наборе переменных у и х расчетное значение y x является в линейной регрессии функцией только одного параметра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

    Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку используется средняя вычисленная по данным выборки, то теряем одну степень свободы, то есть df общ = n-1.

    Итак, имеется два равенства:

    ?(у-у) 2 =?(y x -у) 2 +?(у- y x) 2 ,

    Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

    D общ =?(у-у) 2 /(n-1);

    D факт =?(y x -у) 2 /1;

    D ост =?(у- y x) 2 /(n-1).

    Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерия):

    F= D факт / D ост, где

    F - критерий для проверки нулевой гипотезы Н 0: D факт =D ост.

    Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н 0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

    Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различимом числе степеней свободы.

    Табличное значение F-критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

    Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного.

    В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: F факт >F табл. Н 0 отклоняется.

    Если же величина окажется меньше табличной F факт

    Оценку качества модели дает коэффициент детерминации. Коэффициент детерминации (R 2) -- это квадрат множественного коэффициента корреляции.

    Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.

    Формула для вычисления коэффициента детерминации:

    y i -- выборочные данные, а f i -- соответствующие им значения модели.

    Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

    Коэффициент принимает значения из интервала . Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

    В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R 2 = r 2 .

    Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока) (приложение 3).

    Функциональная связь возникает при значении равном 1, а отсутствие связи -- 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

    Проверку значимости уравнения регрессии произведем на основе

    F-критерия Фишера:

    Значение F-критерия Фишера можно найти в таблице Дисперсионный анализ протокола Еxcel. Табличное значение F-критерия при доверительной вероятности α = 0,95 и числе степеней свободы, равном v1 = k = 2 и v2 = n – k – 1= 50 – 2 – 1 = 47, составляет 0,051.

    Поскольку Fрасч > Fтабл, уравнение регрессии следует признать значимым, то есть его можно использовать для анализа и прогнозирования.

    Оценку значимости коэффициентов полученной модели, используя результаты отчета Excel, можно осуществить тремя способами.

    Коэффициент уравнения регрессии признается значимым в том случае, если:

    1) наблюдаемое значение t-статистики Стьюдента для этого коэффициента больше, чем критическое (табличное) значение статистики Стьюдента (для заданного уровня значимости, например α = 0,05, и числа степеней свободы df = n – k – 1, где n – число наблюдений, а k – число факторов в модели);

    2) Р-значение t-статистики Стьюдента для этого коэффициента меньше, чем уровень значимости, например, α = 0,05;

    3) доверительный интервал для этого коэффициента, вычисленный с некоторой доверительной вероятностью (например, 95%), не содержит ноль внутри себя, то есть нижняя 95% и верхняя 95% границы доверительного интервала имеют одинаковые знаки.

    Значимость коэффициентов a 1 и a 2 проверим по второму и третьему способам:

    P-значение (a 1 ) = 0,00 < 0,01 < 0,05.

    Р-значение (a 2 ) = 0,00 < 0,01 < 0,05.

    Следовательно, коэффициенты a 1 и a 2 значимы при 1%-ном уровне, а тем более при 5%-ном уровне значимости. Нижние и верхние 95% границы доверительного интервала имеют одинаковые знаки, следовательно, коэффициенты a 1 и a 2 значимы.

    Определение объясняющей переменной, от которой

    Может зависеть дисперсия случайных возмущений.

    Проверка выполнения условия гомоскедастичности

    Остатков по тесту Гольдфельда–Квандта

    При проверке предпосылки МНК о гомоскедастичности остатков в модели множественной регрессии следует вначале определить, по отношению к какому из факторов дисперсия остатков более всего нарушена. Это можно сделать в результате визуального исследования графиков остатков, построенных по каждому из факторов, включенных в модель. Та из объясняющих переменных, от которой больше зависит дисперсия случайных возмущений, и будет упорядочена по возрастанию фактических значений при проверке теста Гольдфельда–Квандта. Графики легко получить в отчете, который формируется в результате использования инструмента Регрессия в пакете Анализ данных).

    Графики остатков по каждому из факторов двухфакторной модели

    Из представленных графиков видно, что дисперсия остатков более всего нарушена по отношению к фактору Краткосрочная дебиторская задолженность.

    Проверим наличие гомоскедастичности в остатках двухфакторной модели на основе теста Гольдфельда–Квандта.

      Упорядочим переменные Y и X2 по возрастанию фактора Х4 (в Excel для этого можно использовать команду Данные – Сортировка по возрастанию Х4):

      Данные, отсортированные по возрастанию X4:

    1. Уберем из середины упорядоченной совокупности С = 1/4 · n = 1/4 · 50 = 12,5 (12) значения. В результате получим две совокупности соответственно с малыми и большими значениями Х4.

      Для каждой совокупности выполним расчеты:

    Сумма

    111234876536,511

    966570797682,068

    455748832843,413

    232578961097,877

    834043911651,192

    193722998259,505

    1246409153509,290

    31419681912489,100

    2172804245053,280

    768665257272,099

    2732445494273,330

    163253156450,331

    18379855056009,900

    10336693841766,000

    Сумма

    69977593738424,600

    Уравнения для совокупностей

    Y = -27275,746 + 0,126X2 + 1,817 X4

    Y = 61439,511 + 0,228X2 + 0,140X4

    Результаты данной таблицы получены с помощью инструмента Регрессия поочередно к каждой из полученных совокупностей.

    4. Найдем отношение полученных остаточных сумм квадратов

    (в числителе должна быть большая сумма):

    5. Вывод о наличии гомоскедастичности остатков делаем с помощью F-критерия Фишера с уровнем значимости α = 0,05 и двумя одинаковыми степенями свободы k1 = k2 = == 17

    где р – число параметров уравнения регрессии:

    Fтабл (0,05; 17; 17) = 9,28.

    Так как Fтабл > R ,то подтверждается гомоскедастичность в остатках двухфакторной регрессии.

    100 р бонус за первый заказ

    Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

    Узнать цену

    После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров . Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации : Средняя ошибка аппроксимации не должна превышать 8–10%.

    Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера , которому предшествует дисперсионный анализ. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения y раскладывается на две части – «объясненную» и «необъясненную»: где – общая сумма квадратов отклонений; – сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов. Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -критерия Фишера: Фактическое значение F -критерия Фишера сравнивается с

    табличным значением F табл(a; k 1; k 2) при уровне значимости a и степенях свободы k 1 = m и k 2= n -m -1.При этом, если фактическое значение F - критерия больше табличного, то признается статистическая значимость уравнения в целом.

    Для парной линейной регрессии m =1, поэтому

    Величина F -критерия связана с коэффициентом детерминации R2 ее можно рассчитать по следующей формуле:

    В парной линейной регрессии оценивается значимость не только уравнения в целом, но и отдельных его параметров . С этой целью по каждому из параметров определяется его стандартная ошибка: m b и m a . Стандартная ошибка коэффициента регрессии определяется по формуле:, где

    Величина стандартной ошибки совместно с t –распределением Стьюдента при n -2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительного интервала. Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t -критерия Стьюдента: которое затем сравнивается с табличным значением при определенном уровне значимости a и числе степеней свободы (n-2). Доверительный интервал для коэффициента регрессии определяется как b ± t табл ×mb . Поскольку знак коэффициента регрессии указывает на рост результативного признака y при увеличении признака-фактора x (b >0), уменьшение результативного признака при увеличении признака-фактора (b <0) или его независимость от независимой переменной (b =0), то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -1,5 £ b £ 0,8. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

    Стандартная ошибка параметра a определяется по формуле: Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии. Вычисляется t -критерий: , его величина сравнивается с табличным значением при n - 2 степенях свободы.


    Парная регрессия представляет собой регрессию между двумя переменными

    -у и х, т.е. модель вида + Е

    Где у - результативный признак,т.е зависимая переменная; х - признак-фактор.

    Линейная регрессия сводится к нахождению уравнения вида или

    Уравнение вида позволяет по заданным значениям фактора x иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х.

    Построение линейной регрессии сводится к оценке ее пара­метров а и в.

    Оценки параметров линейной регрессии могут быть найдены разными методами.

    1.

    2.

    Параметр b называется коэффициентом регрессии . Его вели­чина показывает

    среднее изменение результата с изменением фактора на одну единицу.

    Формально а - значение у при х = 0. Если признак-фактор

    не имеет и не может иметь нулевого значения, то вышеуказанная

    трактовка свободного члена, а не имеет смысла. Параметр, а может

    не иметь экономического содержания. Попытки экономически

    интерпретировать параметр, а могут привести к абсурду, особенно при а < 0.

    Интерпретировать можно лишь знак при параметре а. Если а > 0,

    то относительное изменение результата происходит медленнее, чем изменение

    проверка качества найденных параметров и всей модели в целом:

    -Оценка значимости коэффициента регрессии (b) и коэффициента корреляции

    -Оценка значимости всего уравнения регрессии. Коэффициент детерминации

    Уравнение регрессии всегда дополняется показателем тесноты связи. При

    использовании линейной регрессии в качестве такого показателя выступает

    линейный коэффициент корреляции r xy . Существуют разные

    модификации формулы линейного коэф­фициента корреляции.

    Линейный коэффициент корреляции находится и границах: -1≤.r xy

    ≤ 1. При этом чем ближе r к 0 тем слабее корреляция и наоборот чем

    ближе r к 1 или -1, тем сильнее корреляция, т.е. зависимость х и у близка к

    линейной. Если r в точности =1или -1 все точки лежат на одной прямой.

    Если коэф. регрессии b>0 то 0 ≤.r xy ≤ 1 и

    наоборот при b<0 -1≤.r xy ≤0. Коэф.

    корреляции отражает степени линейной зависимости м/у величинами при наличии

    ярко выраженной зависимости др. вида.

    Для оценки качества подбора линейной функции рассчитывается квадрат линейного

    коэффициента корреляции

    Называемый коэффициентом детерминации. Коэффициент детермина­ции

    характеризует долю дисперсии результативного признака y, объясняемую

    регрессией. Соответствующая величина

    характеризует долю дисперсии у, вызванную влиянием остальных не учтенных

    в модели факторов.

    МНК позволяет получить такие оценки параметров а и b, которых

    сумма квадратов отклонений фактических значений ре­зультативного признака

    (у) от расчетных (теоретических)

    ми­нимальна:

    Иными словами, из

    всего множества линий линия регрессии на графике выбирается так, чтобы сумма

    квадратов расстояний по вертикали между точками и этой линией была бы

    минималь­ной.

    Решается система нормальных уравнений

    ОЦЕНКА СУЩЕСТВЕННОСТИ ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИИ.

    Оценка значимости уравнения регрессии в целом дается с по­мощью F-критерия

    Фишера. При этом выдвигается нулевая ги­потеза, что коэффициент регрессии равен

    нулю, т. е. b = 0, и следовательно, фактор х не оказывает

    влияния на результат у.

    Непосредственному расчету F-критерия предшествует анализ дисперсии.

    Центральное место в нем занимает разложе­ние общей суммы квадратов отклонений

    переменной у от средне го значения у на две части -

    «объясненную» и «необъясненную»:

    Общая сумма квадратов отклонений

    Сумма квадратов

    отклонения объясненная регрессией

    Остаточная сумма квадратов отклонения.

    Любая сумма квадратов отклонений связана с числом степе­ней свободы, т.

    е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности nис числом определяемых по ней констант. Применительно к исследуемой проблеме число cтепеней свободы должно показать, сколько независимых откло­нений из п возможных требуется для

    образования данной суммы квадратов.

    Дисперсия на одну степень свободы D.

    F-отношения (F-критерий):

    Ecли нулевая гипотеза справедлива, то факторная и остаточная дисперсии не

    отличаются друг от друга. Для Н 0 необходимо опровержение, чтобы

    факторная дисперсия превышала остаточную в несколько раз. Английским

    статистиком Снедекором раз­работаны таблицы критических значений F-отношений

    при разных уровнях существенности нулевой гипотезы и различном числе степеней

    свободы. Табличное значение F-критерия - это максимальная величина отношения

    дисперсий, которая может иметь место при случайном их расхождении для данного

    уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения

    признается достоверным, если о больше табличного. В этом случае нулевая

    гипотеза об отсутствии связи признаков отклоняется и делается вывод о

    существенности этой связи: F факт > F табл Н 0

    отклоняется.

    Если же величина окажется меньше табличной F факт ‹, F табл

    То вероятность нулевой гипотезы выше заданного уровня и она не может быть

    отклонена без серьезного риска сделать неправильный вывод о наличии связи. В

    этом случае уравнение регрессии считается статистически незначимым. Н о

    не отклоняется.


    Похожая информация.