Проверка значимости уравнения регрессии. Оценка значимости уравнения регрессии и его коэффициентов

ТЕМА 4. СТАТИСТИЧЕСКИЕ МЕТОДЫ ИЗУЧЕНИЯ СВЯЗЕЙ

Уравнение регрессии - этоаналитическое представление корреляционной зависимости. Уравнение регрессии описывает гипотетическую функциональную зависимость между условным средним значением результативного признака и значением признака – фактора (факторов), т.е. основную тенденцию зависимости.

Парная корреляционная зависимость описывается уравнением парной регрессии, множественная корреляционная зависимость – уравнением множественной регрессии.

Признак-результат в уравнении регрессии – это зависимая переменная (отклик, объясняемая переменная), а признак-фактор – независимая переменная (аргумент, объясняющая переменная).

Простейшим видом уравнения регрессии является уравнение парной линейной зависимости:

где y – зависимая переменная (признак-результат); x – независимая переменная (признак-фактор); и – параметры уравнения регрессии; - ошибка оценивания.

В качестве уравнения регрессии могут быть использованы различные математические функции. Частое практическое применение находят уравнения линейной зависимости, параболы, гиперболы, степной функции и др.

Как правило, анализ начинается с оценки линейной зависимости, поскольку результаты легко поддаются содержательной интерпретации. Выбор типа уравнения связи – достаточно ответственный этап анализа. В «докомпьютерную» эпоху эта процедура была сопряжена с определенными сложностями и требовала от аналитика знания свойств математических функций. В настоящее время на базе специализированных программ можно оперативно построить множество уравнений связи и на основе формальных критериев осуществить выбор лучшей модели (однако математическая грамотность аналитика не утратила своей актуальности).

Гипотезу о типе корреляционной зависимости можно выдвинуть по результатам построения поля корреляции (см. лекцию 6). Исходя из характера расположения точек на графике (координаты точек соответствуют значениям зависимой и независимой переменных), выявляется тенденция связи между признаками (показателями). Если линия регрессии проходит через все точки поля корреляции, то эта свидетельствует о функциональной связи. В практике социально-экономических исследований такую картину наблюдать не приходится, поскольку присутствует статистическая (корреляционная) зависимость. В условиях корреляционной зависимости при нанесении линии регрессии на диаграмму рассеивания наблюдается отклонение точек поля корреляции от линии регрессии, что демонстрирует, так называемые, остатки или ошибки оценивания (см. рисунок 7.1).

Наличие ошибки уравнения связано с тем, что:

§ не все факторы, влияющие на результат, учитываются в уравнении регрессии;

§ может быть неверно выбранаформа связи - уравнение регрессии;

§ не все факторы включены в уравнение.

Построить уравнение регрессии – означает рассчитать значения его параметров. Уравнение регрессии строится на основе фактических значений анализируемых признаков. Расчет параметров, как правило, выполняется с использованием метода наименьших квадратов (МНК).

Суть МНК состоит в том, что удается получить такие значения параметров уравнения, при которых минимизируется сумма квадратов отклонений теоретических значений признака-результата (рассчитанных на основе уравнения регрессии), от фактических его значений:

,

где - фактическое значение признака-результата у i-й единицы совокупности; - значение признака-результата у i-й единицы совокупности, полученное по уравнению регрессии ().

Т.о., решается задача на экстремум, то есть необходимо найти, при каких значениях параметров, функция S достигает минимума.

Проводя дифференцирование, приравнивая частные производные нулю:



, (7.3)

, (7.4)

где - среднее произведение значений фактора и результата; - среднее значение признака - фактора; - среднее значение признака -результата; - дисперсия признака-фактора.

Параметр в уравнении регрессии характеризует угол наклона линии регрессии на графике. Этот параметр называют коэффициентом регрессии и его величина характеризует, на сколько единиц своего измерения изменится признак-результат при изменении признака-фактора на единицу своего измерения. Знак при коэффициенте регрессии отражает направленность зависимости (прямая или обратная) и совпадает со знаком коэффициента корреляции (в условиях парной зависимости).

В рамках рассматриваемого примера, в программе STATISTICA рассчитаны параметры уравнения регрессии, описывающего зависимость между уровнем среднедушевых денежных доходов населения и величиной валового регионального продукта на душу населения в регионах России, см. таблицу 7.1.

Таблица 7.1 - Расчет и оценка параметров уравнения, описывающего зависимостьмежду уровнем среднедушевых денежных доходов населения и величиной валового регионального продукта на душу населения в регионах России, 2013 г.

В графе "В" таблицы содержатся значения параметров уравнения парной регрессии, следовательно, можно записать: = 13406,89 + 22,82 x.Данное уравнение описывает тенденцию связи между анализируемыми характеристиками. Параметр - это коэффициент регрессии. В данном случае он равен 22,82 и характеризует следующее: при увеличении ВРП на душу населения на 1 тыс.рублей среднедушевые денежные доходы в среднем возрастают (на что указывает знак "+") на 22,28 руб.

Параметр уравнения регрессии в социально-экономических исследованиях, как правило, содержательно не интерпретируется. Формально он отражает величину признака - результата при условии, что признак - фактор равен нулю. Параметр характеризует расположение линии регрессии на графике, см. рисунок 7.1.

Рисунок 7.1 - Поле корреляции и линия регрессии, отражающие зависимость уровня среднедушевых денежных доходов населения в регионах России и величины ВРП на душу населения

Значение параметра соответствует точке пересечения линии регрессии с осью Y, при X=0.

Построение уравнения регрессии сопровождается оценкой статистической значимости уравнения в целом и его параметров. Необходимость таких процедур связана с ограниченным объемом данных, что может препятствовать действию закона больших чисел и, следовательно, выявлению истинной тенденции во взаимосвязи анализируемых показателей. Кроме того, любую исследуемую совокупность можно рассматривать как выборку из генеральной совокупности, а характеристики, полученные в ходе анализа, как оценку генеральных параметров.

Оценка статистической значимости параметров и уравнения в целом – это обоснование возможности использования построенной модели связи для принятия управленческих решений и прогнозирования (моделирования).

Статистическая значимость уравнения регрессии в целом оценивается с использованием F-критерия Фишера , который представляет собой отношение факторной и остаточных дисперсий, рассчитанных на одну степень свободы:

где - факторная дисперсия признака - результата; k – число степеней свободы факторной дисперсии (число факторов в уравнении регрессии); - среднее значение зависимой переменной; - теоретическое (полученной по уравнению регрессии) значение зависимой переменной у i – й единицы совокупности; - остаточная дисперсии признака - результата; n – объем совокупности; n-k-1 – число степеней свободы остаточной дисперсии.

Величина F-критерия Фишера, согласно формуле, характеризует соотношение между факторной и остаточной дисперсиями зависимой переменной, демонстрируя, по существу, во сколько раз величина объясненной части вариации превышает необъясненную.

F-критерий Фишера табулирован, входом в таблицу является число степеней свободы факторной и остаточной дисперсий. Сравнение расчетного значения критерия с табличным (критическим) позволяет ответить на вопрос: статистически значима ли та часть вариации признака-результата, которую удается объяснить факторами, включенными в уравнение данного вида. Если , то уравнение регрессии признается статистически значимым и, соответственно, статистически значим и коэффициент детерминации. В противном случае (), уравнение – статистически незначимо, т.е. вариация учтенных в уравнении факторов не объясняет статистически значимой части вариации признака-результата, либо не верно выбрано уравнение связи.

Оценка статистической значимости параметров уравнения осуществляется на основе t-статистики , которая рассчитывается как отношение модуля параметров уравнения регрессии к их стандартным ошибкам ():

, где ; (7.6)

, где ; (7.7)

где - стандартные отклонения признака - фактора и признака - результата; - коэффициент детерминации.

В специализированных статистических программах расчет параметров всегда сопровождается расчетом значений их стандартных (среднеквадратических) ошибок и t-статистики (см. таблицу 7.1). Расчетное значение t-статистики сравнивается с табличным, если объем изучаемой совокупности менее 30 единиц (безусловно малая выборка), следует обратиться к таблице t- распределения Стьюдента, если объем совокупности большой, следует воспользоваться таблицей нормального распределения (интеграла вероятностей Лапласа). Параметр уравнения признается статистически значимым, если.

Оценка параметров на основе t-статистики, по существу, является проверкой нулевой гипотезы о равенстве генеральных параметров нулю (H 0: =0; H 0: =0;), то есть о статистически не значимой величине параметров уравнения регрессии. Уровень значимости гипотезы, как правило, принимается: = 0,05. Если расчетный уровень значимости меньше 0,05 , то нулевая гипотеза отвергается и принимается альтернативная - о статистической значимости параметра.

Продолжим рассмотрение примера. В таблице 7.1 в графе «B» приведены значения параметров, в графе Std.Err.ofB - величины стандартных ошибок параметров (), в графе t(77 – число степеней свободы) рассчитаны значения t - статистики с учетом числа степеней свободы. Для оценки статистической значимости параметров расчетные значения t - статистик необходимо сравнить с табличным значением. Заданному уровню значимости (0,05) в таблице нормального распределения соответствует t = 1,96. Поскольку 18,02, 10,84, т.е. , следует признать статистическую значимость полученных значений параметров, т.е. эти значения сформированы под влиянием не случайных факторов и отражают тенденцию связи между анализируемыми показателями.

Для оценки статистической значимости уравнения в целом обратимся к значению F-критерия Фишера (см. таблицу 7.1). Расчетное значение F-критерия = 117,51, табличное значение критерия, исходя из соответствующего числа степеней свободы (для факторной дисперсии d.f. =1, для остаточной дисперсииd.f. =77), равно 4,00 (см. приложение.....). Таким образом, , следовательно, уравнение регрессии в целом статистически значимо. В такой ситуации можно говорить и о статистической значимости величины коэффициента детерминации, т.е. вариация среднедушевых доходов населения в регионах России на 60 процентов может быть объяснена вариацией объемов валового регионального продукта на душу населения.

Проводя оценку статистической значимости уравнения регрессии и его параметров, можем получить различное сочетание результатов.

· Уравнение по F-критерию статистически значимо и все параметры уравнения по t-статистике тоже статистически значимы. Данное уравнение может быть использовано как для принятия управленческих решений (на какие факторы следует воздействовать, чтобы получить желаемый результат), так и для прогнозирования поведения признака-результата при тех или иных значениях факторов.

· По F-критерию уравнение статистически значимо, но незначимы параметры (параметр) уравнения. Уравнение может быть использовано для принятия управленческих решений (касающихся тех факторов, по которым получено подтверждение статистической значимости их влияния), но уравнение не может быть использовано для прогнозирования.

· Уравнение по F-критерию статистически незначимо. Уравнение не может быть использовано. Следует продолжить поиск значимых признаков-факторов или аналитической формы связи аргумента и отклика.

Если подтверждена статистическая значимость уравнения и его параметров, то может быть реализован, так называемый, точечный прогноз, т.е. получена оценка значения признака-результата (y) при тех или иных значениях фактора (x).

Совершенно очевидно, что прогнозное значение зависимой переменной, рассчитанное на основе уравнения связи, не будет совпадать с фактическим ее значением ().Графически эта ситуация подтверждается тем, что не все точки поля корреляции лежат на линии регрессии,лишь при функциональной связи линия регрессии пройдет через все точки диаграммы рассеивания. Наличие расхождений между фактическими и теоретическими значениями зависимой переменной связано, прежде всего, с самой сутью корреляционной зависимости:одновременно на результат воздействует множество факторов, из которых только часть может быть учтена в конкретном уравнении связи. Кроме того, может быть неверно выбрана форма связи результата и фактора (тип уравнения регрессии). В связи с этим возникает вопрос, насколько информативно построенное уравнение связи. На этот вопрос отвечают два показателя: коэффициент детерминации (о нем уже говорилось выше) и стандартная ошибка оценивания.

Разность между фактическими и теоретическими значениями зависимой переменной называют отклонениями или ошибками, или остатками . На основе этих величин рассчитывается остаточная дисперсия. Квадратный корень из остаточной дисперсии и является среднеквадратической (стандартной) ошибкой оценивания:

= (7.8)

Стандартная ошибка уравнения измеряется в тех же единицах, что и прогнозируемый показатель. Если ошибки уравнения подчиняются нормальному распределению (при больших объемах данных), то 95 процентов значений должны находиться от линии регрессии на расстоянии, не превышающем 2S (исходя из свойства нормального распределения - правила трех сигм). Величина стандартной ошибки оценивания используется при расчете доверительных интервалов при прогнозировании значения признака - результата для конкретной единицы совокупности.

В практических исследованиях часто возникает необходимость в прогнозе среднего значения признака - результата при том или ином значении признака - фактора. В этом случае в расчете доверительного интервала для среднего значения зависимой переменной()

учитывается величина средней ошибки:

(7.9)

Использование разных величин ошибок объясняется тем, что изменчивость уровней показателей у конкретных единиц совокупности гораздо выше, чем изменчивость среднего значения, следовательно, ошибка прогноза среднего значения меньше.

Доверительный интервал прогноза среднего значения зависимой переменной:

, (7.10)

где - предельная ошибка оценки (см. теорию выборки); t – коэффициент доверия, значение которого находится в соответствующей таблице, исходя из принятого исследователем уровня вероятности (числа степеней свободы) (см. теорию выборки).

Доверительный интервал для прогнозируемого значения признака-результата может быть рассчитан и с учетом поправки на смещение (сдвиг) линии регрессии. Величина поправочного коэффициента определяется:

(7.11)

где - значение признака-фактора, исходя из которого, прогнозируется значение признака-результата.

Отсюда следует, что чем больше значение отличается от среднего значения признака-фактора, тем больше величина корректирующего коэффициента, тем больше ошибка прогноза. С учетом данного коэффициента доверительный интервал прогноза будет рассчитываться:

На точность прогноза на основе уравнения регрессии могут влиять разные причины. Прежде всего, следует учитывать, что оценка качества уравнения и его параметров проводится, исходя из предположения о нормальном распределении случайных остатков. Нарушение этого допущения может быть связано с наличием резко отличающихся значений в данных, с неравномерной вариацией, с наличием нелинейной зависимости. В этом случае качество прогноза снижается. Второй момент, о котором следует помнить, - значения факторов, учитываемые при прогнозировании результата, не должны выходить за пределы размаха вариации данных, на основе которых построено уравнение.

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2018-01-08

После оценки индивидуальной статистической значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость коэффициентов, т.е. всего уравнения в целом. Такой анализ осуществляется на основе проверки гипотезы об общей значимости гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:

H 0: b 1 = b 2 = ... = b m = 0.

Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных Х 1 , Х 2 , ..., Х m модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравнения регрессии – невысоким.

Проверка данной гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсии.

Н 0: (объясненная дисперсия) = (остаточная дисперсия),

H 1: (объясненная дисперсия) > (остаточная дисперсия).

Строится F-статистика:

где – объясненная регрессией дисперсия;

– остаточная дисперсия (сумма квадратов отклонений, поделённая на число степеней свободы n-m-1). При выполнении предпосылок МНК построенная F-статистика имеет распределение Фишера с числами степеней свободы n1 = m, n2 = n–m–1. Поэтому, если при требуемом уровне значимости a F набл > F a ; m ; n - m -1 = F a (где F a ; m ; n - m -1 - критическая точка распределения Фишера), то Н 0 отклоняется в пользу Н 1 . Это означает, что объяснённая регрессией дисперсия существенно больше остаточной дисперсии, а следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной Y. Если F набл < F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значимости коэффициента детерминации R 2:



Н 0: R 2 > 0.

Для проверки данной гипотезы используется следующая F-статистика:

. (8.20)

Величина F при выполнении предпосылок МНК и при справедливости H 0 имеет распределение Фишера, аналогичное распределению F-статистики (8.19). Действительно, разделив числитель и знаменатель дроби в (8.19) на общую сумму квадратов отклонений и зная, что она распадается на сумму квадратов отклонений, объяснённую регрессией, и остаточную сумму квадратов отклонений (это является следствием, как будет показано позже, системы нормальных уравнений)

,

мы получим формулу (8.20):

Из (8.20) очевидно, что показатели F и R 2 равны или не равны нулю одновременно. Если F = 0, то R 2 = 0, и линия регрессии Y = является наилучшей по МНК, и, следовательно, величина Y линейно не зависит от Х 1 , Х 2 , ..., Х m . Для проверки нулевой гипотезы Н 0: F = 0 при заданном уровне значимости a по таблицам критических точек распределения Фишера находится критическое значение F кр = F a ; m ; n - m -1 . Нулевая гипотеза отклоняется, если F > F кр. Это равносильно тому, что R 2 > 0, т.е. R 2 статистически значим.

Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R 2 не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.

Пусть, например, при оценке регрессии с двумя объясняющими переменными X 1 i , X 2 i по 30 наблюдениям R 2 = 0,65. Тогда

F набл = =25,07.

По таблицам критических точек распределения Фишера найдем F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Поскольку F набл = 25,07 > F кр как при 5%–м, так и при 1%–м уровне значимости, то нулевая гипотеза в обоих случаях отклоняется.

Если в той же ситуации R 2 = 0,4, то

F набл = = 9.

Предположение о незначимости связи отвергается и здесь.

Отметим, что в случае парной регрессии проверка нулевой гипотезы для F-статистики равносильна проверке нулевой гипотезы для t-статистики

коэффициента корреляции. В этом случае F-статистика равна квадрату t-статистики. Самостоятельную значимость коэффициент R 2 приобретает в случае множественной линейной регрессии.

8.6. Дисперсионный анализ для разложения общей суммы квадратов отклонений. Степени свободы для соответствующих сумм квадратов отклонений

Применим изложенную выше теорию для парной линейной регрессии.

После того, как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом даётся с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т.е. b = 0, и, следовательно, фактор х не оказывает влияния на результат у.

Непосредственному расчёту F-критерия предшествует анализ дисперсии. Центральное место в нём занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части – “объяснённую” и “необъяснённую”:

Уравнение (8.21) является следствием системы нормальных уравнений, выведенных в одной предыдущих тем.

Доказательство выражения (8.21).

Осталось доказать, что последнее слагаемое равно нулю.

Если сложить от 1 до n все уравнения

y i = a+b×x i +e i , (8.22)

то получим åy i = a×å1+b×åx i +åe i . Так как åe i =0 и å1 =n, то получим

Тогда .

Если же вычесть из выражения (8.22) уравнение (8.23), то получим

В результате получим

Последние суммы равны нулю в силу системы двух нормальных уравнений.

Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения вызвана влиянием множества причин. Условно разделим всю совокупность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор на оказывает никакого влияния на результат, то линия регрессии параллельна оси OX и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то у связана с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объяснённая регрессией, совпадает с общей суммой квадратов.

Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, т.е. регрессией у по х, так и вызванный действием прочих причин (необъяснённая вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объяснённую вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на признак у. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Любая сумма квадратов связана с числом степеней свободы (df – degrees of freedom), с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов требуется (n-1) независимых отклонений, ибо по совокупности из n единиц после расчёта среднего свободно варьируют лишь (n-1) число отклонений. Например, мы имеем ряд значений у: 1,2,3,4,5. Среднее из них равно 3, и тогда n отклонений от среднего составят: -2, -1, 0, 1, 2. Так как , то свободно варьируют лишь четыре отклонения, а пятое отклонение может быть определено, если предыдущие четыре известны.

При расчёте объяснённой или факторной суммы квадратов используются теоретические (расчётные) значения результативного признака

Тогда сумма квадратов отклонений, обусловленных линейной регрессии, равна

Поскольку при заданном объёме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от константы регрессии b, то данная сумма квадратов имеет только одну степень свободы.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммой квадратов отклонений. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы общей суммы квадратов определяется числом единиц варьируемых признаков, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. df общ. = n–1.

Итак, имеем два равенства:

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

;

;

.

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим величину F-критерия Фишера

где F-критерий для проверки нулевой гипотезы H 0: D факт = D ост.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для H 0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при различных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признаётся достоверным, если оно больше табличного. Если F факт > F табл, то нулевая гипотеза H 0: D факт = D ост об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи.

Если F факт < F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

В рассматриваемом примере из главы 3:

= 131200 -7*144002 = 30400 – общая сумма квадратов;

1057,878*(135,43-7*(3,92571) 2) = 28979,8 – факторная сумма квадратов;

=30400-28979,8 = 1420,197 – остаточная сумма квадратов;

D факт = 28979,8;

D ост = 1420,197/(n-2) = 284,0394;

F факт =28979,8/284,0394 = 102,0274;

F a =0,05; 2; 5 =6,61; F a =0,01; 2; 5 = 16,26.

Поскольку F факт > F табл как при 1%-ном, так и при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

Величина F-критерия связана с коэффициентом детерминации . Факторную сумму квадратов отклонений можно представить как

,

а остаточную сумму квадратов – как

.

Тогда значение F-критерия можно выразить как

.

Оценка значимости регрессии обычно даётся в виде таблицы дисперсионного анализа

, его величина сравнивается с табличным значением при определённом уровне значимости α и числе степеней свободы (n-2).
Источники вариации Число степеней свободы Сумма квадратов отклонений Дисперсия на одну степень свободы F-отношение
фактическое Табличное при a=0,05
Общая
Объяснённая 28979,8 28979,8 102,0274 6,61
Остаточная 1420,197 284,0394

В социально-экономических исследованиях часто приходится работать в условиях ограниченной совокупности, либо с выборочными данными. Поэтому после математических параметров уравнение регрессии необходимо оценить их и уравнение в целом на статистическую значимость, т.е. необходимо убедиться, что полученное уравнение и его параметры сформированы под влиянием неслучайных факторов.

Прежде всего, оценивается статистическая значимость уравнения в целом. Оценка, как правило, проводится с использованием F-критерия Фишера. Расчет F-критерия базируется на правиле сложения дисперсий. А именно, общего дисперсионного признака-результата = дисперсия факторная + дисперсия остаточная.

Фактическая цена

Теоретическая цена
Построив уравнение регрессии можно рассчитать теоретическое значение признака-результата, т.е. рассчитанные по уравнению регрессии с учетом его параметров.

Эти значения будут характеризовать признак-результат, сформировавшийся под влиянием факторов включенных в анализ.

Между фактическими значениями признака-результата и рассчитанными на основе уравнения регрессии всегда существуют расхождения (остатки), обусловленные влиянием прочих факторов, не включенных в анализ.

Разность между теоретическими и фактическими значениями признака-результата называется остатками. Общая вариация признака-результата:

Вариация по признаку-результату, обусловленная вариацией признаков факторов, включенных в анализ оценивается через сопоставления теоретических значений резул. признака и его средних значений. Остаточная вариация через сопоставление теоретических и фактических значений результатирующего признака. Общая дисперсия , остаточная и фактическая имеют разное число степеней свободы.

Общая , п - число единиц в изучаемой совокупности

Фактическая , п - число факторов, включенных в анализ

Остаточная

F-критерий Фишера рассчитывается как отношение к , причем рассчитаны на одну степень свободы.

Использование F-критерия Фишера в качестве оценки статистической значимости уравнения регрессии очень логично. - это результат. признака, обусловленная факторами включенными в анализ, т.е. это доля объясненной результат. признака. - это (вариация) признака результата обусловленная факторами влияние которых не учитывается, т.е. не включенными в анализ.

Т.о. F-критерий призван оценить значимое превышение над . Если несущественно ниже , а тем более, если оно превышает , следовательно, в анализ включены не те факторы, которые действительно влияют на признак-результат.

F-критерий Фишера табулирован, фактическое значение сравнивается с табличным. Если , то уравнение регрессии признается статистически значимым. Если наоборот – уравнение статистически не значимо и не может использоваться на практике, значимость уравнения в целом говорит о статистической значимости показателей корелляции.

После оценки уравнения в целом необходимо оценить статистическую значимость параметров уравнения. Эта оценка осуществляется с использованием t-статистики Стьюдента. t-статистика рассчитывается как отношение параметров уравнения (по модулю) к их стандартной средней квадратической ошибке. Если оценивается однофакторная модель, то рассчитывается 2 статистики.

Во всех компьютерных программах расчет стандартной ошибки и t-статистики для параметров проводится с расчетом самих параметров. T-статистика табулирована. Если значение , то параметр признается статистически значимым, т.е. сформированным под влиянием неслучайных факторов.

Расчет t-статистики по существу означает проверку нулевой гипотезы о незначимости параметра, т.е. равенстве его нулю. При однофакторной модели оценивается 2 гипотезы: и

Уровень значимости принятия нулевой гипотезы зависит от уровня принятой доверительной вероятности. Так если исследователь задает уровень вероятности 95%, уровень значимости принятия будет рассчитываться , следовательно, если уровень значимости ≥ 0,05, то принимается и параметры считаются статистически незначимыми. Если , то отвергается и принимается альтернатива: и .

В пакетах прикладных программ по статистике также приводится уровень значимости принятия нулевых гипотез. Оценка значимости уравнения регрессии и его параметров может дать следующие результаты:

Во-первых, уравнение в целом значимо(по F-критерию) и также статистически значимы все параметры уравнения. Это означает, что полученное уравнение может быть использовано как для принятия управленческих решений, так и для прогнозирования.

Во-вторых, по F-критерию уравнение статистически значимо, но не значим хотя бы один из параметров уравнения. Уравнение может быть использовано для принятия управленческих решений относительно анализируемых факторов, но не может быть использовано для прогнозирования.

В-третьих, уравнение статистически не значимо, либо по F- критерию уравнение значимо, но не значимы все параметры полученного уравнения. Уравнение не может быть использовано не для каких целей.

Чтобы уравнение регрессии можно было признать моделью связи между признаком-результатом и признаками-факторами необходимо чтобы в него были включены все важнейшие факторы, определяющие результат, чтобы содержательная интерпретация параметров уравнения соответствовала теоретически обоснованным связям в изучаемом явлении. Коэффициент детерминации R 2 должен быть > 0,5.

При построении множественного уравнения регрессии целесообразно осуществить оценку по так называемому скорректированному коэффициенту детерминации (R 2). Величина R 2 (как и корелляции) возрастает при увеличение числа факторов включенных в анализ. Особенно завышается значение коэф-в в условиях небольших совокупностей. С целью погасить отрицательное влияние R 2 и корелляции корректируют с учетом числа степеней свободы, т.е. числа свободно варьирующих элементов при включении определенных факторов.

Скорректированный коэф-т детерминации

п –объем совокупности/число наблюдений

k – число факторов включенных в анализ

п-1 – число степеней свободы

(1-R 2) - величина остатка/ необъясненной дисперсии результативного признака

Всегда меньше R 2 . на основе можно сравнивать оценки уравнений с разным числом анализируемых факторов.

34. Задачи изучения динамических рядов.

Ряды динамики называют временными рядами или динамическими рядами. Динамический ряд – это упорядоченная во времени последовательность показателей, характеризующих то или иное явление (объем ВВП с 90 по 98 гг). Целью изучения рядов динамики является выявление закономерности развития изучаемого явления (основной тенденции) и прогнозирование на этой основе. Из определения РД следует, что любой ряд состоит из двух элементов: время t и уровень ряда (те конкретные значения показателя, на основе которого построен ДРяд). ДРяды могут быть 1)моментными – ряды, показатели которых фиксируются на момент времени, на определенную дату, 2)интервальными – ряды, показатели которого получают за какой-то период времени (1.численность населения СПб, 2.объем ВВП за период). Разделение рядов на моментные и интервальные необходимо, поскольку это определяет специфику расчета некоторых показателей ДРядов. Суммирование уровней интервальных рядов дает содержательно интерпретируемый результат, что нельзя сказать о суммировании уровней моментных рядов, поскольку последние содержат повторный счет. Важнейшей проблемой в анализе рядов динамики является проблема сопоставимости уровней ряда. Это понятие очень разноплановое. Уровни должны быть сопоставимы по методам расчета и по территории и охвату единиц совокупности. Если ДРяд строится в стоимостных показателях, то все уровни должны быть представлены или рассчитаны в сопоставимых ценах. При построении интервальных рядов уровни должны характеризовать одинаковые отрезки времени. При построении моментных РядовД уровни должны фиксироваться на одну и ту же дату. ДРяды могут быть полными и неполными. Неполные ряды используются в официальных изданиях (1980,1985,1990,1995,1996,1997,1998,1999…). Комплексный анализ РД включает изучение следующих моментов:

1. расчет показателей изменения уровней РД

2. расчет средних показателей РД

3. выявление основной тенденции ряда, построение трендовых моделей

4. оценка автокорреляции в РД, построение авторегрессионных моделей

5. корреляция РД (изучение связей м/у ДРядами)

6. прогнозирование РД.

35. Показателей изменения уровней временных рядов .

В общем виде РядД может быть представлен:

у – уровень ДР, t – момент или период времени к которому относится уровень (показатель), n – длина ДРяда (число периодов). при изучении ряда динамики рассчитывают следующие показатели: 1. абсолютный прирост, 2. коэффициент роста (темп роста), 3. ускорение, 4. коэффициент прироста (темп прироста), 5. абсолютное значение 1 % прироста. Рассчитываемые показатели могут быть: 1. цепные – получают путем сопоставления каждого уровня ряда с непосредственно предшествующим, 2. базисные – получают путем сопоставления с уровнем, выбранным за базу сравнения (если специально не оговаривается, за базу берется 1ый уровень ряда). 1. Цепные абсолютные приросты: . Показывает на сколько больше или меньше . Цепные абсолютные приросты называют показателями скорости изменения уровней динамического ряда. Базисный абсолютный прирост : . Если уровни ряда представляют собой относительные показатели, выраженные в %-ах, то абсолютный прирост выражается в пунктах изменения. 2. коэффициент роста (темпы роста): Рассчитывается как отношение уровней ряда к непосредственно предшествующим (цепные коэффициенты роста), либо к уровню, принятому за базу сравнения (базисные коэффициенты роста): . Характеризует во сколько раз каждый уровень ряда > или < предшествующего или базисного. На основе коэффициентов роста рассчитываются темпы роста. Это коэффициенты роста, выраженные в %ах: 3. на основе абсолютных приростов рассчитывают показатель – ускорение абсолютных приростов : . Ускорение – абсолютный прирост абсолютных приростов. Оценивает как изменяются сами приросты, они стабильны или принимают ускорение (возрастают). 4. темп прироста – это отношение прироста к базе сравнения. Выражается в %-ах: ; . Темп прироста – это темп роста минус 100%. Показывает на сколько % данный уровень ряда > или < предшествующего либо базисного. 5. абсолютное значение 1% прироста. Рассчитывается как отношение абсолютного прироста к темпу прироста, т.е.: - сотая доля предыдущего уровня. Все эти показатели рассчитываются для оценки степени изменения уровней ряда. Цепные коэффициенты и темпы роста называются показателями интенсивности изменения уровней ДРядов.

2. Расчет средних показателей РД Рассчитывают средние уровни рядов, средние абсолютные приросты, средние темпы роста и средние темпы прироста. Средние показатели рассчитываются с целью обобщения информации и возможности сравнивать уровни и показатели их изменения по различным рядам. 1. средний уровень ряда а) для интервальных временных рядов рассчитывается по средней арифметической простой: , где n – число уровней во временном ряду; б) для моментных рядов средний уровень рассчитывается по специфической формуле, которая называется средней хронологической: . 2. средний абсолютный прирост рассчитывается на основе цепных абсолютных приростов по средней арифметической простой:

. 3. Средний коэффициент роста рассчитывается на основе цепных коэффициентов роста по формуле средней геометрической: . При комментарии средних показателей ДРядов необходимо указывать 2 момента: период, который характеризует анализируемый показатель и временной интервал, за который построен ДРяд. 4. Средний темп роста : . 5. средний темп прироста : .

Оценка значимости уравнения множественной регрессии

Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей задачей эконометрического анализа является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки.

Итак, проверка статистического качества оцененного уравнения регрессии проводится по следующим направлениям:

· проверка значимости уравнения регрессии;

· проверка статистической значимости коэффициентов уравнения регрессии;

· проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок МНК).

Проверка значимости уравнения множественной регрессии, так же как и парной регрессии, осуществляется с помощью критерия Фишера. В данном случае (в отличие от парной регрессии) выдвигается нулевая гипотеза Н 0 о том, что все коэффициенты регрессии равны нулю (b 1 =0, b 2 =0, … , b m =0). Критерий Фишера определяется по следующей формуле:

где D факт - факторная дисперсия, объясненная регрессией, на одну степень свободы; D ост - остаточная дисперсия на одну степень свободы; R 2 - коэффициент множественной детерминации; т х в уравнении регрессии (в парной линейной регрессии т = 1); п - число наблюдений.

Полученное значение F-критерия сравнивается с табличным при определенном уровне значимости. Если его фактическое значение больше табличного, тогда гипотеза Но о незначимости уравнения регрессии отвергается, и принимается альтернативная гипотеза о его статистической значимости.

С помощью критерия Фишера можно оценить значимость не только уравнения регрессии в целом, но и значимость дополнительного включения в модель каждого фактора. Такая оценка необходима для того, чтобы не загружать модель факторами, не оказывающими существенного влияния на результат. Кроме того, поскольку модель состоит из несколько факторов, то они могут вводиться в нее в различной последовательности, а так как между факторами существует корреляция, значимость включения в модель одного и того же фактора может различаться в зависимости от последовательности введения в нее факторов.

Для оценки значимости включения дополнительного фактора в модель рассчитывается частный критерий Фишера F xi . Он построен на сравнении прироста факторной дисперсии, обусловленного включением в модель дополнительного фактора, с остаточной дисперсией на одну степень свободы по регрессии в целом. Следовательно, формула расчета частного F-критерия для фактора будет иметь следующий вид:

где R 2 yx 1 x 2… xi … xp - коэффициент множественной детерминации для модели с полным набором п факторов; R 2 yx 1 x 2… x i -1 x i +1… xp - коэффициент множественной детерминации для модели, не включающей фактор x i ; п - число наблюдений; т - число параметров при факторах x в уравнении регрессии.

Фактическое значение частного критерия Фишера сравнивается с табличным при уровне значимости 0,05 или 0,1 и соответствующих числах степеней свободы. Если фактическое значение F xi превышает F табл , то дополнительное включение фактора x i в модель статистически оправдано, и коэффициент «чистой» регрессии b i при факторе x i статистически значим. Если же F xi меньше F табл , то дополнительное включение в модель фактора существенно не увеличивает долю объясненной вариации результата у, и, следовательно, его включение в модель не имеет смысла, коэффициент регрессии при данном факторе в этом случае статистически незначим.

С помощью частного критерия Фишера можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор x i вводится в уравнение множественной регрессии последним, а все остальные факторы были уже включены в модель раньше.

Оценка значимости коэффициентов «чистой» регрессии b i по критерию Стьюдента t может быть проведена и без расчета частных F -критериев. В этом случае, как и при парной регрессии, для каждого фактора применяется формула

t bi = b i / m bi ,

где b i - коэффициент «чистой» регрессии при факторе x i ; m bi - стандартная ошибка коэффициента регрессии b i .

Проверить значимость параметров уравнения регрессии можно, используя t-статистику .

Задание:
По группе предприятий, выпускающих один и тот же вид продукции, рассматриваются функции издержек:
y = α + βx;
y = α x β ;
y = α β x ;
y = α + β / x;
где y – затраты на производство, тыс. д. е.
x – выпуск продукции, тыс. ед.

Требуется:
1. Построить уравнения парной регрессии y от x:

  • линейное;
  • степенное;
  • показательное;
  • равносторонней гиперболы.
2. Рассчитать линейный коэффициент парной корреляции и коэффициент детерминации . Сделать выводы.
3. Оценить статистическую значимость уравнения регрессии в целом.
4. Оценить статистическую значимость параметров регрессии и корреляции.
5. Выполнить прогноз затрат на производство при прогнозном выпуске продукции, составляющем 195 % от среднего уровня.
6. Оценить точность прогноза, рассчитать ошибку прогноза и его доверительный интервал.
7. Оценить модель через среднюю ошибку аппроксимации.

Решение :

1. Уравнение имеет вид y = α + βx
1. Параметры уравнения регрессии.
Средние значения

Дисперсия

Среднеквадратическое отклонение

Коэффициент корреляции

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

Коэффициент детерминации
R 2 = 0.94 2 = 0.89, т.е. в 88.9774 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая

x y x 2 y 2 x ∙ y y(x) (y-y cp) 2 (y-y(x)) 2 (x-x p) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
... ... ...

2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
T табл (n-m-1;α/2) = (11;0.05/2) = 1.796
Поскольку Tнабл > Tтабл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим.

Анализ точности определения оценок коэффициентов регрессии





S a = 0.1712
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-20.41;56.24)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика


Статистическая значимость коэффициента регрессии a подтверждается

Статистическая значимость коэффициента регрессии b не подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(a - t S a ; a + t S a)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
где t = 1.796
2) F-статистики


Fkp = 4.84
Поскольку F > Fkp, то коэффициент детерминации статистически значим