Понятие о множественной регрессии. классическая линейная модель множественной регрессии (клммр)

1. Введение…………………………………………………………………….3

1.1. Линейная модель множественной регрессии……………………...5

1.2. Классический метод наименьших квадратов для модели множественной регрессии…………………………………………..6

2. Обобщенная линейная модель множественной регрессии……………...8

3. Список использованной литературы…………………………………….10

Введение

Временной ряд - это совокупность значений какого-либо показателя за несколько последовательных моментов (периодов) времени. Каждый уровень временного ряда формируется под воздействием большой числа факторов, которые условно можно подразделить на три группы:

Факторы, формирующую тенденцию ряда;

Факторы, формирующие циклические колебания ряда;

Случайные факторы.

При различных сочетаниях этих факторов зависимость уров­ней рада от времени может принимать разные формы.

Большинство временных рядов экономических показателей имеют тенденцию, характеризующую совокупное долговременное воздействие множества факторов на динамику изучаемого показателя. По всей видимости, эти факторы, взятые в отдельности, могут оказывать разнонаправленное воздействие на исследуемый показатель. Однако в совокупности они форми­руют его возрастающую или убывающую тенденцию.

Также изучаемый показатель может быть подвержен циклическим колебаниям. Эти колебания могут носить сезон­ный характер., поскольку экономическая деятельность ряда от­раслей зависит от времени года (например, цены на сельскохо­зяйственную продукцию в летний период выше, чем в зимний; уровень безработицы в курортных городах в зимний период выше по сравнению с летним). При наличии больших массивов данных за длительные промежутки времени можно выявить циклические колебания, связанные с общей динамикой конъюнктуры рынка, а также с фазой бизнес-цикла, в которой находится экономика страны.

Некоторые временные ряды не содержат тенденции и цикли­ческую компоненту, а каждый следующий их уровень образуется как сумма среднего уровня рада и некоторой (положительной или отрицательной) случайной компоненты.

Очевидно, что реальные данные не соответствуют полностью ни одной из описанных выше моделей. Чаще всего они содержат все три компоненты. Каждый их уровень формируется под воз­действием тенденции, сезонных колебаний и случайной компо­ненты.

В большинстве случаев фактический уровень временного ря­да можно представить как сумму или произведение трендовой, циклической и случайной компонент. Модель, в которой времен­ной ряд представлен как сумма перечисленных компонент, назы­вается аддитивной моделью временного ряда. Модель, в которой временной ряд представлен как произведение перечисленных компонент, называется мультипликативной моделью временного ряда.


1.1. Линейная модель множественной регрессии

Парная регрессия может дать хороший результат при моделирова­нии, если влиянием других факторов, воздействующих на объект исследо­вания, можно пренебречь. Если же этим влиянием пренебречь нельзя, то в этом случае следует попытаться выявить влияние других факторов, вводя их в модель, т.е, построить уравнение множественной регрессии.

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов экономет­рики. В настоящее время множественная регрессия - один из наиболее распространенных методов в эконометрике.

Основная цель множественной регрессии - построить модель с боль­шим числом факторов, определив при этом влияние каждого из них в отдель­ности, а также совокупное их воздействие на моделируемый показатель.

Общий вид линейной модели множественной регрессии:

где n - объём выборки, который по крайней мере в 3 раза превосходит m -количество независимых переменных;

у i - значение результативной пере­менной в наблюдении I;

х i1 ,х i2 , ...,х im -значения независимых перемен­ных в наблюдении i;

β 0 , β 1 , … β m -параметры уравнения регрессии, под­лежащие оценке;

ε - значение случайной ошибки модели множественной регрессии в наблюдении I,

При построении модели множественной линейной регрессии учиты­ваются следующие пять условий:

1. величины х i1 ,х i2 , ...,х im - неслучайные и независимые переменные;

2. математическое ожидание случайной ошибки уравнения регрессии
равно нулю во всех наблюдениях: М (ε) = 0, i= 1,m;

3. дисперсия случайной ошибки уравнения регрессии является постоянной для всех наблюдений: D(ε) = σ 2 = const;

4. случайные ошибки модели регрессии не коррелируют между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю): соv(ε i ,ε j .) = 0, i≠j;

5. случайная ошибка модели регрессии - случайная величина, подчиняющаяся нормальному закону распределения с нулевым математическим ожиданием и дисперсией σ 2 .

Матричный вид линейной модели множественной регрессии:

где: - вектор значений результативной переменной размерности n×1

матрица значений независимых переменных размерности n× (m + 1). Первый столбец этой матрицы является единичным, так как в модели регрессии коэффициент β 0 , умножается на единицу;

Вектор значений результативной переменной размерности (m+1)×1

Вектор случайных ошибок размерности n×1

1.2. Классический метод наименьших квадратов для модели множественной регрессии

Неизвестные коэффициенты линейной модели множественной рег­рессии β 0 , β 1 , … β m оцениваются с помощью классического метода наи­меньших квадратов, основная идея которого заключается в определении такого вектора оценки Д, который минимизировал бы сумму квадратов отклонений наблюдаемых значений результативной переменной у от мо­дельных значений (т. е. рассчитанных на основании построенной моде­ли регрессии).

Как известно из курса математического анализа, для того чтобы най­ти экстремум функции нескольких переменных, надо вычислить частные производные первого порядка по каждому из параметров и приравнять их к нулю.

Обозначив b i с соответствующими индексами оценки коэффициентов модели β i , i=0,m, имеет функцию m+1 аргумента.

После элементарных преобразований приходим к системе линейных нормальных уравнений для нахождения оценок параметров линейного уравнения множественной регрессии.

Полученная система нормальных уравнений является квадратной, т. е. количество уравнений равняется количеству неизвестных переменных, поэтому решение системы можно найти с помощью метода Крамера или метода Гаусса,

Решением системы нормальных уравнений в матричной форме будет вектор оценок.

На основе линейного уравнения множественной регрессии могут быть найдены частные уравнения регрессии, т. е. уравнения регрессии, которые связывают результативный признак с соответствующим фактором х i при закреплении остальных факторов на среднем уровне.

При подстановке в эти уравнения средних значений соответствую­щих факторов они принимают вид парных уравнений линейной регрессии.

В отличие от парной регрессии, частные уравнения регрессии харак­теризуют изолированное влияние фактора на результат, ибо другие факто­ры закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности:

где b i - коэффициент регрессии для фактора x i ; в уравнении множествен­ной регрессии,

у х1 хm - частное уравнение регрессии.

Наряду с частными коэффициентами эластичности могут быть най­дены средние по совокупности показатели эластичности. которые показывают, на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%. Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе из воздействия на результат.

2. Обобщенная линейная модель множественной регрессии

Коренное отличие обобщенной модели от классической состоит только в виде ковариационной квадратной матрицы вектора возмущений: вместо матрицы Σ ε = σ 2 E n для классической модели имеем матрицу Σ ε = Ω для обобщенной. Последняя имеет произвольные значения ковариаций и дисперсий. Например, ковариационные матрицы классической и обобщенной моделей для двух наблюдений (п=2) в общем случае будут иметь вид:

Формально обобщенная линейная модель множественной регрессии (ОЛММР) в матричной форме имеет вид:

Y = Xβ + ε (1)

и описывается системой условий:

1. ε – случайный вектор возмущений с размерностью n; X -неслучайная матрица значений объясняющих переменных (матрица плана) с размерностью nх(р+1); напомним, что 1-й столбец этой матрицы состоит из пединиц;

2. M(ε) = 0 n – математическое ожидание вектора возмущений равно ноль-вектору;

3. Σ ε = M(εε’) = Ω, где Ω – положительно определенная квадратная матрица; заметим, что произведение векторов ε‘ε дает скаляр, а произведение векторов εε’ дает матрицу размерностью nxn;

4. Ранг матрицы X равен р+1, который меньше n; напомним, что р+1 - число объясняющих переменных в модели (вместе с фиктивной переменной), n - число наблюдений за результирующей и объясняющими переменными.

Следствие 1. Оценка параметров модели (1) обычным МНК

b = (X’X) -1 X’Y (2)

является несмещенной и состоятельной, но неэффективной (неоптимальной в смысле теоремы Гаусса-Маркова). Для получения эффективной оценки нужно использовать обобщенный метод наименьших квадратов.

Основной целью множественной регрессии является построение модели с большим числом факторов и определение при этом влияния каждого из факторов в отдельности на результат, а так же определение совокупного воздействия факторов на моделированный показатель.

Спецификация модели множественной регрессии включает в себя отбор фактора и выбор вида математической функции (выбор вида уравнения регрессии). Факторы, включаемые во множественную регрессию должны быть количественно измеримы и не должны быть интеркоррелированы и тем более находиться в точной функциональной связи (т.е. должны в меньшей степени влиять друг на друга, а в большей степени на результативный признак).

Включаемые во множественную регрессию факторы должны объяснять вариацию независимой переменной. Например, если строится модель с набором - факторов, то для нее находится значение показателя детерминации , который фиксирует долю объясненной вариации результативного признака за счет - факторов.

Влияние других неучтенных факторов в модели оценивается как соответствующей остаточной дисперсии .

При включении в модель дополнительного фактора значение показателя детерминации должно возрастать, а значение остаточной дисперсии должно уменьшиться. Если этого не происходит, то дополнительный фактор не улучшает модель и практически является лишним, причем введение такого фактора может привести к статистической не значимости параметров регрессии по - критерию Стьюдента.

Отбор факторов для множественной регрессии осуществляется в две стадии:

1. Подбираются факторы, исходя из сущности проблемы.

2. На основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты корреляции между объясняющими переменными , которые еще называют коэффициентами интеркорреляции, позволяют исключить из модели дублирующие факторы.

Две переменные и называют явно коллинеарными, если коэффициент корреляции .

Если переменные явно коллинеарны, то они находятся в сильной линейной зависимости.



При наличии явно коллинеарных переменных предпочтение отдается не фактору более тесно связанному с результатом, а фактору, который при этом имеет наименьшую тесноту связи с другими факторами.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллениарность факторов.

При использовании множественной регрессии может возникнуть мультиколлениарность фактов, т.е. более чем два фактора связаны между собой линейной зависимостью. В таких случаях менее надежным становится МНК при оценке отдельных факторов, результатом чего становится затруднение интерпретации параметров множественной регрессии как характеристик действия фактора в чистом виде. Параметры линейной регрессии теряют экономический смысл, оценки параметров ненадежны, возникают большие стандартные ошибки, которые при этом могут изменяться с изменением объема наблюдений, т.е. модель становится непригодной для анализа и прогнозирования экономической ситуации. Для оценки мультиколлениарности фактора используют следующие методы:

1. Определение матрицы парных коэффициентов корреляции между факторами, например, если задана линейная модель множественной регрессии , то определитель матрицы парных коэффициентов примет вид:

Если значение данного определителя равно 1

,

то факторы являются неколлинеарными между собой.

Если между факторами существует полная линейная зависимость, то все коэффициенты парной корреляции равны 1, в результате чего

.

2. Метод испытания гипотезы о независимости переменных. В этом случае нулевая гипотеза , доказано, что величина имеет приближенное распределение с числом степеней свободы .

Если , то нулевая гипотеза отклоняется.

Определяя и сравнивая между собой коэффициенты множественной детерминации фактора, используя в качестве зависимой переменной последовательно каждой из факторов можно определить факторы, ответственные за мультиколлениарность, т.е. фактор с наибольшим значением величины .

Существуют следующие способы преодоления сильной межфакторной корреляции:

1) исключение из модели одного или несколько данных;

2) преобразование факторов для уменьшения корреляции;

3) совмещение уравнения регрессии, которые будут отражать не только факторы, но и их взаимодействие;

4) переход уравнения приведенной формы и др.

При построении уравнения множественной регрессии одним из важнейших этапов является отбор факторов, включаемых в модель. Различные подходы к отбору факторов на основе показателей корреляции к различным методам, среди которых наиболее применимы:

1) Метод исключения – производится отсев данных;

2) Метод включения – вводят дополнительный фактор;

3) Шаговый регрессионный анализ – исключают ранее введенный фактор.

При отборе факторов применяют следующее правило: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится модель.

Параметр не подлежит экономической интерпретации. В степенной модели нелинейное уравнение множественной регрессии коэффициенты , ,…, являются коэффициентами эластичности, которые показывают насколько, в среднем, изменится результат при изменении соответствующего фактора на 1% при неизменном воздействии остальных факторов.

4.1. Матричная форма регрессионной модели

Экономическое явление определяется большим числом одновременно и совокупно действующих факторов. Модель множественной регрессии запишется так:

Модель линейной множественной регрессии можно записать в матричной форме, имея в виду, что коэффициенты α и β заменены их оценками.

Матрица X T X – неособенная и её ранг равен её размеру, то есть (р +1).

4.2. Отбор факторов для моделей множественной регрессии

Факторы, включаемые в модель, должны существенным образом объяснить вариацию результативной переменной.

Существует ряд способов отбора факторов, наибольшее распространение из которых имеют метод короткой регрессии и метод длинной регрессии.

При использовании метода короткой регрессии в начале в модель включают только наиболее важные факторы с экономически содержательной точки зрения.

С этим набором факторов строится модель и для неё определяются показатели качества ESS , R 2 , F , t a , t bj . Затем в модель добавляется следующий фактор и вновь строится модель. Проводится анализ, улучшилась или ухудшилась модель по совокупности критериев. При этом возможно появление парето – оптимальных альтернатив.

Метод длинной регрессии предполагает первоначальное включение в модель всех подозрительных на существенность факторов. Затем какой-либо фактор исключают из модели и анализируют изменение её качества. Если качество улучшится, фактор удаляют и наоборот. При отборе факторов следует обращать внимание на наличие интеркорреляции и мультиколлинеарности.

Сильная корреляция между двумя факторами (интеркорреляция) не позволяет выявить изолированное влияние каждого из них на результативную переменную, то есть затрудняется интерпретация параметров регрессии и они утрачивают истинный экономический смысл. Оценки значений этих параметров становятся ненадёжными и будут иметь большие стандартные ошибки. При изменении объёма наблюдений они могут сильно изменяться, причём не только по величине, но даже и по знаку.

Мультиколлинеарность – явление, когда сильной линейной зависимостью связаны более двух переменных; она приводит к тем же негативным последствиям, о которых только что было сказано. Поэтому, при отборе факторов следует избегать наличия интеркорреляции и, тем более, мультиколлинеарности.

Для обнаружения интеркорреляции и мультиколлинеарности можно использовать анализ матрицы парных коэффициентов корреляции [r (п) ], матрицы межфакторной корреляции [r (11) ] и матрицы частных коэффициентов корреляции [r (ч) ].

Для исключения одного из двух сильно коррелирующих между собой факторов можно руководствоваться таким соображением: из модели бывает целесообразно убрать не тот фактор, который слабее связан с y , а тот, который сильнее связан с другими факторами. Это приемлемо, если связь с y для обоих факторов приблизительно одинакова. При этом возможно наличие парето – оптимальных альтернатив и тогда следует рассмотреть иные аргументы в пользу того или иного фактора.


Матрица [r (11) ] – получается путём вычёркивания первого столбца и первой строки из матрицы [r (п) ].

Матрица [r (11) ] – квадратная и неособенная, ее элементы вычисляются так:

Представляется интересным исследовать определитель det [r (11) ].

Если есть сильная мультиколлинеарность, то почти все элементы этой матрицы близки к единице и det → 0. Если все факторы практически независимы, то в главной диагонали будут стоять величины, близкие к единице, а прочие элементы будут близки к нулю, тогда det→1.

Таким образом, численное значение det [r (11) ] позволяет установить наличие или отсутствие мультиколлинеарности. Мультиколлинеарность может иметь место вследствие того, что какой-либо фактор является линейной (или близкой к ней) комбинацией других факторов.

Для выявления этого обстоятельства можно построить регрессии каждой объясняющей переменной на все остальные. Далее вычисляются соответствующие коэффициенты детерминации

и рассчитывается статистическая значимость каждой такой регрессии по F –статистике:

Критическое значение F определяется по таблице для назначенного уровня значимости γ (вероятности отвергнуть верную гипотезу Н 0 о незначимости R 2), и числа степеней свободы df 1 = p –1, df 2 = n –1.

Оценку значимости мультиколлинеарности можно также произвести путём проверки гипотезы об её отсутствии: Н 0: det [r (11) ] =1. Доказано, что величина: приближённо имеет распределение Пирсона: Если вычисленное значение χ 2 превышает табличное значение для назначенного γ и df = n (n –1)/2, то гипотеза Н 0 отклоняется и мультиколлинеарность считается установленной.

Парные коэффициенты корреляции не всегда объективно показывают действительную связь между факторами. Например, факторы могут по существу явления не быть связаны между собой, но смещаться в одну сторону под влиянием некоторого стороннего фактора, не включенного в модель. Довольно часто таким фактором выступает время. Поэтому включение (если это возможно) в модель переменной t иногда снижает степень интеркорреляции и мультиколлинеарности. Более адекватными показателями межфакторной корреляции являются частные коэффициенты корреляции. Они отражают тесноту статистической связи между двумя переменными при элиминировании влияния других факторов.

Здесь b 1 будет являться несмещенной оценкой параметра β 1 , а b 2 будет несмещенной оценкой нуля (при выполнении условий Гаусса-Маркова).

Утрата эффективности в связи с включением x 2 в случае, когда она не должна быть включена, зависит от корреляции между x 1 и x 2 .

Сравним (см. табл. 4.1).

Цель : необходимо научиться определять параметры уравнения множественной линейной регрессии, используя ме­тод наименьших квадратов (МНК), рассчитывать коэффициент множественной корреляции.

Ключевые слова : линейная модель множественной регрессии, матрица парных коэффициентов корреляции, коэффициент множественной детерминации, индекс корреляции.

План лекции:

1. Классическая нормальная линейная модель множественной регрессии.

2. Оценка параметров линейной модели множественной регрессии.

3. Множественная и частная корреляция.

1.Классическая нормальная линейная модель множественной регрессии.

Экономические явления, как правило, определяются большим числом одновременно действующих факторов. В качестве примера такой связи можно рассматривать зависимость доходности финансовых активов от следующих факторов: темпов прироста ВВП, уровня процентных ставок, уровня инфляции и уровня цен на нефть.

В связи с этим возникает задача исследования зависимости одной зависимой переменной у от нескольких объясняющих факторных переменных х 1 , х 2 ,…, х n , оказывающих на нее влияние. Эта задача решается с помощью множественного регрессионного анализа .

Как и в парной зависимости, используются разные виды уравнений множественной регрессии: линейные и нелинейные.

Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.

В линейной множественной регрессии параметры при количественной объясняющей переменной интерпретируется как среднее изменение результирующей переменной при единичном изменении самой объясняющей переменной и неизменных значениях остальных независимых переменных.

Пример. Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц на продукты питания, тыс.тг.

х 1 – среднемесячный доход на одного члена семьи, тыс.тг.

х 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс.тг. расходы на питание возрастут в среднем на 350 тг. при том же размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же доходах предполагает дополнительный рост расходов на питание на 730 тг.

В степенной функции коэффициенты b j являются коэффициентами эластичности. Они показывают, на сколько процентов в среднем изменяется результат с изменением соответствующего фактора на 1% при неизменности действия других факторов.

Пример. Предположим, что при исследовании спроса на мясо получено уравнение

,

где у – количество спроса на мясо,


х 1 – цена,

х 2 – доход.

Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса в среднем на 2,63%. Увеличение дохода на 1% обуславливает при неизменных ценах рост спроса на 1,11%.

где b 0 , b 1 ,…,b k – параметры модели, а ε – случайный член, называется классической нормальной линейной регрессионной моделью , если выполняются следующие условия (называемые условиями Гаусса-Маркова):

1. Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю, т.е. .

2. Дисперсия случайного члена должна быть постоянной для всех наблюдений, т.е. .

3. Случайные члены должны быть статистически независимы (некоррелированы) между собой, .

4. - есть нормально распределенная случайная величина.

2.Оценка параметров линейной модели множественной регрессии.

Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов. При его применении строится система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии.

Так, для уравнения система нормальных уравнений составит:

Ее решение может быть осуществлено методом Крамера:

,

где ∆ - определитель системы,

Частные определители.

,

а получаются путем замены соответствующего столбца определителя системы столбцом свободных членов.

Рассмотрим линейную модель зависимости результативного признака у от двух факторных признаков и . Эта модель имеет вид:

Для нахождения параметров и решается система нормальных уравнений:

3.Множественная и частная корреляция.

Многофакторная система требует множество показателей тесноты связей, имеющих разный смысл и применение. Основой измерения связей факторными признаками является матрица парных коэффициентов корреляции, которые определяются по формуле:

На основе парных коэффициентов корреляции вычисляется наиболее общий показатель тесноты связи всех входящих в уравнение регрессии факторов с результирующим признаком – коэффициент множественной детерминации как частное от деления определителя матрицы на опрделитель матрицы ∆: , где

;

.

Этим способом можно определить коэффициент детерминации, не вычисляя расчетных значений результативного признака для всех единиц совокупности, если совокупность состоит из сотен и тысяч единиц.

1. Основные определения и формулы

Множественная регрессия - регрессия между переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимые объясняющие переменные;

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов;

Число параметров при переменных

Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Уравнение множественной линейной регрессии в случае независимых переменных имеет вид а в случае двух независимых переменных - (двухфакторное уравнение).

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов . Строится система нормальных уравнений:

Решение этой системы позволяет получить оценки параметров регрессии с помощью метода определителей

где - определитель системы;

- частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными правой части системы.

Для двухфакторного уравнения коэффициенты множественной линейной регрессии можно вычислить по формулам:

Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности :

Средние коэффициентами эластичности показывают на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%:

Их можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.

Тесноту совместного влияния факторов на результат оценивает коэффиц и ент (индекс) множественной корреляции :

Величина индекса множественной корреляции лежит в пределах от 0 до 1 и должна быть больше или равна максимальному парному индексу корреляции:

Чем ближе значение индекса множественной корреляции к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

Сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности (величина индекса множественной корреляции существенно отличается от индекса парной корреляции) включения в уравнение регрессии того или иного фактора.

При линейной зависимости совокупный коэффициент множественной ко р реляции определяется через матрицу парных коэффициентов корреляции:

где - определитель матрицы парных коэффициентов корреляции;

- определитель матрицы межфакторной корреляции.

Частны е коэффициент ы корреляции характеризуют тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, (частный коэффициент корреляции между и при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между и которая будет иметь место, если устранить влияние на эти признаки фактора

Частные коэффициенты корреляции, измеряющие влияние на фактора при неизменном уровне других факторов, можно определить как:

или по рекуррентной формуле:

Для двухфакторного уравнения:

или

Частные коэффициенты корреляции изменяются в пределах от -1 до +1.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции получится меньше, чем соответствующий парныйкоэффициент значит взаимосвязь признаков и в некоторой степени обусловлена воздействием на них фиксируемой переменной И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная ослабляет своим воздействием связь и

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка.

Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент мн о жественной корреляции :

Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации , который рассчитывается как квадрат индекса множественной корреляции: Индекс множественной детерминации фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как

Если число параметров при близко к объему наблюдений, то коэффициент множественной корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможногопреувеличения тесноты связи, используется скорректированный индекс множественной корреляции , который содержит поправку на число степеней свободы:

Чем больше величина тем сильнее различия и

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным =--2.

Значимость уравнения множественной регрессии в целом , так же как и в парной регрессии, оценивается с помощью - критерия Фишера :

Мерой для оценки включения фактора в модель служит частный -критерий . В общем виде для фактора частный -критерий определяется как

Для двухфакторного уравнения частные -критерии имеют вид:

Если фактическое значение превышает табличное, то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение меньше табличного, то фактор нецелесообразно включать в модель, а коэффициент регрессии при данном факторе в этом случае статистически незначим.

Для оценки значимости коэффициентов чистой регрессии по -критерию Стьюдента используется формула:

где - коэффициент чистой регрессии при факторе

- средняя квадратическая (стандартная) ошибка коэффициента регрессии которая может быть определена по формуле:

При дополнительном включении в регрессию нового фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если это не так, то включаемый в анализ новый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по -критерию Стьюдента.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Для оценки мультиколлинеарности факторов может использоваться опред е литель матрицы между факторами . Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель, тем меньше мультиколлинеарность факторов.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность . При нарушении гомоскедастичности выполняются неравенства

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 9.22).

Рис. 9.22 . Примеры гетероскедастичности:

а) дисперсия остатков растет по мере увеличения

б) дисперсия остатков достигает максимальной величины при средних значениях переменной и уменьшается при минимальных и максимальных значениях

в) максимальная дисперсия остатков при малых значениях и дисперсия остатков однородна по мере увеличения значений

Для проверки выборки на гетероскедастичность можно использовать метод Гольдфельда-Квандта (при малом объеме выборки) или критерий Бартлетта (при большом объеме выборки).

Последовательность применения теста Гольдфельда-Квандта :

1) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2) Исключить из рассмотрения центральных наблюдений. При этом где - число оцениваемых параметров. Из экспериментальных расчетов для случая однофакторного уравнения регрессии рекомендовано при =30 принимать =8, а при =60 соответственно =16.

3) Разделить совокупность из наблюдений на две группы (соответственно с малыми и большими значениями фактора ) и определить по каждой из групп уравнение регрессии.

4) Вычислить остаточную сумму квадратов для первой и второй групп и найти их отношение где При выполнении нулевой гипотезы о гомоскедастичности отношение будет удовлетворять -критерию Фишера со степенями свободы для каждой остаточной суммы квадратов. Чем больше величина превышает тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Если необходимо включить в модель факторы, имеющие два или более качественных уровней (пол, профессия, образование, климатические условия, принадлежность к определенному региону и т.д.), то им должны быть присвоены цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные называют фиктивными (и с кусственными) переменными .

К оэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. Значимость влияния фиктивной переменной проверяется с помощью -критерия Стьюдента.

2. Решение типовых задач

Пример 9. 2. По 15 предприятиям отрасли (табл. 9.4) изучается зависимость затрат на выпуск продукции (тыс. ден. ед.) от объема произведенной продукции (тыс. ед.) и расходов на сырье (тыс. ден. ед). Необходимо:

1) Построить уравнение множественной линейной регрессии.

2) Вычислить и интерпретировать:

Средние коэффициенты эластичности;

Парные коэффициенты корреляции, оценить их значимость на уровне 0,05;

Частные коэффициенты корреляции;

Коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент детерминации.

3) Оценить надежность построенного уравнения регрессии и целесообразность включения фактора после фактора и после

Таблица 9.4

x 1

x 2

Решение:

1) В Excel составим вспомогательную таблицу рис. 9.23.

Рис. 9.23 . Расчетная таблица многофакторной регрессии.

С помощью встроенных функций вычислим: =345,5; =13838,89; =8515,78; =219,315; =9,37; =6558,08.

Затем найдем коэффициенты множественной линейной регрессии и оформим вывод результатов как на рис. 9.24.

Рис. 9.24 . Решение задачи в MS Excel

Для вычисления значения коэффициента используем формулы

Формулы для вычисления параметров заносим в ячейки Е 20 , Е 2 1, Е 2 2. Так длявычисления параметра b 1 в Е 20 поместим формулу =(B20*B24-B21*B22)/(B23*B24-B22^2) и получим 29,83. Аналогично получаем значения =0,301 и Коэффициент =-31,25 (рис. 9.25.).

Рис. 9.25 . Вычисление параметров уравнения множественной регрессии (в с т роке формул формула для расчета b 2) .

Уравнение множественной линейной регрессии примет вид:

31,25+29,83+0,301

Таким образом, при увеличении объема произведенной продукции на 1 тыс. ед. затраты на выпуск этой продукции в среднем увеличатся на 29,83 тыс. ден. ед., а при увеличении расходов на сырье на 1 тыс. ден. ед. затраты увеличатся в среднем на 0,301 тыс. ден. ед.

2) Для вычисления средних коэффициентов эластичности воспользуемся формулой: Вычисляем: =0,884 и =0,184. Т.е. увеличение только объема произведенной продукции (от своего среднего значения) или только расходов на сырье на 1% увеличивает в среднем затраты на выпуск продукции на 0,884% или 0,184% соответственно. Таким образом, фактор оказывает большее влияние на результат, чем фактор

Для вычисления парных коэффициентов корреляции воспользуемся функцией «КОРРЕЛ» рис. 9.26.

Рис. 9.26 . Вычисление парных коэффициентов корреляции

Значения парных коэффициентов корреляции указывают на весьма тесную связь с и на тесную связь с В то же время межфакторная связь очень сильная (=0,88>0,7), что говорит о том, что один из факторов является неинформативным, т.е. в модель необходимо включать или или

З начимост ь парных коэффициентов корреляции оценим с помощью -критерия Стьюдента. =2,1604 определяем с помощью встроенной статистической функции СТЬЮДРАСПОБР взяв =0,05 и =-2=13.

Фактическое значение -критерия Стьюдента для каждого парного коэффициента определим по формулам: . Результат расчета представлен на рис. 9.27.

Рис. 9.27 . Результат расчета фактических значений -критерия Стьюдента

Получим =12,278; =7,1896; =6,845.

Так как фактические значения -статистики превосходят табличные, то парные коэффициенты корреляции не случайно отличаются от нуля, а статистически значимы.

Получим =0,81; =0,34; =0,21. Таким образом, фактор оказывает более сильное влияние на результат, чем

При сравнении значений коэффициентов парной и частной корреляции приходим к выводу, что из-за сильной межфакторной связи коэффициенты парной и частной корреляции отличаются довольно значительно.

Коэффициент множественной корреляции

Следовательно, зависимость от и характеризуется как очень тесная, в которой =93% вариации затрат на выпуск продукции определяются вариацией учтенных в модели факторов: объема произведенной продукции и расходов на сырье. Прочие факторы, не включенные в модель, составляют соответственно 7% от общей вариации

Скорректированный коэффициент множественной детерминации =0,9182 указывает на тесную связь между результатом и признаками.

Рис. 9.28 . Результаты расчета частных коэффициентов корреляции и коэфф и циента множественной корреляции

3) Оценим надежность уравнения регрессии в целом с помощью -критерия Фишера. Вычислим . =3,8853 определяем взяв =0,05, =2, =15-2-1=12 помощью встроенной статистической функции FРАСПОБР с такими же параметрами.

Так как фактическое значение больше табличного, то с вероятностью 95% делаем заключение о статистической значимости уравнения множественной линейной регрессии в целом.

Оценим целесообразность включения фактора после фактора и после с помощью частного -критерия Фишера по формулам

; .

Для этого в ячейку B32 заносим формулу для расчета F x 1 «=(B28- H24^2)*(15-3)/(1-B28) », а в ячейку B 33 формулу для расчета F x 2 «=(B28-H23^2)*(15-3)/(1-B28) », результат вычисления F x 1 = 22,4127, F x 2 = 1,5958. Табличное значение критерия Фишера определим с помощью встроенной функции FРАСПОБР с параметрами =0,05, =1, =12 «=FРАСПОБР(0,05; 1 ;12) », результат - =4,747. Так как =22,4127>=4,747, а =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

Рис. 9.29 . Результаты расчета критерия Фишера

Низкое значение (немногим больше 1) свидетельствует о статистической незначимости прироста за счет включения в модель фактора после фактора Это означает, что парная регрессионная модель зависимости затрат на выпуск продукции от объема произведенной продукции является достаточно статистически значимой, надежной и что нет необходимости улучшать ее, включая дополнительный фактор (расходы на сырье).

3. Дополнительные сведения для решения задач с помощью MS Excel

Сводные данные основных характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Опис а тельная статистика . Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в ленте выбираем вкладку «Данные», в ней раздел «Анализ» (рис. 9.30.).

Рис. 9.30 . Вкладка данные диалоговое окно «Анализ данных»

2. В диалоговом окне «Анализ данных» выбрать Описательная стат и стика и нажать кнопку «ОК», в появившемся диалоговом окне заполните необходимые поля (рис. 9.31):

Рис. 9.31 . Диалоговое окно ввода параметров инструмента
« Описательная статистика »

Входной интервал - диапазон, содержащий данные результативного и объясняющих признаков;

Группирование - указать, как расположены данные (в столбцах или строках);

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Для получения информации Итоговой статистики, Уровня наде ж ности, -го наибольшего и наименьшего значений нужно установить соответствующие флажки в диалоговом окне.

Получаем следующую статистику (рис. 2.10).