Парная регрессия
Краткое сожержание материала:
27
Смысл регрессионного анализа - построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y - откликом.
Наиболее простой случай - установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.
Парная регрессия - уравнение связи двух переменных у и x:
,
где у - зависимая переменная (результативный признак);
х - независимая, объясняющая переменная (признак-фактор).
Различают линейные и нелинейные регрессии.
Линейная регрессия:.
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:
* полиномы разных степеней
*равносторонняя гипербола
Регрессии, нелинейные по оцениваемым параметрам:
степенная ;
показательная
экспоненциальная
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно а и b:
Можно воспользоваться готовыми формулами, которые вытекают из этой системы:
Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии
и индекс корреляции - для нелинейной регрессии ():
Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
Допустимый предел значений - не более 8 - 10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R2:
Коэффициент детерминации - квадрат коэффициента или индекса корреляции.
F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера. Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
п - число единиц совокупности;
т - число параметров при переменных х.
Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно а принимается равной 0,05 или 0,01.
Если Fтабл < Fфакт, то H0 - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если Fтабл > Fфакт, то гипотеза Н0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
Сравнивая фактическое и критическое (табличное) значения t-статистики - tтабл и tфакт - принимаем или отвергаем гипотезу Hо.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством
Если tтабл < tфакт, то Hо отклоняется, т.е. а, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если tтабл > tфакт, то гипотеза Но не отклоняется и признается случайная природа формирования a, b или .
Для расчета доверительного интервала определяем предельную ошибку ? для каждого показателя:
Формулы для расчета доверительных интервалов имеют следующий вид:
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
где
и строится доверительный интервал прогноза:
где
Задача:
По 22 регионам страны изучается зависимость розничной продажи телевизоров, y от среднедушевых денежных доходов в месяц, x (табл. 1):
№ региона |
X |
Y |
|
1,000 |
2,800 |
28,000 |
|
2,000 |
2,400 |
21,300 |
|
3,000 |
2,100 |
21,000 |
|
4,000 |
2,600 |
23,300 |
|
5,000 |
1,700 |
15,800 |
|
6,000 |
2,500 |
21,900 |
|
7,000 |
2,400 |
20,000 |
|
8,000 |
2,600 |
22,000 |
|
9,000 |
2,800 |
23,900 |
|
10,000 |
2,600 |
26,000 |
|
11,000 |
2,600 |
24,600 |
|
12,000 |
2,500 |
21,000 |
|
13,000 |
2,900 |
27,000 |
|
14,000 |
2,600 |
21,000 |
|
15,000 |
2,200
Другие файлы:
Регрессия и корреляция Изучение гетероскедастичности. Линейная регрессия Особенности эконометрического метода Основы эконометрики Практическая статистика |