Порушення основних припущень лінійного регресійного аналізу
Краткое сожержание материала:
Міністерство освіти і науки України
Дніпропетровський національний університет імені Олеся Гончара
МАГІСТЕРСЬКА РОБОТА
Порушення основних припущень лінійного регресійного аналізу
Виконавець:
студентка групи МС-08-1м
Черемісіна В.О.
«__»________2009р.
Керівник роботи:
__________________ «__»________2009р.
Рецензент:
__________________ «__»________2009р.
Дніпропетровськ 2009
Реферат
Магістерська робота містить 85 сторінок, 38 рисунків, 13 таблиць, 4 джерела.
Об'єктом дослідження є основні припущення лінійного регресійного аналізу.
Мета роботи - вивчення наслідків порушення основних припущень лінійного регресійного аналізу.
Методика дослідження - оцінювання параметрів лінійної регресії МНК-методом, перевірка статистичних гіпотез, побудова простої лінійної регресії та лінійної регресії з двома незалежними змінними.
Результати досліджень можуть бути використані при розв'язанні задач та при подальшому вивченні порушень припущень лінійного регресійного аналізу.
Перелік ключових слів: ПОРУШЕННЯ ПРИПУЩЕНЬ, ЛІНІЙНА РЕГРЕСІЯ, ЗАЛИШКИ, РОЗПОДІЛ, НЕКОРЕЛЬОВАНІСТЬ, ЗНАЧУЩІСТЬ, АДЕКВАТНІСТЬ.
ЗМІСТ
ВСТУП
РОЗДІЛ І Проста лінійна регресія
1.1 Постановка задачі
1.2 Метод найменших квадратів
1.3 Точність оцінки регресії
1.4 -критерій значущості регресії
1.5 Геометрична інтерпретація коефіцієнтів регресії
1.6 Довірчий інтервал для . Стандартне відхилення кутового коефіцієнта
1.7 Довірчий інтервал для . Стандартне відхилення вільного члена
1.8 Довірча смуга для регресії
1.9 Повторні спостереження. Неадекватність і “чиста помилка”
1.10 Деякі відомості з математичної статистики
1.10.1 Критерій (гіпотетичний розподіл визначений)
1.10.2.Критерій (гіпотетичний розподіл невизначений)
1.10.3 Критерій Бартлетта
1.11 Аналіз залишків
1.12 Лінійна регресія з двома незалежними змінними
РОЗДІЛ ІІ Дослідження порушень основних припущень лінійного регресійного аналізу
2.1 „Ідеальна” модель лінійної регресії
2.2 Модель лінійної регресії, в якій дисперсія спостережень величина змінна
2.3 Модель лінійної регресії, в якій спостереження величини залежні
2.4 Модель лінійної регресії, в якій спостереження рівномірно розподілені величини
2.5 Модель лінійної регресії, в якій спостереження показниково розподілені величини
ВИСНОВКИ
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
ВСТУП
Нехай - результат спостереження, який описується лінійною моделлю виду
(1)
де - регресійна матриця розміру , ,
- вектор невідомих параметрів,
- вектор похибок спостережень.
Припущення відносно вектора спостережень позначатимемо :
. (2)
Або, що те ж саме, припущення відносно вектора похибок мають вигляд:
(3)
Вихідні припущення (2) або (3) регресійного аналізу виконуються далеко не завжди. Виникає низка питань: як виявити порушення цих припущень? В яких випадках і які порушення можна вважати припустимими? Що робити, якщо порушення виявляються неприпустимими?
Метою роботи є вивчення наслідків порушення основних припущень (3) лінійного регресійного аналізу, а саме:
1) припущення про незміщеність похибок ;
2) припущення про однакову дисперсію і некорельованість похибок ;
3) припущення про нормальний розподіл похибок ;
4) припущення про незалежність спостережень .
РОЗДІЛ І ПРОСТА ЛІНІЙНА РЕГРЕСІЯ
1.1 Постановка задачі
Нехай - вибірка, утворена незалежними нормально розподіленими випадковими величинами з однією і тією ж дисперсією і середніми, про які відомо, що вони лінійно залежать від параметрів, тобто мають вигляд
, (1.1.1)
де - відомі невипадкові величини; - невідомі параметри.
Кожну з випадкових величин можна подати у вигляді
, (1.1.2)
де називають похибкою спостережень. Похибка змінюється від спостереження до спостереження, () - незалежні випадкові величини. Відносно будемо припускати, що
1)
2) , некорельовані при
(з незалежності , випливає їх некорельованість)
3) розподілені нормально з параметрами .
Отже, нехай - результати спостережень, які описуються моделлю виду
(1.1.3)
Параметри невідомі, і їх необхідно оцінити за вибіркою .
Для оцінки невідомих параметрів використовують метод максимальної правдоподібності або метод найменших квадратів.
1.2 Метод найменших квадратів
Означення 1.2.1. МНК-оцінкою параметрів будемо називати точку , в якій функція
(1.2.1)
досягає найменшого значення.
Здиференцюємо по , а потім по
Прирівнюємо похідні нулеві:
(1.2.2)
(1.2.3)
Останню систему називають системою нормальних рівнянь. Із (1.2.2) маємо:
(1.2.4)
Підставляємо в (1.2.3):
(1.2.5)
Оскільки
і, крім того,
то (1.2.5) запишеться у вигляді
Тоді рівняння простої лінійної регресії має вигляд
Перевіримо, що в точці функція дійсно досягає мінімуму.
Візьмемо другі похідні:
Складаємо дискримінант:
Отже, і . Тоді в точці функція досягає мінімального значення.
Зауваження 1. Якщо в рівнянні регресії
обрати , то . Це означає, що точка лежить на підібраній прямій.
Зауваження 2. Сума всіх залишків дорівнює нулю, дійсно,
в кожній точці.
1.3 Точність оцінки регресії
Тепер розглянемо питання про те, яка точність може бути приписана лінії регресії, коефіцієнти якої були оцінені. Розглянемо таку тотожність:
(1.3.1)
Розглянемо доданок
Підставляємо останнє в (1.3.1):
Звідки
(1.3.2)
Означення 1.3.1. Величина - це відхилення -го спостереження від загального середнього, тому суму називають сумою квадратів відхилень відносно середнього значення.
Означення 1.3.2. Величина - це відхилення -го спостереження від його передбаченого значення, тому суму називають сумою квадратів відхилень відносно регресії.
Означення 1.3.3. Величина - це відхилення -го передбаченого значення від загального середнього, тому суму називають сумою квадратів, обумовленою регресією.
Тоді (1.3.2) можна переписати в еквівалентній формі
сума квадратів сума квадратів сума квадратів
= +
відносно обумовлена відносно (1.3.3)
середнього регресією регресії
З останнього випливає, що розсіювання відносно можна приписати у деякій мірі тому факту, що не всі спостереження знаходяться на лінії регресії.
Якщо це було б не так, то відносно регресії дорівнювала б нулю
З цих міркувань зрозуміло, що придатність лінії регресії з метою прогнозування залежить від того, яка частина суму квадратів відносно середнього приходиться на суму квадратів, обумовлену регресією, і яка на суму квадратів відносно регресії.
Задовільним вважається випадок, коли сума квадратів, обумовлена регресією, буде набагато більша, ніж сума квадратів відносно регресії.
Кожна сума квадратів пов'язана з числом, яке називають її ступенем вільності.
Число ступенів вільності - це число незалежних елементів, які складаються з незалежних чисел , необхідних для утворення даної суми квадратів.
Розглянемо суму квадратів відхилень відносно середнього значення .
Серед величин незалежними є тільки величина, оскільки останній елемент знаходиться як лінійна комбінація інших
Число...
Статистичний аналіз тенденцій захворюваності в Україні
Дослідження тенденцій захворюваності на туберкульоз (усі форми), рак, СНІД, гепатити А та Б в двадцяти чотирьох областях України, Криму, містах Києві...
Тести Чоу
Побудова регресійних моделей. Застосування, реалізація тесту Чоу. Тести на стійкість, на невдачу прогнозу. F-тест на стабільність коефіцієнтів. Метод...
Підвищення ефективності роботи підприємства на основі застосування економіко-математичних методів (на прикладі ВАТ "Дніпрополімермаш")
Метод дослідження та апаратура: для дослідження даної предметної області використані аналітичні методи для оцінки фінансово-економічного стану підприє...
Методика та організація обліку, аналізу та аудиту наявності, руху і використання основних засобів в умовах автоматизації обліку
Система бухгалтерського обліку, аналізу та аудиту основних засобів на ПАТ "Кредмаш". Облік надходження, визначення вартості, зносу основних засобів на...
Аналіз ефективності використання основних засобів
Основнi засоби: визначення, класифiкацiя та оцiнка. Документальне оформлення руху основних засобів та їх облік. Методи амортизації основних засобів. П...