Полный текст:
Исходный
ряд данных :
t
Y
1
52
2
54
3
55
4
59
5
60
6
62
7
63
8
66
9
70
Задача 1. Критерий Фишера
=FРАСПОБР(0,05; 1; 9-2)= 5,59
(вычислим
в Excel)
где
0,05 – критерий
допустимости
1
– число независимых переменных (m);
9-2=7
– число степеней свободы (n-m-1=9-1-1).
Задача
2. Диаграмма рассеяния, линия и уравнение тренда
Диаграмма
строится стандартными средствами Excel
(тип
диаграммы выбирается «Точечная») – показывает множество изолированных точек,
соответствующих данным отдельных наблюдений.
Задача 3. Расчет параметров регрессии по
МНК
Сначала выполним
вспомогательные вычисления :
t
y
x?
x*y
y?
1
52
1
52
2704
2
54
4
108
2916
3
55
9
165
3025
4
59
16
236
3481
5
60
25
300
3600
6
62
36
372
3844
7
63
49
441
3969
8
66
64
528
4356
9
70
81
630
4900
45
541
285
2832
32795
Число элементов ряда n=9
t сред =?x/n =45/9 =5
сред (t?) =?t?/n =285/9=31,67
Из полученных
данных можно составить Систему нормальных уравнений :
na+b?t=?y,
a?t+b?t?=?xy.
В этой системе a и b - это коэффициенты Уравнения линейной
регрессии
y=a+bt.
Уравнение линейной регрессии позволяет приблизительно выразить
связь между величинами x и y аналитически.
Система нормальных уравнений для данной задачи примет вид:
9a+45b=541,
45a+285b=2832.
Коэффициенты a и b найдём, решив Систему нормальных уравнений :
a=2,12, b=49,53, в целом же Уравнение регрессии примет вид :
y=2,12t+49,53
Среднеквадратичное
отклонение Факторного признака :
?(t) =v[сред(t?)-(t сред)?]
?(t) =v[31,67-(5)?]=2,58
Среднеквадратичное
отклонение Эмпирических значений результата :
?(y) =v[
сред(y?)-(y сред)?]
?(y) =v[3643,89-(60,11)?]=5,53
Линейный коэффициент корреляции r=a*?(t)/?(y)
=2,12*2,58/5,53=0,99 ~1,00
это говорит о том, что связь
практически функциональная.
Задача 4. Расчет теоретических
(модельных, предсказанных) значений и остатков
Теоретические значения y получим, подставляя значения t в найденное Уравнение регрессии. Остаток
E(i)= Y- y
по сути,
представляет собой ошибку (расхождение между эмпирическим и теоретическим
значениями).
t
Y
y
E
точка
1
52
51,64
0,36
2
54
53,76
0,24
3
55
55,88
-0,88
поворотная
4
59
57,99
1,01
поворотная
5
60
60,11
-0,11
6
62
62,23
-0,23
7
63
64,34
-1,34
поворотная
8
66
66,46
-0,46
9
70
68,58
1,42
Попутно найдем поворотные точки – их три (они отмечены в Таблице).
Задача 5. Оценка адекватности построенной модели на основе исследования
5а) По Числу
поворотных точек
В соответствии с критерием
поворотных точек каждый уровень Ряда остатков сравнивается с двумя соседними. Если
он больше или меньше их, то эта точка считается поворотной.
Число
поворотных точек p=3
Если
где
а квадратные скобки означают целую часть числа, то гипотеза
принимается.
p (cp) =2/3*(9-2)=4,667
?2(p) =(16*9-29)/90=1,278
?(p)
=v((16*9-29)/90)=1,131
3> целая часть от [4,667-1,96*1,131]
3> целая часть от [2,45]
3>2
неравенство верное
модель адекватна.
5б) По Критерию
Дарбина-Уотсона
Вычислить значение
где Еi – i-тый уровень
остаточной последовательности (i=1..9).
Если же ситуация оказалась
неопределенной, применяют другие критерии.
В частности, можно воспользоваться
первым коэффициентом автокорреляции, критический уровень которого rкрит =
0,36.
t
Y
Yтеор
E (Остатки)
E(i)- E(i-1)
(E(i)- E(i-1))2
E(i)2
1
52
51,64
0,36
-
-
0,1296
2
54
53,76
0,24
-0,12
0,0144
0,0576
3
55
55,88
-0,88
-1,12
1,2544
0,7744
4
59
57,99
1,01
1,89
3,5721
1,0201
5
60
60,11
-0,11
-1,12
1,2544
0,0121
6
62
62,23
-0,23
-0,12
0,0144
0,0529
7
63
64,34
-1,34
-1,11
1,2321
1,7956
8
66
66,46
-0,46
0,88
0,7744
0,2116
9
70
68,58
1,42
1,88
3,5344
2,0164
-0,35
11,6506
6,0703
d=11,651/6,070=1,919
d1 =1,08,
d2=1,36
d>d2
1,92>1,36
следовательно, гипотеза о независимости случайных
отклонений остатков подтверждается.
5в) По R/SE – критерию
Проверить
гипотезу о нормальном распределении остаточной последовательности
по R/SE – критерию. В нашем случае
R = Emax ? Emin, а
R = Emax ? Emin
=1,42-(-1,34) =2,76
Emax=1,42
Emin=-1,34
S(E)= v(6,07/(9-1))=0,8711
R/S(E)=2,76/0,871=3,17
[2,5 - 3,3] - табличные значения допустимых границ
2,5<R/S(E)=3,17<3,3
найденное значение R/S(E) попадает в табулированный интервал, т.е. модель удовлетворительна.
5г) По Критерию
Стъюдента
Проверить гипотезу о равенстве математического ожидания случайной
компоненты нулю на основе t? критерия Стьюдента.
Расчетное значение этого критерия задается формулой
где
— среднее арифметическое значение уровней
остаточной последовательности Ei;
S(E) — стандартное (среднеквадратическое)
отклонение для этой последовательности.
Для получения критического значения
t(a,v) статистики Стьюдента с заданным уровнем значимости a=0,05 и числом
степеней свободы v=n-1 применим функцией Excel CTЬЮДРАСПОБР(a;n-1).
?E / n= -0,35/9= -0,039
t=|-0,039|/ 0,871 *v9 =0,134
t(а)=СТЬЮДРАСПОБР(0,05;9-1)=2,306.
t<t(a)
0,134<2,306
расчетное значение критерия Стьюдента не превышает критического
данная модель удовлетворяет данному критерию
В целом, значения всех критериев, расмотренных в пункте
"5", находятся в допустимых границах.
Поэтому предложенная модель может считаться удовлетворительной.
Задача 6. Коэффициент детерминации
Провести проверку
качества модели с помощью коэффициента детерминации, который показывает, какую
долю вариации исследуемого признака Y описывает наша модель под воздействием
изучаемого фактора. Чем ближе к единице R2, тем лучше качество
модели.
R2 = 1-6,07/274,889 =0,9779 ~1,00.
Для
расчета проведем вспомогательные вычисления :
t
Y
Y-Y(ср)
(Y-Y(ср))2
1
52
-8,11
65,79
2
54
-6,11
37,35
3
55
-5,11
26,12
4
59
-1,11
1,23
5
60
-0,11
0,01
6
62
1,89
3,57
7
63
2,89
8,35
8
66
5,89
34,68
9
70
9,89
97,79
541
274,8889
Y(ср)=541/9=60,111
R2 = 1-6,07/274,889 =0,9779 ~1,00.
модель
обладает высоким качеством.
Задача 7. Оценка
стандартной ошибки
Для оценки точности
модели используется стандартная ошибка оценки
прогнозируемого показателя (или
среднеквадратическое отклонение от линии тренда)
, где n - число опытов, m -
число факторов, включенных в модель,
и среднюю относительную ошибку
аппроксимации
Если ошибка Еотн
не превышает 15%, то точность модели считается приемлемой.
t
Y
E
|E/Y|
1
52
0,36
0,01
2
54
0,24
0,00
3
55
-0,88
0,02
4
59
1,01
0,02
5
60
-0,11
0,00
6
62
-0,23
0,00
7
63
-1,34
0,02
8
66
-0,46
0,01
9
70
1,42
0,02
0,10
E(отн)=1/9*0,10*100%=
1,11 %<<15% - удовлетворяет.
S(y)=v (1/(9-1-1)*6,07 ) =0,93
Задача 8. Проверка
значимости модели
Провести проверку значимости модели с помощью
F – теста. Если расчетное значение Fрасч больше критического Fкрит при заданном
уровне значимости a=0,05 и со степенями свободы v1=m и v2=n-m-1 (где m – число
факторов, включенных в модель), то модель считается значимой.
Для получения критического значения
воспользоваться функцией FРАСПОБР(a; v1,; v2).
F(расч)=(0,978/1)/(1-0,978)*(9-1-1)=311,18
F(крит)=5,6<<311,2=F(расч)
модель
значимая.
Задача 9. Прогноз
Построить точечный
прогноз на два периода вперед. Он получается путем подстановки в модель
значений времени t, соответствующих времени
упреждения k: t=n+k. В случае линейной модели экстраполяция на k шагов
вперед имеет вид:
y(n+k)=a+b*(n+k).
В данном случае выражение для такого
прогноза будет иметь вид :
y(9+2)=2,12*t+49,53
y(11)=2,12*11+49,54
y(11)=72,88
Задача 10.
Доверительный интервал
Построить доверительный интервал для
прогноза, полученного в предыдущем пункте, с вероятностью
P=1-?=1-0,3=0,7=70% и
t=СТЬЮДРАСПОБР(?;n-1):
где
?=0,3
n=9
n+k=9+2=11
t(?,n)=t(0,3; 9-1)=СТЬЮДРАСПОБР(0,3;9-1)=1,1081 =1,11
t(?,n+k)=t(0,3; 9+2-1)=СТЬЮДРАСПОБР(0,3;9+2-1)=1,0931 =1,10
(t(n+k)-t(ср))2=(1,093-1,146)2=0,0028
=0,003.
?=1,11*0,931*v(1+1/9+0,003/2,053)=1,09
i
t
t-t(ср)
(t-t(ср))2
1
0
-1,14556
1,3123
2
1,962611
0,817055
0,6676
3
1,386207
0,240651
0,0579
4
1,249778
0,104223
0,0109
5
1,189567
0,044011
0,0019
6
1,155767
0,010212
0,0001
7
1,134157
-0,0114
0,0001
8
1,119159
-0,0264
0,0007
9
1,108145
-0,03741
0,0014
10,30539
2,0529
t (ср)=10,31/9=1,1456
тогда доверительный интервал прогноза
y(n+k) € [72,88-1,15; 72,88+1,15]
y(n+k) € [71,73; 74,03]
Контрольная работа №2
Дано :
x
10
14
21
24
33
41
44
47
49
y
52
54
55
59
60
62
63
66
70
y – вариант 50 (строка 50), x – следующая строка
(строка 1).
Задача 1.
Вычислить коэффициенты ковариации и корреляции между переменными Y и X
по формулам
где
– исправленное среднеквадратическое отклонение величины х.
С помощью инструмента «Сервис>Анализ данных>Ковариация» и «Сервис>Анализ
данных>Корреляция» вычислить поля ковариации и
корреляции этих переменных. (Подключить «Анализ данных» можно через
пункт меню «Сервис>Надстройки>Пакет анализа»). Сравнить полученные результаты.
x
y
x-x сред
y-y сред
(x-x сред)*
(y-y сред)
(x-x сред)2
(y-y сред)2
10
52
-21,44
-8,11
173,88
459,67
65,77
14
54
-17,44
-6,11
106,56
304,15
37,33
21
55
-10,44
-5,11
53,35
108,99
26,11
24
59
-7,44
-1,11
8,26
55,35
1,23
33
60
1,56
-0,11
-0,17
2,43
0,01
41
62
9,56
1,89
18,07
91,39
3,57
44
63
12,56
2,89
36,30
157,75
8,35
47
66
15,56
5,89
91,65
242,11
34,69
49
70
17,56
9,89
173,67
308,35
97,81
283
541
661,56
1730,22
274,89
x
сред =?x/n =283/9 =31,44
y
сред =?y/n =541/9 =60,11
Cov(x,y)
= 1/n ? (x-x сред)(y- y сред)
Cov(x,y) = 1/9* 661,56 =73,51
s2x = 1/9*1730,22 =192,25
s2y= 1/9*274,89 =30,54
r(x,y)
= Cov(x,y)/ v (s2x * s2y)
r(x,y) = 73,51/ v(192,25 * 30,54) =0,96
результат
применения Пакета анализа "Корреляция"
Строка 1
Строка 2
Строка 1
1
Строка 2
0,9593
1
результат
применения Пакета анализа "Ковариация"
Строка 1
Строка 2
Строка 1
192,25
Строка 2
73,506
30,543
2)
Построить на диаграмме зависимость Y от Х и добавить линию тренда,
используя линейную модель для описания данных.
3. Получить уравнение модели Y=a0+a1 х,
параметры которой оценить по МНК.
Для
этого вычислим вспомогательные величины :
x
y
x?
x*y
y?
10
52
100
520
2704
14
54
196
756
2916
21
55
441
1155
3025
24
59
576
1416
3481
33
60
1089
1980
3600
41
62
1681
2542
3844
44
63
1936
2772
3969
47
66
2209
3102
4356
49
70
2401
3430
4900
283
541
10629
17673
32795
Число элементов ряда n=9
сред (x?) =?x?/n =10629/9=1181
Из полученных
данных можно составить Систему нормальных уравнений :
na+b?x=?y,
a?x+b?x?=?xy.
В этой системе a и b - это коэффициенты Уравнения линейной
регрессии
y=a+bx.
Уравнение линейной регрессии позволяет приблизительно выразить
связь между величинами x и y аналитически.
Система нормальных уравнений для данной задачи примет вид:
9a+283b=541,
283a+10629b=17673.
Коэффициенты a и b найдём, решив Систему нормальных уравнений :
a=0,38, b=48,09, в целом же Уравнение регрессии примет вид :
y=0,38x+48,09
Среднеквадратичное отклонение Факторного признака :
?(x) =v[сред(x?)-(x
сред)?]
?(x) =v[1181-(31,44)?]=13,87
Среднеквадратичное отклонение Эмпирических значений результата :
?(y) =v[
сред(y?)-(y сред)?]
?(y)
=v[3643,89-(60,11)?]=5,53
4) Проверить модель на адекватность
Сделать вывод об адекватности модели.
4а Критерий пиков
x
y
y
E
точка
10
52
51,91
0,09
14
54
53,44
0,56
поворотная
21
55
56,12
-1,12
поворотная
24
59
57,26
1,74
поворотная
33
60
60,71
-0,71
41
62
63,76
-1,76
44
63
64,91
-1,91
поворотная
47
66
66,06
-0,06
49
70
66,82
3,18
где
p'=2/3*(9-2)=4,67
?2p=(16*9-29)/90=1,28
v?2p=?(p)=v((16*9-29)/90)=1,13
p=4
(число поворотных точек (пиков))
Тогда
4> целая часть [4,67-1,96*1,13 ]
4> целая часть [2,46 ]
4> 2
справедливо.
Модель удовлетворяет данному критерию
4б. Критерий Дарбина-Уотсона
Оценка
Независимости уровней ряда остатков
x
y
y
E
E(i)-E(i-1)
(E(i)-E(i-1))2
E2
10
52
51,91
0,09
0
0
0,0081
14
54
53,44
0,56
0,47
0,2209
0,3136
21
55
56,12
-1,12
-1,68
2,8224
1,2544
24
59
57,26
1,74
2,86
8,1796
3,0276
33
60
60,71
-0,71
-2,45
6,0025
0,5041
41
62
63,76
-1,76
-1,05
1,1025
3,0976
44
63
64,91
-1,91
-0,15
0,0225
3,6481
47
66
66,06
-0,06
1,85
3,4225
0,0036
49
70
66,82
3,18
3,24
10,4976
10,1124
32,2705
21,9695
d=32,2705/21,9695=1,47
d1
=1,08,
d2=1,36
d>d2
1,47>1,36
следовательно,
гипотеза о независимости случайных отклонений остатков подтверждается.
4в. R/SE – критерий
R = Emax ? Emin
Emax =3,18
Emin =-1,91
R=3,18-(-1,91)=5,1
S(E)=v (21,97/(9-1))=1,66
R/S(E) = 5,1/1,66=3,07
нижняя табличная граница = 2,50
верхняя табличная граница = 3,31
2,5< R/S(E)=3,07<3,31
т.е. значение R/S(E) попадает в диапазон между табличными
границами.
Модель удовлетворяет данному условию.
4д Гипотеза о равенстве математического ожидания случайной
компоненты нулю
на
основе t ? критерия Стьюдента. Расчетное значение этого критерия задается
формулой
где
— среднее арифметическое
значение уровней остаточной последовательности Ei;
SE — стандартное (среднеквадратическое)
отклонение для этой последовательности. Для получения критического значения t(a,v)
статистики Стьюдента с заданным уровнем значимости a=0,05 и числом степеней
свободы v=n-1 воспользуемся функцией Excel CTЬЮДРАСПОБР(a;n-1).
?E
/n=0,01/9=0,0011
t=0,001/1,66*3=0,001807
t
крит=CTЬЮДРАСПОБР(0,05;9-1)=2,31
0,002<2,31
t<t крит
расчетное
значение не превышает критического
Модель
удовлетворительна, поскольку выполняются все пять критериев, рассмотренные в
данном пункте.
5. Проверка качества с помощью R2, значимости модели с
помощью критерия Фишера F и Eотн и точности с помощью S(y)
5а) Коэффициент детерминации R2
?E2=21,97
(из п. 4б)
x
y
y - y
ср
(y - y
ср)2
10
52
-8,11
65,77
14
54
-6,11
37,33
21
55
-5,11
26,11
24
59
-1,11
1,23
33
60
-0,11
0,01
41
62
1,89
3,57
44
63
2,89
8,35
47
66
5,89
34,69
49
70
9,89
97,81
541
274,89
y
ср=541/9=60,11
R2=1-21,97/274,89=0,92
модель
обладает высоким качеством (R2 ~1)
5б) Значимость модели по критерию Фишера
Провести проверку значимости модели с помощью F – теста. Если
расчетное значение Fрасч больше критического Fкрит при заданном уровне
значимости a=0,05 и со степенями свободы v1=m и v2=n-m-1 (где m – число
факторов, включенных в модель), то модель считается значимой.
Для получения критического значения воспользоваться функцией FРАСПОБР(a;
v1,; v2).
F(расч)=(0,92/1)/(1-0,92)*(9-1-1)=80,5
F(крит)=5,6<<80,5=F(расч)
-
модель значимая
5в) S(y) и Eотн
S(y)=v (1/(9-1-1)*21,97 )=1,77
x
y
E
|E/y|
10
52
0,09
0,0017
14
54
0,56
0,0104
21
55
-1,12
0,0204
24
59
1,74
0,0295
33
60
-0,71
0,0118
41
62
-1,76
0,0284
44
63
-1,91
0,0303
47
66
-0,06
0,0009
49
70
3,18
0,0454
283
541
0,1788
Eотн= 1/9*0,1788*100%=1,99
- эта ошибка не превышает
15%,
модель удовлетворяет требованиям, рассмотренным в данном пункте.
6) коэффициент эластичности
x
ср=283/9= 31,44
y
ср=541/9=60,111
Э(xy)=0,38*31,44/60,11
=0,1987
7) t-критерий Стьюдента для
коэффициента при х
t(x)=8,98 (Пакет анализа -> Регрессия);
t(x)>t табл
- коэффициент значим.
Прогноз на 2 шага вперед
В среднем шаг равен 5 (в среднем – потому что
приращения x(i+1)-x(i) неодинаковы).
Поэтому два шага вперед после последнего x(9)=49
x(9+2)=x(11)=49+5*2=59.
Подставив x(11) в уравнение регрессии, полученное в п.3
y=0,38x+48,09
получим
y(59)=0,38*59+48,09=70,51.
Доверительный интервал прогноза :
Ширина интервала
t(0,3
; 9-1-1) =1,12
из
п. 5в :
S(y)=1,77
(xn+k-xср)2=(59-31,4)2=27,62=761,76
x
x-x(ср)
(x-x(ср))2
10
-21,4
457,96
14
-17,4
302,76
21
-10,4
108,16
24
-7,4
54,76
33
1,6
2,56
41
9,6
92,16
44
12,6
158,76
47
15,6
243,36
49
17,6
309,76
283
1730,24
?=1,12*1,77* v(1+1/9+761,76/1730,24)=2,47
тогда
доверительное значение лежит между
y(x прогн)-?/2
и
y(x прогн)+?/2
т.е.
между
70,51-2,47/2=69,28
и
70,51+2,47/2=71,75.