Ūkio statistikos kursinis projektas
Įvadas 3
1. Duomenų aprašomoji statistika 4
2. Skurdo rodiklių įvertinimas 8
3. Išlaidų priklausomybės nuo įvairių faktorių tyrimas (regresinė analizė) 10
4. Determinacijos koeficiento įvertis 13
5. Regresijos koeficiento reikšmingumo patikrinimas 14
6. Hipotezės tyrimas 15
Išvados 16Įvadas
Kursinio darbo tikslas – patikrinti hipotezes, ar namų ūkių esančių mieste vidutinės disponuojamos pajamos didesnės už vidutines disponuojamas pajamas namų ūkių esančių kaime, nustatyti ar egzistuoja tiesioginis ryšys tarp namų ūkių disponuojamų pajamų ir namų ūkio galvos lyties, įvertinti skurdo ir nelygybės rodiklius, atlikti regresinę analizę, ištirti nuo kokių veiksnių priklauso namų ūkių išlaidos, patikrinti regresijos koeficiento rreikšmingumą.
Namų ūkis – atskirai gyvenantis vienas asmuo arba asmenų grupė, kuri gyvena viename name ir turi bendrą biudžetą.
Namų ūkio galva – tai asmuo gaunantis didžiausias pajamas.
Vartojimo išlaidos – tai piniginės ir natūrinės išlaidos, skirtos namų ūkio vartojimo poreikiams patenkinti: išlaidos maistui, būstui, drabužiams, sveikatos priežiūrai ir t. t.
Statistinė hipotezė – tvirtinimas apie atsitiktinio dydžio pasiskirstymo formą ar apie pasiskirstymo parametrų reikšmes.
Skurdo riba – kriterijus, kurio pagalba tyrinėtojai suskirsto individus, šeimas į skurstančias ir ne.
Yra 3 skurdo ribų tipai:
1. Absoliuti (minimalus pinigų kkiekis, kurio užtenka būtinom prekėm ir paslaugom),
2. Santykinė (procentas nuo gyventojų pajamų),
3. Subjektyvi (priklauso nuo žmonių nuomonės).
Pagrindiniai skurdo rodikliai – skurstančiųjų lygis šalyje, žemų pajamų nuokrypis, indeksas, kvadratinis skurdo nuokrypis.
Skurstančiųjų gyventojų lygis šalyje – rodiklis, parodantis šalies gyventojų dalį, kurių pajamos yra žžemiau skurdo ribos.
Žemų pajamų nuokrypis – rodiklis, parodantis, kiek vidutiniškai skurstančiųjų pajamos nukrypsta nuo skurdo ribos.
Kvadratinis skurdo nuokrypis – atspindi pajamų pasiskirstymą tarp skurstančiųjų. Kuo daugiau šalyje yra skurstančiųjų, tuo didesnis šis rodiklis.
Determinacijos koeficientas – parodo regresinės lygties adekvatumą, kuris tikrinamas pagal Fišerio kriterijų, reikšmingumas vertinamas pagal Stjudento kriterijų.
Duomenys,panaudoti kursiniame projekte:
Tyrimo ketvirtis: 0 – 3 ketvirtis 1999 m., 1 – 3 ketvirtis 2000 m.;
Namų ūkio galvos lytis: 0 – vyras, 1 – moteris;
Namų ūkio galvos socialinė – ekonominė grupė – 0 – samdomo darbuotojai, 1 – kita;
Gyvenamoji vieta: 0 – 5 didieji miestai, 1 – kita.1. Duomenų aprašomoji statistika
Iš pateiktos statistikos matau, kad nagrinėjami 29 namų ūkiai, Iš jų:
1. Mieste 17 ūkių
2. Kaime 12 ūkių
59% visų nagrinėjamų namų ūkių randasi miestuose, o 441% kaime.
Nagrinėdamas informaciją apie pateiktų namų ūkių galvos socialinę – ekonominę grupę, pastebiu, kad:
1. Ūkininkai 3
2. Samdomi darbuotojai 16
3. Verslininkai 1
4. Pensininkai 7
5. Kita 2
Didžiausią (56%) visų namų ūkių dalį sudaro samdomi darbuotojai.
1. Bendra namų ūkio aprašomoji charakteristika
Paimame tris kiekybines namų ūkio charakteristikas – namų ūkio dydis, namų ūkio disponuojamos pajamos ir namų ūkio vartojimo išlaidos. Duomenys išdėstyti trim stulpeliais.
Namų ūkio eilės Nr. Namų ūkio dydis Namų ūkio disponuojamos pajamos Namų ūkio vartojimo išlaidos
3231 3 886 718
3232 3 742 695
3233 3 657 1640
3234 2 675 678
3235 3 3358 1930
3236 2 1932 1263
3237 3 840 728
3238 3 1241 718
3239 2 768 1190
3240 5 3813 4001
3241 2 170 1170
3242 1 346 282
3243 5 873 1234
3244 3 706 770
3245 1 315 311
3246 4 1874 1784
3247 4 1064 1007
3248 2 589 909
3249 3 1202 906
3250 1 561 225
3251 3 735 489
3252 3 1513 1159
3253 2 680 830
3254 4 7156 2040
3255 4 1691 1201
3256 1 121 129
3257 4 2021 972
3258 4 1932 2086
3259 5 1821 1880
Iš viso 85 40282 32945
MS Excel programoje atidarome posisteminį Tools – Data Analysis ir pesirenkame „Descriptive statistics“ – „Aprašomoji sstatistika“, atidariusiame lange pažymime „smmary statistics“ – „statistikos suvestinė“. Gauname lentelę su trijų atsitiktinių dydžių pagrindinėmis statistinėmis charakteristikomis. Išvertus pavadinimus į lietuvių kalbą, gausime lentelę:
Namų ūkio dydis Namų ūkio disponuojamos pajamos Namų ūkio vartojimo
išlaidos
Vidurkis 2,931034 1389,034 1136,034
Standartinė paklaida 0,221565 261,2475 143,7903
Mediana 3 873 972
Moda 3 negalima negalima
Vid. kvadratinis nuokrypis 1,193166 1406,861 774,3344
Dispersija 1,423645 1979257 599593,8
Eksceso koeficientas -0,66578 9,823852 5,623458
Asimetrijos koeficientas 0,0058 2,816771 1,874723
Duomenų plotis 4 7035 3872
Minimali reikšmė 1 121 129
Maksimali reikšmė 5 7156 4001
Suma 85 40282 32945
Duomenų skaičius 29 29 29
Dažniausiai statistikoje naudojamos yra šios charakteristikos:
Vidurkis – visų stebėtų skaitinių duomenų suma, padalinta iš duomenų skaičiaus.
Dispersija – išsibarstymo apie vidurkį matas. Tai skirtumų tarp stebėtų duomenų reikšmių ir vidurkio kvadratų vidurkis.
Vidutinis kvadratinis nuokrypis – tai kvadratinė šaknis iš dispersijos.
Mediana – tai vidurinis duomuo stebėjimų sekoje, išdėstytoje didėjimo tvarka. Jeigu turime lyginį stebėjimų skaičių, medianos numeris bus trumpesnis, tai yra, viduriniai duomenys yra du, todėl mediana tokiu atveju randama kaip dviejų vidurinių duomenų vidurkis.
Moda – tai reikšmė, kuri pasikartoja dažniausiai. Jeigu visi duomenys pasikartoja po vieną kartą, tai modos rasti negalima.
1. Namų ūkio dydis.
Stebėjimų sekoje vidutinis namų ūkio dydis yra 2,93 žmogaus. Mediana lygi 3 (vidurinis duomuo yra 3). Moda yra 3 (tai reiškia, kad dažniausiai pasikartoja skaičius 3). Dispersija lygi 1,42, o vidutinis kvadratinis nuokrypis 1,19. Duomenų plotis (skirtumas tarp max ir min reikšmių) yra 4. Minimali stebėjimo reikšmė yra 1, o maksimali – 5. Duomenų suma lygi 85, iš viso yra 29 stebėjimai.
2. Namų ūkio disponuojamos pajamos.
Vidutinės disponuojamos pajamos yra 1389,03 LLt. Mediana (vidurinis duomuo) lygi 873. Modos nėra, tai reiškia, kad visi stebėjimai pasikartoja po vieną kartą. Dispersija lygi 1979257, o vidutinis kvadratinis nuokrypis yra 1406.86. Duomenų plotis yra 7035. Minimali stebėta reikšmė – 121, maksimali – 7156. Duomenų suma lygi 40282. Stebėjimai – 29
3. Namų ūkio vartojimo išlaidos.
Stebėjimo sekoje vidutinės namų ūkio išlaidos yra 1136,03 Lt. Mediana (vidurinis duomuo) lygi 972, modos nėra, nes visi stebėjimai pasikartoja po vieną kartą. Dispersija yra 599593,8, o vidutinis kvadratinis nuokrypi.s – 724,33. Duomenų plotis yra 3872. Minimali stebėjimo reikšmė – 129, o maksimali – 4001. Duomenų suma lygi 32945, stebėjimai – 29.2. Skurdo rodiklių įvertinimas
Apskaičiuosiu 4 skurdo rodiklius:
1. Skurstančiųjų gyventojų lygį šalyje;
2. Žemų pajamų nuokrypį (skurdo gylį);
3. Žemų pajamų indeksą;
4. Kvadratinį skurdo nuokrypį.
Norint rasti šiuos rodiklius, reikia apskaičiuoti pajamas vienam namų ūkio nariui. Jos gaunamos ūkio disponuojamas pajamas padalinus iš namų ūkio dydžio. Sudėjus visas namų ūkio disponuojamas pajamas ir padalinus jas iš namų ūkio dydžių sumos gausiu vidutines pajamas vienam namų ūkio nariui. Skurdo ribą pasirenku 70% nuo vidutinių pajamų vienam namų ūkio nariui. Visi rodikliai skaičiuojami abiem ketvirčiams.
Namų ūkio eilės Nr. Namų ūkio dydis Namų ūkio disponuojamos pajamos Pajamos vienam ūkio nariui
3231 3 886 295,33
3232 3 742 247,33
3233 3 657 219,00
3234 2 675 337,50
3235 3 3358 1119,33
3236 2 1932 966,00
3237 3 840 280,00
3238 3 1241 413,67
3239 2 768 384,00
3240 5 3813 762,60
3241 2 170 85,00
3242 1 346 346,00
3243 5 873 174,60
3244 3 706 235,33
3245 1 315 315,00
3246 4 1874 468,50
3247 4 1064 266,00
3248 2 589 294,50
3249 3 1202 400,67
3250 1 561 561,00
3251 3 735 245,00
3252 3 1513 504,33
3253 2 680 340,00
3254 4 7156 1789,00
3255 4 1691 422,75
3256 1 121 121,00
3257 4 2021 505,25
3258 4 1932 483,00
3259 5 1821 364,20
Iš viso 85 40282
Skurdo ribą paskaičiuoju taip: (40282 : 85) * 0.7 = 331,73
1. Skurstančiųjų gyventojų lygis šalyje ((L):
q – skurstančiųjų gyventojų skaičius;
n – visų gyventojų skaičius.
L = = 0,4
Reiškia yra 40% gyventojų, kurių pajamos žemiau skurdo ribos.
2. Žemų pajamų nuokrypis (N) (skurdo lygis):
yi – i – tojo skurstančiojo pajamos;
z – skurdo riba
N = 0,1066
Šis rodiklis rodo, kad vidutiniškai 10.66% skurstančiųjų pajamos nukrypsta nuo skurdo ribos.
3. Žemų pajamų indeksas (I):
I = L*N = 0,0426
4. Kvadratinis skurdo nuokrypis (Q):
,kur
yi – i – tojo skurstančiojo pajamos;
z – skurdo riba;
k – asmenų suma ūkyje;
n – gyventojų skaičius
Q = 0,11543. Išlaidų priklausomybės nuo įvairių faktorių tyrimas (regresinė analizė)
Tikslas – ištirti Y priklausomybę nuo X1,.,X5 ir atrinkti reikšmingus Xi (i = 1, 2, 3, 4, 5). Regresinei analizei atlikti naudojama: Excel – Tools – Data Analysis – Regression.
y X1 X2 X3 X4 X5
Namų ūkio vartojimo išlaidos Namų ūkio vartojimo išlaidos 1
gyventojui Namų ūkio disponuojamos pajamos 1 gyventojui Tyrimo ketvirtis (1 – 1999 m. 3 – ket., 0 – 2000 m. 3 ket.) Namų ūkiai su vaikais ir be vaikų (su vaikais – 1, be vaikų – 0) Namų ūkio galvos socialinė – ekonominė grupė (1 – samdomi darbuotojai, 0 – kiti) Gyvenamoji vieta (1 – miestas, 0 – kaimas)
718 239,33 295,33 1 0 0 0
695 231,67 247,33 1 0 0 0
1640 546,67 219,00 1 0 1 0
678 339,00 337,50 1 0 0 1
1930 643,33 1119,33 1 1 1 1
1263 631,50 966,00 1 0 1 1
728 242,67 280,00 1 1 1 1
718 239,33 413,67 1 1 1 1
1190 595,00 384,00 1 0 0 1
4001 800,20 762,60 1 1 1 1
1170 585,00 85,00 1 0 0 0
282 282,00 346,00 1 0 1 0
1234 246,80 174,60 1 1 1 0
770 256,67 235,33 0 0 0 0
311 311,00 315,00 0 0 1 0
1784 446,00 468,50 0 0 1 1
1007 251,75 266,00 0 1 0 0
909 454,50 294,50 0 0 0 0
906 302,00 400,67 0 0 0 0
225 225,00 561,00 0 0 0 1
489 163,00 245,00 0 1 0 1
1159 386,33 504,33 0 1 1 1
830 415,00 340,00 0 0 1 1
2040 510,00 1789,00 0 1 1 1
1201 300,25 422,75 0 0 1 1
129 129,00 121,00 0 0 0 1
972 243,00 505,25 0 1 0 0
2086 521,50 483,00 0 1 1 1
1880 376,00 364,20 0 1 1 1
Pasirinkau tokį modelį, nes manau, kad tarp disponuojamų pajamų ir vartojimo išlaidų yra ryšys.
Multiple R 0,621727
R Square 0,386544
Adjusted R Square 0,253184
Standard Error 144,6173
Observations 29
ANOVA
df SS MS F Significance F
Regression 5 303098,2884 60619,66 2,898499 0,035835
Residual 23 481025,6434 20914,16
Total 28 784123,9318
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0%
Intercept 210,3656 56,75978312 3,706244 0,001163 92,9492 327,782 92,9492 327,782
X Variable
1 0,216992 0,09193784 2,360208 0,027122 0,026805 0,40718 0,026805 0,40718
X Variable 2 97,96455 55,09155461 1,778214 0,088593 -16,0009 211,93 -16,0009 211,93
X Variable 3 -55,1205 59,92696425 -0,91979 0,367227 -179,089 68,84769 -179,089 68,84769
X Variable 4 67,31611 62,59412441 1,075438 0,293331 -62,1695 196,8017 -62,1695 196,8017
X Variable 5 18,50499 62,61244532 0,295548 0,770227 -111,019 148,0285 -111,019 148,0285
Significance F < α (0,035835 < 0,05), vadinasi bent vienas regresorius yra reikšmingas. Kadangi X5 P – Value reikšmė yra didžiausia iš visų tiriamų Xi (P = 0,770227) ir didesnė už 0,05, tai šį faktorių išmetame iš tyrimo kaip nereikšmingą.
Sudarome naują lentelę (tik be X5) ir pakartojame operacijas iš naujo: Excel – Tools – Data Analysis – Regression.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,619850056
R Square 0,384214092
Adjusted R Square 0,281583107
Standard Error 141,8409419
Observations 29
ANOVA
df SS MS F Significance F
Regression 4 301271,4644 75317,8661 3,743646162 0,016678764
Residual 24 482852,4674 20118,85281
Total 28 784123,9318
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 995,0%
Intercept 215,4110419 53,09246103 4,05728116 0,000455858 105,8336105 324,9884733 105,8336105 324,9884733
X Variable 1 0,224621084 0,086546037 2,595394229 0,015868725 0,04599888 0,403243288 0,04599888 0,403243288
X Variable 2 96,14019601 53,69366658 1,7905314 0,08599242 -14,6780624 206,9584544 -14,6780624 206,9584544
X Variable 3 -53,2172703 58,4361515 -0,91069088 0,371514698 -173,823535 67,38899389 -173,823535 67,38899389
X Variable 4 71,71514948 59,63148846 1,20263893 0,240847094 -51,3581685 194,7884674 -51,3581685 194,7884674
Significance F < α (0,016678764 < 0,05), vadinasi bent vienas regresorius yra reikšmingas. Kadangi X3 P – Value reikšmė yra didžiausia iš visų tiriamų Xi (P = 0,371514698) ir didesnė už 0,05, tai šį faktorių išmetame iš tyrimo kaip ne.reikšmingą.
Sudarome naują lentelę (tik be X3) ir pakartojame operacijas iš naujo: Excel – Tools – Data Analysis – Regression.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,602440568
R Square 0,362934638
Adjusted R Square 0,286486794
Standard Error 141,3560323
Observations 29
ANOVA
df SS MS F Significance F
Regression 3 284585,7353 94861,91175 4,747480393 0,009370903
Residual 25 499538,1966 19981,52786
Total 28 784123,9318
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0%
Intercept 206,8468683 52,07433898 3,972145828 0,000532167 99,59783471 314,0959019 99,59783471 314,0959019
X VVariable 1 0,207463456 0,084181702 2,464472084 0,020944295 0,034088116 0,380838796 0,034088116 0,380838796
X Variable 2 100,1270081 53,33195193 1,877430029 0,072174967 -9,71212606 209,9661422 -9,71212606 209,9661422
X Variable 4 57,96803515 57,49201146 1,008279823 0,322980041 -60,438896 176,3749663 -60,438896 176,3749663
Significance F < α (0,009370903 < 0,05), vadinasi bent vienas regresorius yra reikšmingas. Kadangi X4 P – Value reikšmė yra didžiausia iš visų tiriamų Xi (P = 0, 322980041) ir didesnė už 0,05, tai šį ffaktorių išmetame iš tyrimo kaip nereikšmingą.
Sudarome naują lentelę (tik be X4) ir pakartojame operacijas iš naujo: Excel – Tools – Data Analysis – Regression.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,58054138
R Square 0,337028293
Adjusted R Square 0,28603047
Standard Error 141,4012269
Observations 29
ANOVA
df SS MS F Significance F
Regression 2 264271,9505 132135,9753 6,608679933 0,004780077
Residual 26 519851,9813 19994,30697
Total 28 784123,9318
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0%
Intercept 221,0133734 50,15912153 4,4062449 0,000161072 117,9097549 324,1169919 117,9097549 324,1169919
X Variable 1 0,239871236 0,077828945 3,082031211 0,004818311 0,079891445 0,399851028 0,079891445 0,399851028
X Variable 2 107,597164 52,83171919 2,036601603 0,051993304 -1,00006124 216,1943893 -1,00006124 216,1943893
Significance F < α (0,004780077 < 0,05), vadinasi bent vienas regresorius yra reikšmingas. Kadangi X2 P – Value reikšmė yra didžiausia iš visų tiriamų Xi (P = 0,599898287) ir didesnė už 0,05, tai šį faktorių išmetame iš tyrimo kaip nereikšmingą.
Sudarome naują lentelę (tik be X2) ir pakartojame operacijas iš naujo: Excel – Tools – Data Analysis – Regression.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,48090049
R Square 0,231265282
Adjusted R Square 0,202793625
Standard Error 149,4165554
Observations 29
ANOVA
df SS MS F Significance F
Regression 1 181340,6419 181340,6419 8,122649407 0,00827087
Residual 27 602783,2899 22325,30703
Total 28 784123,9318
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0%
Intercept 271,7603681 45,99986957 5,907850842 2,69806E-06 177,3764952 366,1442411 177,3764952 366,1442411
X Variable 1 0,234240132 0,082188764 2,850026212 0,00827087 0,065602831 0,402877433 0,065602831 0,402877433
X1 P – value yyra mažesnis už 0,05, tai reiškia, kad vartojimo išlaidos vienam namų ūkio nariui priklauso nuo vienam namų ūkio nariui tenkančių pajamų. Šią priklausomybę aprašo lygtis:
Y = 271,76 + 0,23 * X1
Y – išlaidos vienam namų ūkio nariui, Lt;
X1 – namų ūkio disponuojamos pajamos vienam ūkio nariui.
Didžiausios išlaidos, tenkančios vienam namų ūkio nariui, bus tada, kai jis gaus didžiausias pajamas:
Y = 271,76 + 0,23 * 1789 = 683,23 Lt
Mažiausios išlaidos, tenkančios vienam namų ūkio nariui, bus tada, kai jis gaus mmažiausias pajamas:
Y = 271,76 + 0,23 * 85 = 291,31 Lt
Remiantis gautais rezultatais, galima daryti tokias išvadas: namų ūkio vartojamos išlaidos nepriklauso nuo tyrimo ketvirčio, šeimos .sudėties (su vaikais ar be jų), namų ūkio galvos socialinės – ekonominės grupės, gyvenamosios vietos.4. Determinacijos koeficiento įvertis
Determinacijos koeficientas parodo, kaip gerai pasirinktas modelis aprašo duomenis. Determinacijos koeficientas gali priimti tokias reikšmes: 0 ≤ R2 ≤ 1. Kuo R2 Yra arčiau 1, tuo pasirinktas modelis geriau aprašo duomenis.
Aš gaunu, kad R2 = 0,231. Tai reiškia, kad vartojimo išlaidos 23,1% priklauso nuo disponuojamų pajamų, 76,9% – nuo kitų neįvertintų reikšmių.5. Regresijos koeficiento reikšmingumo patikrinimas
Regresijos koeficiento reikšmingumas tikrinamas Fišerio kriterijaus pagalba. Fišerio santykinė reikšmė lyginama su lenteline reikšme ir daromos atitinkamos išvados. Naudojantis Excel – Tools – Data Analysis – Regression, gaunamas F kriterijus (Significance F). Kuo šis kriterijus mažesnis (neturi viršyti 0,05), tuo regresijos lygtis adekvatesnė realiai padėčiai. Jei reikšmingumo lygmuo α = 0,05 ir Significance F < 0,05, daroma tokia išvada, kad bent vienas iš Xi yra reikšmingas.6. Hipotezės tyrimas
Tiriu hipotezę apie namų ūkio galvos išsilavinimą ir namų ūkio disponuojamų pajamų priklausomybę. Išsirenku 2000 m. 3 – io ketvirčio rezultatus. Pasirenku daugiausiai pasikartojančius duomenis išsilavinimo skiltyje. Tai pradinis (2) ir bendras vidurinis (4).
Namų ūkio disponuojamos ppajamos (x) Namų ūkio galvos išsimokslinimas
(y)
706 4
315 2
1874 3
1064 2
589 1
1202 2
561 1
735 2
1513 4
680 3
7156 4
1691 5
121 2
2021 1
1932 3
1821 4
x = 1196 y = 3437
= 2799 = 687,4
Sx2 = 2942,47 Sy2 = 465,94
t =
k =
k 5,013 k = 5; α = 0,05
x y t t ; k
t0,025;5 = 2.571 2.55 2.571
Ats.: H0 paliekam, taigi pajamos priklauso nuo išsimokslinimo.Išvados
Įvertinus skurdo rodiklį (skurstančių gyventojų lygį šalyje) buvo nustačiau, kad 1999 ir 2000 m. 3 ketvirtyje buvo 40% skurstančiųjų gyventojų. Taip pat apskaičiavau žemų pajamų nuokrypius, indeksus, kvadratinius skurdo nuokrypius.
Atlikus regresinę analizę, buvo gauta regresijos lygtis,kuri parodo, kad vartojimo išlaidos vienam namų ūkio nariui priklauso nuo namų ūkio disponuojamų pajamų vienam gyventojui. Vartojimo išlaidoms vienam namų ūkio nariui mažai įtakos turi, tyrimo laikas, gyvenamoji vieta, šeimos sudėtis, namų ūkio galvos socialinė – ekonominė grupė.