Sakarību veidi starp nejaušiem mainīgajiem. Korelācijas analīze. Detalizēts risinājuma piemērs. Korelācijas koeficients, noteikšana

Korelācijas analīzes mērķis ir identificēt saiknes stipruma novērtējumu starp nejaušiem mainīgajiem (iezīmēm), kas raksturo kādu reālu procesu.
Korelācijas analīzes problēmas:
a) Divu vai vairāku parādību saskaņotības pakāpes (tuvuma, stipruma, smaguma, intensitātes) mērīšana.
b) To faktoru atlase, kuriem ir visnozīmīgākā ietekme uz iegūto atribūtu, pamatojoties uz parādību savienojamības pakāpes mērīšanu. Faktori, kas ir nozīmīgi šajā aspektā, tiek izmantoti turpmāk regresijas analīzē.
c) Nezināmu cēloņsakarību noteikšana.

Attiecību izpausmes formas ir ļoti dažādas. Visizplatītākie veidi ir funkcionālie (pilnīgie) un korelācijas (nepilnīgs) savienojums.
Korelācija parādās vidēji masu novērojumiem, kad dotās vērtības atkarīgais mainīgais atbilst noteiktai neatkarīgā mainīgā varbūtības vērtību sērijai. Attiecības sauc par korelāciju, ja katra faktora raksturlieluma vērtība atbilst precīzi definētai rezultējošā raksturlieluma negadījuma vērtībai.
Korelācijas tabulas vizuāls attēlojums ir korelācijas lauks. Tas ir grafiks, kurā X vērtības ir attēlotas uz abscisu ass, Y vērtības ir attēlotas uz ordinātu ass, bet X un Y kombinācijas ir parādītas ar punktiem. Pēc punktu atrašanās vietas var spriest par klātbūtni no savienojuma.
Savienojuma ciešuma rādītājiļauj raksturot iegūtās pazīmes variācijas atkarību no faktorpazīmes variācijas.
Uzlabotāks drūzmēšanās pakāpes rādītājs korelācijas savienojums ir lineārās korelācijas koeficients. Aprēķinot šo rādītāju, tiek ņemtas vērā ne tikai atsevišķu raksturlielumu vērtību novirzes no vidējā, bet arī pats šo noviržu lielums.

Šīs tēmas galvenie jautājumi ir regresijas vienādojumi starp iegūto raksturlielumu un skaidrojošo mainīgo, metode mazākie kvadrāti novērtēt regresijas modeļa parametrus, analizēt iegūtā regresijas vienādojuma kvalitāti, konstruēt ticamības intervālus iegūtā raksturlieluma vērtību prognozēšanai, izmantojot regresijas vienādojumu.

2. piemērs


Normālo vienādojumu sistēma.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Mūsu datiem vienādojumu sistēmai ir forma
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
No pirmā vienādojuma mēs izsakām A un aizstāt ar otro vienādojumu:
Mēs iegūstam b = -3,46, a = 1379,33
Regresijas vienādojums:
y = -3,46 x + 1379,33

2. Regresijas vienādojuma parametru aprēķins.
Izlases līdzekļi.



Izlases paraugi:


Standarta novirze


1.1. Korelācijas koeficients
Kovariance.

Mēs aprēķinām savienojuma tuvuma indikatoru. Šis rādītājs ir izlases lineārās korelācijas koeficients, ko aprēķina pēc formulas:

Lineārās korelācijas koeficients ņem vērtības no –1 līdz +1.
Savienojumi starp raksturlielumiem var būt vāji un spēcīgi (cieši). Viņu kritēriji tiek novērtēti Čadoka skalā:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Mūsu piemērā saistība starp pazīmi Y un faktoru X ir augsta un apgriezta.
Turklāt lineāro pāru korelācijas koeficientu var noteikt, izmantojot regresijas koeficientu b:

1.2. Regresijas vienādojums(regresijas vienādojuma novērtējums).

Lineārās regresijas vienādojums ir y = -3,46 x + 1379,33

Koeficients b = -3,46 parāda efektīvā rādītāja vidējo izmaiņu (mērvienībās y) ar faktora x vērtības pieaugumu vai samazināšanos uz vienu tā mērvienību. Šajā piemērā, palielinoties par 1 vienību, y vidēji samazinās par -3,46.
Koeficients a = 1379,33 formāli parāda prognozēto y līmeni, bet tikai tad, ja x = 0 ir tuvu izlases vērtībām.
Bet, ja x=0 ir tālu no x izlases vērtībām, tad burtiskā interpretācija var novest pie nepareiziem rezultātiem, un pat ja regresijas līnija diezgan precīzi apraksta novērotās izlases vērtības, nav garantijas, ka tas arī ekstrapolējot pa kreisi vai pa labi.
Aizvietojot atbilstošās x vērtības regresijas vienādojumā, mēs varam noteikt veiktspējas rādītāja y(x) izlīdzinātās (paredzamās) vērtības katram novērojumam.
Sakarība starp y un x nosaka regresijas koeficienta b zīmi (ja > 0 - tieša sakarība, pretējā gadījumā - apgriezta). Mūsu piemērā savienojums ir apgriezts.
1.3. Elastības koeficients.
Nav vēlams izmantot regresijas koeficientus (piemērā b), lai tieši novērtētu faktoru ietekmi uz rezultējošo raksturlielumu, ja ir atšķirības rezultējošā rādītāja y un faktora raksturlieluma x mērvienībās.
Šiem nolūkiem tiek aprēķināti elastības koeficienti un beta koeficienti.
Vidējais elastības koeficients E parāda, par cik procentiem vidēji mainīsies rezultāts kopumā plkst no tās vidējās vērtības, kad faktors mainās x par 1% no tās vidējās vērtības.
Elastības koeficientu nosaka pēc formulas:


Elastības koeficients ir mazāks par 1. Tāpēc, ja X mainīsies par 1%, Y mainīsies par mazāk nekā 1%. Citiem vārdiem sakot, X ietekme uz Y nav nozīmīga.
Beta koeficients parāda, par kādu tā standartnovirzes vērtības daļu mainīsies iegūtā raksturlieluma vidējā vērtība, kad faktora raksturlielums mainīsies par tā standartnovirzes vērtību ar atlikušo neatkarīgo mainīgo vērtību, kas fiksēta nemainīgā līmenī:

Tie. x palielinājums par standartnovirzi S x novedīs pie Y vidējās vērtības samazināšanās par 0,74 standartnovirzi S y .
1.4. Tuvināšanas kļūda.
Novērtēsim regresijas vienādojuma kvalitāti, izmantojot absolūtās aproksimācijas kļūdu. Vidējā aproksimācijas kļūda - aprēķināto vērtību vidējā novirze no faktiskajām:


Tā kā kļūda ir mazāka par 15%, šo vienādojumu var izmantot kā regresiju.
Dispersijas analīze.
Dispersijas analīzes mērķis ir analizēt atkarīgā mainīgā dispersiju:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Kur
∑(y i - y cp) 2 - noviržu kvadrātā kopējā summa;
∑(y(x) - y cp) 2 - regresijas izraisīto noviržu summa kvadrātā (“izskaidrots” vai “faktoriāls”);
∑(y - y(x)) 2 - noviržu kvadrātā atlikušā summa.
Teorētiskās korelācijas attiecības lineāram savienojumam ir vienāds ar korelācijas koeficientu r xy .
Jebkura veida atkarības gadījumā savienojuma hermētiskumu nosaka, izmantojot daudzkārtējās korelācijas koeficients:

Šis koeficients ir universāls, jo tas atspoguļo savienojuma ciešumu un modeļa precizitāti, un to var izmantot arī jebkura veida savienojumam starp mainīgajiem. Konstruējot viena faktora korelācijas modeli, daudzkārtējās korelācijas koeficients ir vienāds ar pāra korelācijas koeficientu r xy.
1.6. Determinācijas koeficients.
(Daudzkārtējās) korelācijas koeficienta kvadrātu sauc par determinācijas koeficientu, kas parāda rezultējošā atribūta variācijas proporciju, kas izskaidrojama ar faktora atribūta variāciju.
Visbiežāk, interpretējot determinācijas koeficientu, tas tiek izteikts procentos.
R2 = -0,742 = 0,5413
tie. 54,13% gadījumu x izmaiņas izraisa y izmaiņas. Citiem vārdiem sakot, regresijas vienādojuma atlases precizitāte ir vidēja. Atlikušos 45,87% Y izmaiņu izskaidro faktori, kas modelī nav ņemti vērā.

Bibliogrāfija

  1. Ekonometrija: mācību grāmata / Red. I.I. Elisejeva. – M.: Finanses un statistika, 2001, lpp. 34..89.
  2. Magnuss Y.R., Katiševs P.K., Peresetskis A.A. Ekonometrija. Iesācēju kurss. Apmācība. – 2. izd., red. – M.: Delo, 1998, lpp. 17..42.
  3. Seminārs par ekonometriju: Proc. pabalsts / I.I. Elisejeva, S.V. Kuriševa, N.M. Gordeenko un citi; Ed. I.I. Elisejeva. – M.: Finanses un statistika, 2001, lpp. 5..48.

Nejaušais lielums ir lielums, kas eksperimenta rezultātā var iegūt vienu vai otru iepriekš nezināmu vērtību.

Piemēri: gaisa zudumi un noplūdes, skābekļa absorbcijas pakāpe, neprecizitātes lādiņa komponentu svēršanā, izejvielu ķīmiskā sastāva svārstības nepietiekamas vidējās vērtības noteikšanas dēļ utt.

Sakarību, kas nosaka saikni starp iespējamām gadījuma lieluma vērtībām un tām atbilstošajām varbūtībām, sauc par sadalījuma likumu, kas kvantitatīvi izteikts divās formās.

Rīsi. 5.1. Sadalījuma funkcija (a) un sadalījuma blīvums (b)

Notikuma varbūtību atkarībā no vērtības sauc par nejaušā lieluma sadalījuma funkciju:

. (5.1) ir nesamazinoša funkcija (5.1.,a att.). Tās vērtības pie argumenta robežvērtībām ir vienādas ar: un.

Izplatības blīvums

Cita forma tiek izmantota biežāk sadales likums– nejauša lieluma sadalījuma blīvums, kas ir sadalījuma funkcijas atvasinājums:

. (5.2) Tad varbūtību atrast vērtību intervālā var izteikt ar sadalījuma blīvumu:

. (5.3`) Sadalījuma blīvums ir nenegatīva funkcija (21. att., b), laukums zem sadalījuma līknes ir vienāds ar vienību:

. (5.4) Sadalījuma funkciju var izteikt ar sadalījuma blīvumu:

. (5.5) Lielāko daļu praktisko problēmu risināšanai sadales likums, t.i. pilnas īpašības nejaušs mainīgais, neērti lietot. Tāpēc galveno pazīmju noteikšanai biežāk izmanto nejauša lieluma skaitliskos raksturlielumus sadales likums. Visizplatītākie no tiem ir matemātiskās cerības un dispersija(vai standarta novirze).

Paredzamā vērtība

Gadījuma lieluma matemātiskā cerība ir definēta šādi

. (5.6) kur

Gadījuma lieluma matemātisko cerību parasti novērtē pēc tā vidējā aritmētiskā, kas, palielinoties eksperimentu skaitam, saplūst ar matemātisko cerību.

. (5.7) kur ir nejaušā lieluma novērotās vērtības.

Ir svarīgi ņemt vērā, ka ja ir daudzums, kas laika gaitā nepārtraukti mainās (jumta, sienas temperatūra, ķīmiskais sastāvs sadegšanas produkti), tad par vērtību ir jāņem vērtības vērtības, kas atdalītas ar tādiem laika intervāliem, lai tos varētu uzskatīt par neatkarīgiem eksperimentiem. Praksē tas nozīmē, ka tiek ņemta vērā inerce, izmantojot atbilstošus kanālus. Tālāk tiks aplūkotas objektu inerces novērtēšanas metodes.

Dispersija un standarta novirze

Izkliede nosaka nejaušā mainīgā lieluma izkliedi ap tā matemātisko cerību

. (5.8) Dispersiju aprēķina, izmantojot formulu

. (5.9) un standartnovirzi saskaņā ar formulu

Korelācijas koeficients

Korelācijas koeficients raksturo lineārās attiecības pakāpi starp mainīgajiem, t.i., šeit jau ir runa par nejaušu lielumu sistēmu. Novērtējums tiek veikts, izmantojot formulu

. (5.10)

Kļūdu un ticamības intervālu noteikšana nejaušo lielumu raksturlielumiem

Lai apskatītos gadījuma lielumu raksturlielumus varētu izmantot ar noteiktu ticamību, papildus norādītajām aplēsēm ir nepieciešams katram no tiem aprēķināt kļūdas vai ticamības intervālus, kas ir atkarīgi no izkliedes pakāpes, lielumu skaita. eksperimenti un dotā ticamības varbūtība. Matemātiskās cerības kļūdu aptuveni nosaka formula

. (5.11) kur Stjudenta t-tests; tiek izvēlēts no tabulām atkarībā no norādītās ticamības varbūtības un eksperimentu skaita (piemēram, kad,).

Tādējādi matemātiskās cerības patiesā vērtība, visticamāk, ir ticamības intervālā

. (5.12) Ar doto aprēķinu precizitāti un ticamību var izmantot vienas un tās pašas formulas, lai aprēķinātu nepieciešamo neatkarīgo eksperimentu skaitu.

Kļūda daudzumos un

. (5.13) Tiek uzskatīts, ka lineāra sakarība starp un faktiski pastāv, ja

. vai

. (5.14) Piemēram, atkarība starp pētāmajiem lielumiem faktiski rodas, ja

. (5.15) Citādi lielumu attiecības pastāvēšana nav ticama.

Izlases vērtība

Gadījuma lieluma jēdziena definīcija

Saiknes formu starp nejaušajiem mainīgajiem nosaka regresijas līnija, kas parāda, kā vērtība mainās vidēji

mainoties vērtībai, ko raksturo vērtības nosacītā matemātiskā gaida, kas aprēķināta ar nosacījumu, ka vērtība ir ieguvusi noteiktu vērtību. Tādējādi regresijas līkne ir nosacītās matemātiskās cerības atkarība no zināmās vērtības

. (5.16) kur,– iespējas vienādojumi (koeficienti).

Izmaiņas nejaušā mainīgā izraisa stohastiski saistītā negadījuma mainīgā mainīgums, kā arī citi faktori, kas ietekmē, bet nav atkarīgi. Regresijas vienādojuma noteikšanas process sastāv no diviem svarīgiem posmiem: vienādojuma veida izvēles, t.i., funkcijas precizēšanas un regresijas vienādojuma parametru aprēķināšanas.

Regresijas vienādojuma veida izvēle

Šis veids tiek izvēlēts, pamatojoties uz pētāmās nejaušo mainīgo sistēmas īpašībām. Viena no iespējamām pieejām šajā gadījumā ir regresijas vienādojuma veida eksperimentāla atlase, pamatojoties uz iegūtā korelācijas lauka veidu starp vērtībām, vai vienādojumu struktūru mērķtiecīga uzskaitīšana un katra no tiem novērtējums, piemēram, , saskaņā ar atbilstības kritēriju. Gadījumā, ja par objektu ir noteikta a priori (pirmseksperimentāla) informācija, šim nolūkam ir efektīvāk izmantot teorētiskās idejas par procesiem un sakarību veidiem starp pētītajiem parametriem. Šī pieeja ir īpaši svarīga, ja ir nepieciešams kvantitatīvs cēloņu un seku saistību apraksts un noteikšana.

Piemēram, tikai ar priekšstatiem par tērauda ražošanas procesu teoriju var izdarīt secinājumus par cēloņsakarībām dekarbonizācijas ātruma atkarībai no pārveidotāja vannā ievadītā skābekļa plūsmas ātruma vai desulfurizācijas spējas. izdedži uz tā bāziskuma un oksidēšanās. Un, balstoties uz idejām par metāla skābekļa satura atkarības no oglekļa satura hiperbolisko raksturu, mēs varam iepriekš pieņemt, ka lineārais vienādojums Dekarburizācijas ātruma atkarība no pūšanas intensitātes reģionā ar zemu oglekļa saturu (mazāk nekā 0,2%) būs nepietiekama, un tādējādi tiks izvairīties no vairākiem soļiem. eksperimentāls vienādojuma veida izvēle.

Pēc regresijas vienādojuma veida izvēles tiek aprēķināti tā parametri (koeficienti), kuriem to visbiežāk izmanto mazāko kvadrātu metode, kas tiks apspriests tālāk.

Uzņēmumā strādā 10 cilvēki. 2. tabulā parādīti dati par viņu darba pieredzi un

mēnešalga.

Aprēķiniet, izmantojot šos datus

  • - izlases kovariācijas novērtējuma vērtība;
  • - izlases Pīrsona korelācijas koeficienta vērtība;
  • - no iegūtajiem lielumiem novērtēt savienojuma virzienu un stiprumu;
  • - noteikt, cik pamatoti ir teikt, ka šis uzņēmums izmanto Japānas vadības modeli, kas paredz, ka, jo vairāk laika darbinieks pavada konkrētajā uzņēmumā, jo lielākai jābūt viņa algai.

Pamatojoties uz korelācijas lauku, var izvirzīt hipotēzi (par populācija), ka attiecība starp visām iespējamām X un Y vērtībām ir lineāra.

Lai aprēķinātu regresijas parametrus, mēs izveidosim aprēķinu tabulu.

Izlases līdzekļi.

Izlases paraugi:

Aprēķinātais regresijas vienādojums būs

y = bx + a + e,

kur ei ir novērotās kļūdu ei, a un b vērtības (aplēses), attiecīgi parametru b aplēses un regresijas modelī, kas jāatrod.

Lai novērtētu parametrus b un c, tiek izmantota mazāko kvadrātu metode (mazāko kvadrātu metode).

Normālo vienādojumu sistēma.

a?x + b?x2 = ?y*x

Mūsu datiem vienādojumu sistēmai ir forma

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Sareizināsim sistēmas vienādojumu (1) ar (-30.7), iegūstam sistēmu, kuru atrisinām ar algebriskās saskaitīšanas metodi.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Mēs iegūstam:

1432,1 b = 105 390

No kurienes nāk b = 73.5912?

Tagad no (1) vienādojuma atradīsim koeficientu “a”:

  • 10a + 307 b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Iegūstam empīriskās regresijas koeficientus: b = 73,5912, a = 1070,7492

Regresijas vienādojums (empīriskais regresijas vienādojums):

y = 73,5912 x + 1070,7492

Kovariance.

Mūsu piemērā saikne starp pazīmi Y un faktoru X ir augsta un tieša.

Līdz ar to droši varam teikt – jo vairāk laika darbinieks strādā konkrētajā uzņēmumā, jo lielāka viņa alga.

4. Statistisko hipotēžu pārbaude. Risinot šo problēmu, pirmais solis ir formulēt pārbaudāmu hipotēzi un alternatīvu.

Vispārējo akciju vienlīdzības pārbaude.

Tika veikts pētījums par studentu sniegumu divās fakultātēs. Opciju rezultāti ir doti 3. tabulā. Vai var teikt, ka abās fakultātēs ir vienāds izcilnieku procents?

Vienkāršs vidējais aritmētiskais

Mēs pārbaudām hipotēzi par vispārējo akciju vienlīdzību:

Noskaidrosim Studenta kritērija eksperimentālo vērtību:

Brīvības pakāpju skaits

f = nх + nу - 2 = 2 + 2 - 2 = 2

Nosakiet tkp vērtību, izmantojot Studentu sadalījuma tabulu

Izmantojot Studentu tabulu, mēs atrodam:

Ttabula(f;b/2) = Ttabula(2;0,025) = 4,303

Izmantojot Studenta sadalījuma kritisko punktu tabulu pie nozīmīguma līmeņa b = 0,05 un noteiktā brīvības pakāpju skaita, mēs atrodam tcr = 4,303

Jo tob > tcr, tad nulles hipotēze tiek noraidīta, abu paraugu vispārējās daļas nav vienādas.

Vispārējā sadalījuma viendabīguma pārbaude.

Universitātes pārstāvji vēlas noskaidrot, kā laika gaitā mainījusies humanitāro zinātņu nodaļas popularitāte. Šajā fakultātē pieteikto reflektantu skaits tika analizēts attiecībā pret kopējo reflektantu skaitu attiecīgajā gadā. (Dati doti 4. tabulā). Ja reflektantu skaitu uzskatām par reprezentatīvu izlasi no kopējā gada skolu absolventu skaita, vai var teikt, ka skolēnu interese par šīs fakultātes specialitātēm laika gaitā nemainās?

4. iespēja

Risinājums: Tabula rādītāju aprēķināšanai.

Intervāla vidus, xi

Uzkrātā frekvence, S

Frekvence, fi/n

Lai novērtētu sadalījuma sērijas, mēs atrodam šādus rādītājus:

Vidējais svērtais

Izmaiņu diapazons ir starpība starp primārās sērijas raksturlieluma maksimālo un minimālo vērtību.

R = 2008 - 1988 = 20 Dispersija - raksturo dispersijas mēru ap tā vidējo vērtību (dispersijas mērs, t.i. novirze no vidējā).

Standarta novirze (vidējā izlases kļūda).

Katra sērijas vērtība no vidējās vērtības 2002.66 atšķiras vidēji par 6.32

Pārbaudot hipotēzi par populācijas vienmērīgu sadalījumu.

Lai pārbaudītu hipotēzi par X vienmērīgu sadalījumu, t.i. saskaņā ar likumu: f(x) = 1/(b-a) intervālā (a,b) ir nepieciešams:

Novērtējiet parametrus a un b - tā intervāla galus, kurā tika novērotas iespējamās X vērtības, izmantojot formulas (* zīme apzīmē parametru aplēses):

Atrodiet paredzamā sadalījuma varbūtības blīvumu f(x) = 1/(b* - a*)

Atrodiet teorētiskās frekvences:

n1 = nP1 = n = n*1/(b* - a*)* (x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Salīdzināt empīriskās un teorētiskās frekvences, izmantojot Pīrsona kritēriju, ņemot brīvības pakāpju skaitu k = s-3, kur s ir sākotnējo iztveršanas intervālu skaits; ja tika veikta mazu frekvenču kombinācija un līdz ar to arī paši intervāli, tad s ir intervālu skaits, kas paliek pēc kombinācijas. Atradīsim aprēķinus vienmērīgā sadalījuma parametriem a* un b*, izmantojot formulas:

Atradīsim pieņemtā vienmērīgā sadalījuma blīvumu:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Atradīsim teorētiskās frekvences:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456 (1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456 (2013.62-2008) = 0,2

ns = n*f(x)(xi-xi-1)

Tā kā Pīrsona statistika mēra atšķirību starp empīrisko un teorētisko sadalījumu, jo lielāka ir tās novērotā vērtība Kob, jo spēcīgāks ir arguments pret galveno hipotēzi.

Tāpēc šīs statistikas kritiskais apgabals vienmēr ir labās puses puse :)

Vai jums patika raksts? Dalies ar draugiem!