Tipuri de conexiuni între variabile aleatoare. Analiza corelației. Exemplu detaliat de soluție. Coeficient de corelație, determinări

Scopul analizei corelației este de a identifica o estimare a puterii conexiunii dintre variabilele aleatoare (trăsături) care caracterizează un proces real.
Probleme de analiză a corelației:
a) Măsurarea gradului de legătură (etanşeitate, rezistenţă, severitate, intensitate) a două sau mai multe fenomene.
b) Selectarea factorilor care au cel mai semnificativ impact asupra atributului rezultat, pe baza măsurării gradului de conectivitate între fenomene. Factorii semnificativi în acest aspect sunt utilizați în continuare în analiza de regresie.
c) Detectarea relaţiilor cauzale necunoscute.

Formele de manifestare a interrelațiilor sunt foarte diverse. Ca tipurile lor cele mai comune, funcționale (complete) și conexiune de corelare (incompletă)..
corelație se manifestă în medie, pentru observaţiile de masă, când valorile stabilite variabilei dependente corespunde unui anumit număr de valori probabilistice ale variabilei independente. Legătura se numește corelație, dacă fiecare valoare a atributului factor corespunde unei valori non-aleatoare bine definite a atributului rezultat.
Câmpul de corelație servește ca reprezentare vizuală a tabelului de corelație. Este un grafic în care valorile X sunt reprezentate pe axa absciselor, valorile Y sunt reprezentate de-a lungul axei ordonatelor, iar combinațiile de X și Y sunt afișate prin puncte.Prezența unei conexiuni poate fi judecată după locația punctele.
Indicatori de etanșeitate fac posibilă caracterizarea dependenţei variaţiei trăsăturii rezultate de variaţia factorului-trăsătură.
Un indicator mai bun al gradului de etanșeitate corelație este o coeficient de corelație liniară. La calcularea acestui indicator, se iau în considerare nu numai abaterile valorilor individuale ale atributului de la medie, ci și magnitudinea acestor abateri.

Problemele cheie ale acestui subiect sunt ecuațiile relației de regresie dintre caracteristica rezultată și variabila explicativă, metoda celor mai mici pătrate pentru estimarea parametrilor modelului de regresie, analiza calității ecuației de regresie rezultată, construirea intervalelor de încredere pentru prezicerea valorile caracteristicii rezultate folosind ecuația de regresie.

Exemplul 2


Sistem de ecuații normale.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Pentru datele noastre, sistemul de ecuații are forma
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Din prima ecuație pe care o exprimăm Ași înlocuiți în a doua ecuație:
Obținem b = -3,46, a = 1379,33
Ecuația de regresie:
y = -3,46 x + 1379,33

2. Calculul parametrilor ecuației de regresie.
Eșantion înseamnă.



Variante de eșantion:


deviație standard


1.1. Coeficient de corelație
covarianta.

Calculăm indicatorul de apropiere a comunicării. Un astfel de indicator este un coeficient de corelație liniară selectivă, care este calculat prin formula:

Coeficientul de corelație liniară ia valori de la –1 la +1.
Relațiile dintre caracteristici pot fi slabe sau puternice (strânse). Criteriile lor sunt evaluate pe scara Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
În exemplul nostru, relația dintre caracteristica Y și factorul X este mare și inversă.
În plus, coeficientul de corelație liniară a perechii poate fi determinat în funcție de coeficientul de regresie b:

1.2. Ecuația de regresie(evaluarea ecuației de regresie).

Ecuația de regresie liniară este y = -3,46 x + 1379,33

Coeficientul b = -3,46 arată modificarea medie a indicatorului efectiv (în unități de y) cu o creștere sau scădere a valorii factorului x pe unitatea de măsură a acestuia. În acest exemplu, cu o creștere de 1 unitate, y scade cu o medie de -3,46.
Coeficientul a = 1379,33 arată în mod formal nivelul prezis al lui y, dar numai dacă x=0 este aproape de valorile eșantionului.
Dar dacă x=0 este departe de valorile eșantionului x, atunci o interpretare literală poate duce la rezultate incorecte și chiar dacă linia de regresie descrie cu acuratețe valorile eșantionului observat, nu există nicio garanție că aceasta va fi, de asemenea, cazul extrapolării la stânga sau la dreapta.
Prin înlocuirea valorilor corespunzătoare ale lui x în ecuația de regresie, este posibil să se determine valorile aliniate (prevăzute) ale indicatorului efectiv y(x) pentru fiecare observație.
Relația dintre y și x determină semnul coeficientului de regresie b (dacă > 0 - relație directă, în caz contrar - inversă). În exemplul nostru, relația este inversă.
1.3. coeficient de elasticitate.
Nu este de dorit să se utilizeze coeficienți de regresie (în exemplul b) pentru o evaluare directă a influenței factorilor asupra atributului efectiv în cazul în care există o diferență între unitățile de măsură ale indicatorului efectiv y și atributul factorului x.
În aceste scopuri, se calculează coeficienții de elasticitate și coeficienții beta.
Coeficientul mediu de elasticitate E arată câte procente se va schimba rezultatul în medie în agregat la din valoarea sa medie la modificarea factorului X 1% din valoarea sa medie.
Coeficientul de elasticitate se gaseste prin formula:


Coeficientul de elasticitate este mai mic de 1. Prin urmare, dacă X se modifică cu 1%, Y se va modifica cu mai puțin de 1%. Cu alte cuvinte, influența lui X asupra lui Y nu este semnificativă.
Coeficientul beta arată cu ce parte din valoarea abaterii sale standard se va schimba valoarea atributului efectiv în medie atunci când atributul factorului se modifică cu valoarea abaterii sale standard cu valoarea variabilelor independente rămase fixată la un nivel constant:

Acestea. o creştere a lui x cu valoarea abaterii standard S x va duce la o scădere a valorii medii a lui Y cu 0,74 abaterea standard S y .
1.4. Eroare de aproximare.
Să evaluăm calitatea ecuației de regresie folosind eroarea de aproximare absolută. Eroarea medie de aproximare este abaterea medie a valorilor calculate de la cele reale:


Deoarece eroarea este mai mică de 15%, această ecuație poate fi folosită ca regresie.
Analiza dispersiei.
Sarcina analizei varianței este de a analiza varianța variabilei dependente:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Unde
∑(y i - y cp) 2 - suma totală a abaterilor pătrate;
∑(y(x) - y cp) 2 - suma abaterilor pătrate datorate regresiei („explicate” sau „factoriale”);
∑(y - y(x)) 2 - suma reziduală a abaterilor pătrate.
Raportul teoretic de corelare pentru o relație liniară este egală cu coeficientul de corelație r xy .
Pentru orice formă de dependență, etanșeitatea conexiunii se determină folosind coeficient de corelație multiplă:

Acest coeficient este universal, deoarece reflectă etanșeitatea conexiunii și acuratețea modelului și poate fi folosit și pentru orice formă de conexiune între variabile. Când se construiește un model de corelație cu un singur factor, coeficientul de corelație multiplă este egal cu coeficientul de corelație de pereche r xy .
1.6. Coeficient de determinare.
Pătratul coeficientului de corelație (multiplu) se numește coeficient de determinare, care arată proporția variației atributului rezultat explicată prin variația atributului factorului.
Cel mai adesea, dând o interpretare a coeficientului de determinare, acesta este exprimat ca procent.
R 2 \u003d -0,74 2 \u003d 0,5413
acestea. în 54,13% din cazuri, modificările în x conduc la o schimbare în y. Cu alte cuvinte, acuratețea selecției ecuației de regresie este medie. Restul de 45,87% din modificarea lui Y se datorează unor factori neluați în considerare în model.

Bibliografie

  1. Econometrie: Manual / Ed. I.I. Eliseeva. - M.: Finanțe și statistică, 2001, p. 34..89.
  2. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Econometrie. Curs inițial. Tutorial. - Ed. a II-a, Rev. – M.: Delo, 1998, p. 17..42.
  3. Atelier de econometrie: Proc. indemnizatie / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko și alții; Ed. I.I. Eliseeva. - M.: Finanțe și statistică, 2001, p. 5..48.

O variabilă aleatorie este o cantitate care, ca rezultat al unui experiment, poate lua una sau alta valoare necunoscută în avans.

Exemple sunt: ​​pierderile și scurgerile de aer, gradul de asimilare a oxigenului, inexactitățile în cântărirea componentelor de sarcină, fluctuațiile în compoziția chimică a materiilor prime din cauza medierii insuficiente etc.

Relația care stabilește relația dintre valorile posibile ale unei variabile aleatoare și probabilitățile corespunzătoare acestora se numește legea distribuției, care se exprimă cantitativ în două forme.

Orez. 5.1 Funcția de distribuție (a) și densitatea de distribuție (b)

Probabilitatea unui eveniment în funcție de valoarea lui se numește funcție de distribuție a unei variabile aleatoare:

. (5.1) este o funcție nedescrescătoare (Fig. 5.1a). Valorile sale la valorile limită ale argumentului sunt: ​​și.

Densitatea de distribuție

Formă mai des folosită legea distributiei este densitatea de distribuție a variabilei aleatoare, care este derivata funcției de distribuție:

. (5.2) Atunci probabilitatea de a găsi o mărime în intervalul u poate fi exprimată în termeni de densitate de distribuție:

. (5.3`) Densitatea de distribuție este o funcție nenegativă (Fig. 21, b), aria de sub curba de distribuție este egală cu unu:

. (5.4) Funcția de distribuție poate fi exprimată în termeni de densitate de distribuție:

. (5.5) Pentru rezolvarea majorității problemelor practice legea distributiei, adică o caracterizare completă a unei variabile aleatoare, este incomod pentru utilizare. Prin urmare, sunt mai des folosite caracteristicile numerice ale unei variabile aleatoare, care determină principalele caracteristici legea distributiei. Cele mai frecvente dintre acestea sunt așteptarea matematică și dispersie(sau abaterea standard).

Valorea estimata

Așteptările matematice ale unei variabile aleatoare sunt definite după cum urmează

. (5.6) unde

Așteptarea matematică a unei variabile aleatoare este de obicei estimată prin media ei aritmetică, care, odată cu creșterea numărului de experimente, converge către așteptarea matematică.

. (5.7) unde sunt valorile observate ale variabilei aleatoare.

Este important de reținut că dacă este o valoare care se schimbă continuu în timp (temperatura cupolei, peretelui, compoziție chimică produse de ardere), atunci este necesar să se ia ca valoare a cantității valorile cantității separate de astfel de intervale în timp, astfel încât să poată fi considerate experimente independente. În practică, aceasta se reduce la luarea în considerare a inerției prin canalele adecvate. Metodele de evaluare a inerției obiectelor vor fi discutate mai jos.

Dispersia și deviația standard

Varianta determină dispersia unei variabile aleatoare în jurul așteptărilor sale matematice

. (5.8) Varianta este estimată conform formulei

. (5.9) și abaterea standard conform formulei

Coeficient de corelație

Coeficientul de corelație caracterizează gradul de relație liniară dintre mărimile u, adică aici avem deja de a face cu un sistem de variabile aleatoare. Evaluarea se face conform formulei

. (5.10)

Determinarea erorilor și a intervalelor de încredere pentru caracteristicile variabilelor aleatoare

Pentru ca caracteristicile considerate ale variabilelor aleatoare să fie utilizate cu o anumită fiabilitate, este necesar, pe lângă estimările indicate, să se calculeze erori sau intervale de încredere pentru fiecare dintre ele, care depind de gradul de dispersie, de numărul de experimente și probabilitatea de încredere dată. Eroarea pentru așteptarea matematică este determinată aproximativ de formulă

. (5.11) unde este criteriul Studentului; este selectat din tabele în funcție de probabilitatea de încredere dată și de numărul de experimente (de exemplu, prii,).

Astfel, adevărata valoare a așteptării matematice este în intervalul de încredere cu probabilitate

. (5.12) Cu o anumită precizie și fiabilitate de calcul, aceleași formule pot fi utilizate pentru a calcula numărul necesar de experimente independente.

În mod similar, eroarea valorilor și

. (5.13) Se crede că o relație liniară între și există cu adevărat dacă

. sau

. (5.14) De exemplu, dependența dintre mărimile studiate are loc într-adevăr dacă

. (5.15) În caz contrar, existența unei relații între cantități și nu este de încredere.

Valoare aleatoare

Definirea conceptului de variabilă aleatoare

Forma de conexiune dintre variabilele aleatoare este determinată de linia de regresie, arătând cum se modifică valoarea în medie

când se modifică valoarea, care se caracterizează prin așteptarea matematică condiționată a valorii, calculată cu condiția ca valoarea să fi luat o anumită valoare. Astfel, curba de regresie este dependența așteptării condiționate de valoarea cunoscută

. (5.16) unde,– Opțiuni ecuații (coeficienți).

Modificările unei variabile aleatoare se datorează variabilității unei variabile non-aleatoare asociate stocastic cu aceasta, precum și altor factori care afectează, dar nu depind de. Procesul de determinare a ecuației de regresie constă din două etape cele mai importante: alegerea tipului de ecuație, adică setarea funcției, și calcularea parametrilor ecuației de regresie.

Selectarea tipului de ecuație de regresie

Acest tip este ales pe baza caracteristicilor sistemului de variabile aleatoare studiat. Una dintre abordările posibile în acest caz este selecția experimentală a tipului ecuației de regresie în funcție de tipul câmpului de corelație obținut între mărimi și/sau enumerarea intenționată a structurilor ecuațiilor și evaluarea fiecăreia dintre ele, de exemplu, prin criteriul adecvării. În cazul în care există o anumită informație a priori (pre-experimentală) despre obiect, este mai eficientă utilizarea ideilor teoretice despre procesele și tipurile de relații dintre parametrii studiați în acest scop. Această abordare este deosebit de importantă atunci când este necesară cuantificarea și determinarea relațiilor cauză-efect.

De exemplu, doar având o anumită înțelegere a teoriei proceselor de fabricare a oțelului, se poate trage o concluzie despre relațiile cauză-efect pentru dependența ratei de decarburare de debitul de oxigen suflat în baia de convertizor sau capacitatea de desulfurare a zgura asupra bazicitatii si oxidarii sale. Și, pe baza conceptului de natură hiperbolică a dependenței conținutului de oxigen din metal de conținutul de carbon, se poate presupune în prealabil că ecuație liniară dependența vitezei de decarburare de intensitatea purjării în zona conținutului scăzut de carbon (mai puțin de 0,2%) va fi inadecvată și astfel se vor evita mai multe etape experimental selectarea tipului de ecuație.

După alegerea tipului de ecuație de regresie, se calculează parametrii (coeficienții) acesteia, pentru care se folosește cel mai des metoda celor mai mici pătrate, despre care se va discuta mai jos.

Compania are 10 angajați. Tabelul 2 prezintă date despre experiența lor de muncă și

salariu lunar.

Calculați din aceste date

  • - valoarea estimării covarianței eșantionului;
  • - valoarea coeficientului de corelaţie Pearson al eşantionului;
  • - se evaluează direcţia şi rezistenţa conexiunii în funcţie de valorile obţinute;
  • - să determine cât de legitimă este afirmația că această companie folosește modelul de management japonez, care constă în presupunerea că cu cât un angajat petrece mai mult timp în această companie, cu atât salariul său ar trebui să fie mai mare.

Pe baza câmpului de corelație se poate formula o ipoteză (pentru populatie) că relația dintre toate valorile posibile ale lui X și Y este liniară.

Pentru a calcula parametrii de regresie, vom construi un tabel de calcul.

Eșantion înseamnă.

Variante de eșantion:

Ecuația de regresie estimată va arăta ca

y = bx + a + e,

unde ei sunt valorile (estimările) observate ale erorilor ei, a și, respectiv b, estimările parametrilor b și în modelul de regresie care ar trebui găsite.

Pentru a estima parametrii b și c - utilizați LSM (cel mai mici pătrate).

Sistem de ecuații normale.

a?x + b?x2 = ?y*x

Pentru datele noastre, sistemul de ecuații are forma

  • 10a + 307b = 33300
  • 307 a + 10857 b = 1127700

Înmulțim ecuația (1) a sistemului cu (-30.7), obținem un sistem pe care îl rezolvăm prin metoda adunării algebrice.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Primim:

1432,1b = 105390

Unde b = 73,5912

Acum găsim coeficientul „a” din ecuația (1):

  • 10a + 307b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Obținem coeficienți de regresie empiric: b = 73,5912, a = 1070,7492

Ecuație de regresie (ecuație de regresie empirică):

y = 73,5912 x + 1070,7492

covarianta.

În exemplul nostru, relația dintre caracteristica Y și factorul X este ridicată și directă.

Prin urmare, putem spune cu siguranță că cu cât un angajat lucrează mai mult timp într-o anumită companie, cu atât salariul său este mai mare.

4. Testarea ipotezelor statistice. La rezolvarea acestei probleme, primul pas este formularea unei ipoteze testabile și a uneia alternative.

Verificarea egalitatii actiunilor generale.

A fost realizat un studiu asupra performanței studenților la două facultăți. Rezultatele pentru variante sunt prezentate în Tabelul 3. Se poate argumenta că ambele facultăți au același procent de studenți excelenți?

medie aritmetică simplă

Testăm ipoteza despre egalitatea acțiunilor generale:

Să găsim valoarea experimentală a criteriului Student:

Numărul de grade de libertate

f \u003d nx + ny - 2 \u003d 2 + 2 - 2 \u003d 2

Determinați valoarea lui tkp conform tabelului de distribuție a lui Student

Conform tabelului Student, găsim:

Ttabl(f;b/2) = Ttabl(2;0,025) = 4,303

Conform tabelului punctelor critice ale distribuției Student la un nivel de semnificație b = 0,05 și un număr dat de grade de libertate, găsim tcr = 4,303

pentru că tobs > tcr, atunci ipoteza nulă este respinsă, cotele generale ale celor două probe nu sunt egale.

Verificarea uniformității distribuției generale.

Conducerea universității vrea să afle cum s-a schimbat popularitatea Facultății de Științe Umaniste de-a lungul timpului. Numărul de solicitanți care au aplicat pentru această facultate a fost analizat în raport cu numărul total de solicitanți din anul corespunzător. (Datele sunt date în Tabelul 4). Dacă luăm în considerare numărul de solicitanți ca un eșantion reprezentativ din numărul total de absolvenți de școală al anului, se poate susține că interesul școlarilor pentru specialitățile acestei facultăți nu se modifică în timp?

Opțiunea 4

Soluție: Tabel pentru calcularea indicatorilor.

Punctul de mijloc al intervalului, xi

Frecvența cumulativă, S

Frecvență, fi/n

Pentru a evalua seria de distribuție, găsim următorii indicatori:

medie ponderată

Gama de variație este diferența dintre valorile maxime și minime ale atributului seriei primare.

R = 2008 - 1988 = 20 Dispersia - caracterizează măsura răspândirii în jurul valorii sale medii (măsura dispersiei, adică abaterea de la medie).

Abatere standard (eroare medie de eșantionare).

Fiecare valoare a seriei diferă de valoarea medie a anului 2002,66 cu o medie de 6,32

Testarea ipotezei despre distribuția uniformă a populației generale.

Pentru a testa ipoteza despre distribuția uniformă a lui X, i.e. conform legii: f(x) = 1/(b-a) în intervalul (a,b) este necesar:

Estimați parametrii a și b - capetele intervalului în care au fost observate valorile posibile ale lui X, conform formulelor (* denotă estimările parametrilor):

Aflați densitatea de probabilitate a distribuției estimate f(x) = 1/(b* - a*)

Găsiți frecvențele teoretice:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Comparați frecvențele empirice și teoretice folosind testul Pearson, presupunând numărul de grade de libertate k = s-3, unde s este numărul de intervale inițiale de eșantionare; dacă totuși s-a făcut o combinație de frecvențe mici și, prin urmare, intervalele în sine, atunci s este numărul de intervale rămase după combinație. Să găsim estimările parametrilor a* și b* ai distribuției uniforme prin formulele:

Să găsim densitatea presupusei distribuții uniforme:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Să găsim frecvențele teoretice:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Deoarece statistica Pearson măsoară diferența dintre distribuțiile empirice și teoretice, cu cât este mai mare valoarea sa observată Kobs, cu atât mai puternic este argumentul împotriva ipotezei principale.

Prin urmare, regiunea critică pentru această statistică este întotdeauna dreptaci :)

Ți-a plăcut articolul? Impartasiti cu prietenii!