Видове връзки между случайни величини. Корелационен анализ. Подробно примерно решение. Коефициент на корелация, детерминация

Целта на корелационния анализе да се идентифицира оценка на силата на връзката между случайни променливи (характеристики), които характеризират някакъв реален процес.
Проблеми на корелационния анализ:
а) Измерване на степента на съгласуваност (близост, сила, тежест, интензивност) на две или повече явления.
б) Избор на фактори, които оказват най-съществено влияние върху резултантния атрибут, въз основа на измерване на степента на свързаност между явленията. Факторите, които са значими в този аспект, се използват допълнително в регресионния анализ.
в) Откриване на неизвестни причинно-следствени връзки.

Формите на проявление на взаимоотношенията са много разнообразни. Най-често срещаните видове са функционални (пълни) и корелационна (непълна) връзка.
Корелациясе появява средно за масови наблюдения, когато дадени стойностизависимата променлива съответства на определена серия от вероятностни стойности на независимата променлива. Връзката се нарича корелация, ако всяка стойност на факторната характеристика съответства на добре дефинирана неслучайна стойност на резултантната характеристика.
Визуално представяне на корелационна таблица е корелационното поле. Това е графика, където стойностите на X са нанесени на абсцисната ос, стойностите на Y са нанесени на ординатната ос, а комбинациите от X и Y са показани с точки.По местоположението на точките може да се съди за наличието на връзка.
Индикатори за близост на връзкатадават възможност да се характеризира зависимостта на изменението на резултантния признак от изменението на факторния признак.
По-усъвършенстван индикатор за степента на струпване корелационна връзкае коефициент на линейна корелация. При изчисляването на този показател се вземат предвид не само отклоненията на отделните стойности на дадена характеристика от средната стойност, но и самата величина на тези отклонения.

Ключовите въпроси на тази тема са регресионните уравнения между получената характеристика и обяснителната променлива, методът най-малки квадратиза оценка на параметрите на регресионния модел, анализиране на качеството на полученото регресионно уравнение, конструиране на доверителни интервали за прогнозиране на стойностите на получената характеристика с помощта на регресионното уравнение.

Пример 2


Система от нормални уравнения.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
За нашите данни системата от уравнения има формата
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
От първото уравнение изразяваме Аи заместваме във второто уравнение:
Получаваме b = -3,46, a = 1379,33
Регресионно уравнение:
y = -3,46 x + 1379,33

2. Изчисляване на параметрите на регресионното уравнение.
Примерни средства.



Примерни отклонения:


Стандартно отклонение


1.1. Коефициент на корелация
Ковариация.

Изчисляваме индикатора за близост на връзката. Този показател е примерният коефициент на линейна корелация, който се изчислява по формулата:

Коефициентът на линейна корелация приема стойности от –1 до +1.
Връзките между характеристиките могат да бъдат слаби и силни (близки). Техните критерии се оценяват по скалата на Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашия пример връзката между черта Y и фактор X е висока и обратна.
Освен това корелационният коефициент на линейната двойка може да се определи чрез регресионния коефициент b:

1.2. Регресионно уравнение(оценка на регресионно уравнение).

Уравнението на линейната регресия е y = -3,46 x + 1379,33

Коефициентът b = -3,46 показва средната промяна на ефективния показател (в мерни единици y) с увеличаване или намаляване на стойността на фактора x за единица измерване. В този пример, с увеличение от 1 единица, y намалява средно с -3,46.
Коефициентът a = 1379.33 формално показва прогнозираното ниво на y, но само ако x = 0 е близо до стойностите на извадката.
Но ако x=0 е далеч от примерните стойности на x, тогава буквалното тълкуване може да доведе до неправилни резултати и дори ако регресионната линия описва наблюдаваните примерни стойности сравнително точно, няма гаранция, че това също ще такъв е случаят при екстраполиране наляво или надясно.
Като заместим подходящите x стойности в регресионното уравнение, можем да определим подравнените (прогнозирани) стойности на показателя за ефективност y(x) за всяко наблюдение.
Връзката между y и x определя знака на регресионния коефициент b (ако > 0 - пряка връзка, в противен случай - обратна). В нашия пример връзката е обратна.
1.3. Коефициент на еластичност.
Не е препоръчително да се използват регресионни коефициенти (в пример b) за пряка оценка на влиянието на факторите върху резултатна характеристика, ако има разлика в мерните единици на резултатния показател y и факторната характеристика x.
За тези цели се изчисляват коефициентите на еластичност и бета коефициентите.
Средният коефициент на еластичност E показва с какъв процент средно ще се промени резултатът в съвкупността приот средната му стойност при промяна на фактора хс 1% от средната му стойност.
Коефициентът на еластичност се намира по формулата:


Коефициентът на еластичност е по-малък от 1. Следователно, ако X се промени с 1%, Y ще се промени с по-малко от 1%. С други думи, влиянието на X върху Y не е значително.
Бета коефициентпоказва с каква част от стойността на стандартното си отклонение ще се промени средната стойност на получената характеристика, когато факторната характеристика се промени със стойността на стандартното си отклонение със стойността на останалите независими променливи, фиксирани на постоянно ниво:

Тези. увеличение на x със стандартното отклонение S x ще доведе до намаляване на средната стойност на Y с 0,74 стандартно отклонение S y .
1.4. Грешка в приближението.
Нека оценим качеството на регресионното уравнение, като използваме грешката на абсолютното приближение. Средна грешка на приближаване - средно отклонение на изчислените стойности от действителните:


Тъй като грешката е по-малка от 15%, това уравнение може да се използва като регресия.
Дисперсионен анализ.
Целта на анализа на дисперсията е да се анализира дисперсията на зависимата променлива:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Където
∑(y i - y cp) 2 - общата сума на квадратите на отклоненията;
∑(y(x) - y cp) 2 - сумата от квадратните отклонения, дължащи се на регресия („обяснено“ или „факториално“);
∑(y - y(x)) 2 - остатъчна сума на квадратите на отклоненията.
Теоретична корелационна връзказа линейна връзка е равен на коефициента на корелация r xy .
За всяка форма на зависимост плътността на връзката се определя с помощта на коефициент на множествена корелация:

Този коефициент е универсален, тъй като отразява близостта на връзката и точността на модела и може да се използва за всякакви форми на връзка между променливи. При конструирането на еднофакторен корелационен модел коефициентът на множествена корелация е равен на коефициента на двойна корелация r xy.
1.6. Коефициент на определяне.
Квадратът на (множествения) коефициент на корелация се нарича коефициент на детерминация, който показва съотношението на вариацията в резултантния атрибут, обяснена с вариацията във факторния атрибут.
Най-често при тълкуване на коефициента на детерминация той се изразява в проценти.
R2 = -0,742 = 0,5413
тези. в 54,13% от случаите промените в x водят до промени в y. С други думи, точността на избора на регресионното уравнение е средна. Останалите 45,87% от промяната на Y се обясняват с фактори, които не са взети предвид в модела.

Библиография

  1. Иконометрия: Учебник / Ред. И.И. Елисеева. – М.: Финанси и статистика, 2001, стр. 34..89.
  2. Магнус Ю.Р., Катишев П.К., Пересецки А.А. Иконометрия. Курс за начинаещи. Урок. – 2-ро изд., рев. – М.: Дело, 1998, с. 17..42.
  3. Семинар по иконометрия: Proc. помощ / I.I. Елисеева, С.В. Куришева, Н.М. Гордеенко и др.; Изд. И.И. Елисеева. – М.: Финанси и статистика, 2001, стр. 5..48.

Случайна променлива е величина, която в резултат на експеримент може да приеме една или друга неизвестна преди това стойност.

Примерите включват: загуби на въздух и течове, степен на абсорбция на кислород, неточности в претеглянето на компонентите на заряда, колебания в химичния състав на суровините поради недостатъчно осредняване и др.

Връзката, която установява връзката между възможните стойности на случайна променлива и съответните им вероятности, се нарича закон на разпределение, който се изразява количествено в две форми.

Ориз. 5.1 Функция на разпределение (а) и плътност на разпределение (б)

Вероятността за събитие в зависимост от стойността се нарича функция на разпределение на случайната променлива:

. (5.1) е ненамаляваща функция (фиг. 5.1,а). Стойностите му при граничните стойности на аргумента са равни на: и.

Плътност на разпространение

Друга форма се използва по-често разпределителен закон– плътност на разпределение на случайна променлива, която е производна на функцията на разпределение:

. (5.2) Тогава вероятността за намиране на стойност в интервала може да се изрази чрез плътността на разпределение:

. (5.3`) Плътността на разпределението е неотрицателна функция (фиг. 21, b), площта под кривата на разпределение е равна на единица:

. (5.4) Функцията на разпределение може да бъде изразена чрез плътността на разпределението:

. (5.5) За решаване на повечето практически проблеми разпределителен закон, т.е. пълни характеристикислучайна променлива, неудобна за използване. Следователно числените характеристики на случайна променлива се използват по-често за определяне на основните характеристики разпределителен закон. Най-често срещаните от тях са математическото очакване и дисперсия(или стандартно отклонение).

Очаквана стойност

Математическото очакване на случайна променлива се определя по следния начин

. (5.6) където

Математическото очакване на случайна променлива обикновено се оценява чрез нейната средна аритметична стойност, която с увеличаване на броя на експериментите се сближава с математическото очакване

. (5.7) където са наблюдаваните стойности на случайната променлива.

Важно е да се отбележи, че ако е величина, която непрекъснато се променя във времето (температура на покрива, стената, химичен съставпродукти на горене), тогава е необходимо да се вземат като стойност стойностите на стойността, разделени от такива интервали от време, че да могат да се считат за независими експерименти. На практика това се свежда до отчитане на инерцията по съответните канали. Методите за оценка на инерцията на обектите ще бъдат разгледани по-долу.

Дисперсия и стандартно отклонение

Дисперсията определя разсейването на случайна променлива около нейното математическо очакване

. (5.8) Дисперсията се оценява с помощта на формулата

. (5.9) и стандартното отклонение по формулата

Коефициент на корелация

Коефициентът на корелация характеризира степента на линейна връзка между променливите, т.е. тук вече имаме работа със система от случайни променливи. Оценката се прави по формулата

. (5.10)

Определяне на грешки и доверителни интервали за характеристики на случайни величини

За да могат разглежданите характеристики на случайни величини да се използват с определена надеждност, е необходимо освен посочените оценки за всяка от тях да се изчислят грешки или доверителни интервали, които зависят от степента на разсейване, броя на експерименти и дадената доверителна вероятност. Грешката за математическото очакване се определя приблизително по формулата

. (5.11) където е t-тест на Стюдънт; се избира от таблици в зависимост от определената доверителна вероятност и броя на експериментите (например кога,).

Следователно истинската стойност на математическото очакване е вероятно да бъде в доверителния интервал

. (5.12) При дадена точност и надеждност на изчислението същите формули могат да се използват за изчисляване на необходимия брой независими експерименти.

Грешката в количествата и

. (5.13) Смята се, че линейна връзка между и действително съществува, ако

. или

. (5.14) Например, зависимостта между изследваните величини действително възниква, ако

. (5.15) В противен случай съществуването на връзка между количествата е ненадеждно.

Случайна стойност

Дефиниция на понятието случайна величина

Формата на връзката между случайните променливи се определя от регресионната линия, показваща как се променя стойността средно

при промяна на стойност, което се характеризира с условното математическо очакване на стойността, изчислено при условие, че стойността е приела определена стойност. Така регресионната крива е зависимостта на условното математическо очакване от известната стойност

. (5.16) където,– настроикиуравнения (коефициенти).

Промените в случайна променлива се причиняват от променливостта на стохастично свързаната неслучайна променлива, както и от други фактори, които влияят, но не зависят от. Процесът на определяне на регресионното уравнение се състои от два важни етапа: избор на типа на уравнението, т.е. определяне на функцията и изчисляване на параметрите на регресионното уравнение.

Избор на вида на регресионното уравнение

Този тип се избира въз основа на характеристиките на изследваната система от случайни променливи. Един от възможните подходи в този случай е експерименталният избор на типа на регресионното уравнение въз основа на вида на полученото корелационно поле между стойностите или целенасочено изброяване на структурите на уравненията и оценка на всяка от тях, напр. , по критерия за адекватност. В случай, че има определена априорна (предекспериментална) информация за обекта, по-ефективно е да се използват за тази цел теоретични идеи за процесите и видовете връзки между изследваните параметри. Този подход е особено важен, когато е необходимо количествено описание и определяне на причинно-следствените връзки.

Например, само като има някои идеи относно теорията на процесите на производство на стомана, може да се направи заключение за причинно-следствените връзки за зависимостта на скоростта на декарбонизация от скоростта на потока на кислорода, инжектиран в конверторната вана, или способността за десулфуриране на шлаката върху нейната основност и окисление. И въз основа на идеи за хиперболичния характер на зависимостта на съдържанието на кислород в метала от съдържанието на въглерод, можем да приемем предварително, че линейно уравнениеЗависимостта на степента на обезвъглеродяване от интензитета на продухване в областта с ниско съдържание на въглерод (по-малко от 0,2%) ще бъде неадекватна и по този начин ще бъдат избегнати няколко стъпки експерименталенизбор на вида на уравнението.

След избор на вида на регресионното уравнение се изчисляват неговите параметри (коефициенти), за които най-често се използва метод на най-малките квадрати, които ще бъдат разгледани по-долу.

Във фирмата работят 10 човека. Таблица 2 показва данни за техния трудов стаж и

месечна заплата.

Изчислете, като използвате тези данни

  • - стойността на примерната ковариационна оценка;
  • - стойността на извадковия коефициент на корелация на Пиърсън;
  • - преценете посоката и силата на връзката от получените стойности;
  • - определи доколко е легитимно да се каже, че тази компания използва японския модел на управление, който предполага, че колкото повече време служителят прекарва в дадена компания, толкова по-висока трябва да бъде заплатата му.

Въз основа на корелационното поле може да се изложи хипотеза (напр население), че връзката между всички възможни стойности на X и Y е линейна.

За да изчислим регресионните параметри, ще изградим изчислителна таблица.

Примерни средства.

Примерни отклонения:

Изчисленото регресионно уравнение ще бъде

y = bx + a + e,

където ei са наблюдаваните стойности (оценки) на грешките ei, a и b, съответно, оценките на параметрите b и в регресионния модел, който трябва да бъде намерен.

За оценка на параметрите b и c се използва методът на най-малките квадрати (метод на най-малките квадрати).

Система от нормални уравнения.

a?x + b?x2 = ?y*x

За нашите данни системата от уравнения има формата

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Нека умножим уравнение (1) на системата по (-30,7), получаваме система, която решаваме по метода на алгебричното събиране.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Получаваме:

1432.1 b = 105390

Откъде идва b = 73,5912?

Сега нека намерим коефициента "а" от уравнение (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10а = 10707,49

Получаваме емпирични регресионни коефициенти: b = 73.5912, a = 1070.7492

Регресионно уравнение (емпирично регресионно уравнение):

y = 73,5912 x + 1070,7492

Ковариация.

В нашия пример връзката между черта Y и фактор X е висока и пряка.

Затова смело можем да кажем, че колкото повече време работи един служител в дадена компания, толкова по-висока е заплатата му.

4. Проверка на статистически хипотези. При решаването на този проблем първата стъпка е да се формулира тествана хипотеза и алтернативна.

Проверка на равенството на общите дялове.

Проведено е изследване на представянето на студентите в два факултета. Резултатите за опциите са дадени в таблица 3. Може ли да се каже, че и двата факултета имат еднакъв процент отличници?

Обикновено средно аритметично

Тестваме хипотезата за равенството на общите дялове:

Нека намерим експерименталната стойност на критерия на Стюдънт:

Брой степени на свобода

f = nх + nу - 2 = 2 + 2 - 2 = 2

Определете tkp стойността, като използвате таблицата за разпределение на Student

С помощта на таблицата на ученика намираме:

Ttable(f;b/2) = Ttable(2;0,025) = 4,303

Използвайки таблицата на критичните точки на разпределението на Стюдънт при ниво на значимост b = 0,05 и даден брой степени на свобода, намираме tcr = 4,303

защото tob > tcr, тогава нулевата хипотеза се отхвърля, общите дялове на двете извадки не са равни.

Проверка на равномерността на общото разпределение.

Ръководителите на университета искат да разберат как популярността на хуманитарния отдел се е променила с времето. Броят на кандидатствалите в този факултет е анализиран спрямо общия брой кандидатстващи през съответната година. (Данните са дадени в таблица 4). Ако приемем, че броят на кандидатите е представителна извадка от общия брой завършили училище през годината, можем ли да кажем, че интересът на учениците към специалностите на този факултет не се променя с течение на времето?

Вариант 4

Решение: Таблица за изчисляване на показатели.

Средата на интервала, xi

Натрупана честота, S

Честота, fi/n

За да оценим серията на разпространение, намираме следните показатели:

Среднопретеглена стойност

Диапазонът на вариация е разликата между максималните и минималните стойности на характеристиката на първичната серия.

R = 2008 - 1988 = 20 Дисперсия - характеризира мярката за дисперсия около нейната средна стойност (мярка за дисперсия, т.е. отклонение от средната стойност).

Стандартно отклонение (средна извадкова грешка).

Всяка стойност от серията се различава от средната стойност 2002,66 със средно 6,32

Проверка на хипотезата за равномерното разпределение на съвкупността.

За да се провери хипотезата за равномерното разпределение на X, т.е. съгласно закона: f(x) = 1/(b-a) в интервала (a,b) е необходимо:

Оценете параметрите a и b - краищата на интервала, в който са наблюдавани възможни стойности на X, като използвате формулите (знакът * означава оценки на параметрите):

Намерете плътността на вероятността на очакваното разпределение f(x) = 1/(b* - a*)

Намерете теоретичните честоти:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Сравнете емпиричните и теоретичните честоти, като използвате критерия на Pearson, като вземете броя на степените на свобода k = s-3, където s е броят на началните интервали на вземане на проби; ако е извършена комбинация от малки честоти и следователно самите интервали, тогава s е броят на интервалите, оставащи след комбинацията. Нека намерим оценки за параметрите a* и b* на равномерното разпределение по формулите:

Нека намерим плътността на предполагаемото равномерно разпределение:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Нека намерим теоретичните честоти:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Тъй като статистиката на Pearson измерва разликата между емпиричните и теоретичните разпределения, колкото по-голяма е нейната наблюдавана стойност Kob, толкова по-силен е аргументът срещу основната хипотеза.

Следователно критичната област за тези статистики винаги е дясната :)

Хареса ли ви статията? Споделете с вашите приятели!