Регресия в Excel: уравнение, примери. Линейна регресия. Основи на анализа на данни за регресия

В резултат на изучаването на материала в глава 4 студентът трябва:

зная

  • основни понятия регресионен анализ;
  • методи за оценка и свойства на оценките на метода най-малки квадрати;
  • основни правила за тестване на значимост и интервална оценка на уравнения и регресионни коефициенти;

да бъде в състояние да

  • използват примерни данни, за да намерят оценки на параметрите на модели с двумерни и множествени регресионни уравнения и да анализират техните свойства;
  • проверка на значимостта на уравнението и коефициентите на регресия;
  • намиране на интервални оценки на значими параметри;

собствен

  • умения за статистическа оценка на параметри на двумерни и множествени регресионни уравнения; умения за проверка на адекватността на регресионни модели;
  • умения за получаване на регресионно уравнение с всички значими коефициенти с помощта на аналитичен софтуер.

Основни понятия

След извършване на корелационен анализ, когато се установи наличието на статистически значими връзки между променливите и се оцени степента на тяхната близост, обикновено се пристъпва към математическо описание на типа зависимости с помощта на методи за регресионен анализ. За целта се избира клас функции, които свързват ефективния показател прии аргументи„ изчисляват оценки на параметрите на уравнението за свързване и анализират точността на полученото уравнение.

Функция|, описваща зависимостта на условната средна стойност от резултантната характеристика приот зададени стойностисе наричат ​​аргументи регресионно уравнение.

Терминът "регресия" (от лат. регресия –отстъпление, връщане към нещо) е въведено от английския психолог и антрополог Ф. Галтън и се свързва с един от първите му примери, в който Галтън, обработвайки статистически данни, свързани с въпроса за наследствеността на височината, установява, че ако височината на бащите се отклонява от средната височина на всички бащи хинча, тогава височината на техните синове се отклонява от средната височина на всички синове с по-малко от хинча. Идентифицираната тенденция беше наречена регресия към средната стойност.

Терминът "регресия" е широко използван в статистическата литература, въпреки че в много случаи той не характеризира точно статистическата връзка.

За точното описание на регресионното уравнение е необходимо да се знае условният закон на разпределение на ефективния показател u.В статистическата практика обикновено не е възможно да се получи такава информация, така че те се ограничават до търсене на подходящи приближения за функцията f(x u х 2,... l*), въз основа на предварителен съдържателен анализ на явлението или на първоначални статистически данни.

В рамките на индивидуалните допускания на модела за вида на разпределението на вектора на индикаторите<) может быть получен общий вид регресионни уравнения, Където. Например, при предположението, че наборът от изследвани индикатори се подчинява на ()-мерния закон за нормално разпределение с вектор на математическите очаквания

Къде и ковариационната матрица,

къде е дисперсията y,

Регресионното уравнение (условно математическо очакване) има формата

Така, ако многовариантна случайна променлива ()

се подчинява на ()-мерния закон за нормално разпределение, след това на регресионното уравнение на ефективния индикатор прив обяснителните променливи е линейна хизглед.

В статистическата практика обаче човек обикновено трябва да се ограничи до намирането на подходящи приближения за неизвестната истинска регресионна функция f(x),тъй като изследователят няма точни познания за условния закон за разпределение на вероятностите на анализирания показател за ефективност приза дадени стойности на аргумент Х.

Нека да разгледаме връзката между истинските, моделните и регресионните оценки. Нека ефективният индикатор присвързани с аргумента хсъотношение

където е случайна променлива, която има нормален закон на разпределение, и и. Истинската регресионна функция в този случай има формата

Да предположим, че точната форма на истинското регресионно уравнение не ни е известна, но имаме девет наблюдения на двуизмерна случайна променлива, свързана с отношенията, представени на фиг. 4.1.

Ориз. 4.1. Относителното положение на истинатаf(x) и теоретиченопарегресионни модели

Разположението на точките на фиг. 4.1 ни позволява да се ограничим до класа на линейните зависимости на формата

Използвайки метода на най-малките квадрати, намираме оценката на регресионното уравнение.

За сравнение, на фиг. 4.1 показва графики на истинската регресионна функция и теоретичната апроксимираща регресионна функция. Оценката на регресионното уравнение се сближава с последното по вероятност опас неограничено увеличение на размера на извадката ().

Тъй като погрешно избрахме линейна регресионна функция вместо истинска регресионна функция, което, за съжаление, е доста често срещано в практиката на статистическите изследвания, нашите статистически заключения и оценки няма да имат свойството последователност, т.е. Без значение как увеличаваме броя на наблюденията, нашата примерна оценка няма да се сближи с истинската регресионна функция

Ако сме избрали правилно класа на регресионните функции, тогава неточността в описанието използва опаби се обяснило само с ограничената извадка и следователно може да бъде направено толкова малко, колкото желаете

За да се възстанови най-добре условната стойност на показателя за ефективност и неизвестната регресионна функция от първоначалните статистически данни, най-често се използват следните: критерии за адекватностфункции на загуба.

1. Метод на най-малките квадрати,според което квадратът на отклонението на наблюдаваните стойности на ефективния показател, , от стойностите на модела е сведен до минимум, където коефициентите на регресионното уравнение са стойностите на вектора на аргументите в „-M наблюдение:

Проблемът за намиране на оценка на вектора е решен. Получената регресия се нарича среден квадрат.

2. Метод на най-малкото модули, според който сумата от абсолютните отклонения на наблюдаваните стойности на ефективния показател от модулните стойности е минимизирана, т.е.

Получената регресия се нарича означава абсолютно(Медиана).

3. Минимаксен методсе свежда до минимизиране на максималния модул на отклонение на наблюдаваната стойност на ефективния показател y,от стойността на модела, т.е.

Получената регресия се нарича минимакс.

В практическите приложения често има проблеми, при които се изучава случайна променлива y,в зависимост от определен набор от променливи и неизвестни параметри. Ще разгледаме () като (k + 1)-мерна генерална съвкупност, от която произволна извадка от П,където () е резултатът от i-тото наблюдение. Необходимо е да се оценят неизвестни параметри въз основа на резултатите от наблюденията. Задачата, описана по-горе, се отнася до проблеми с регресионен анализ.

Регресионен анализ се нарича метод за статистически анализ на зависимостта на случайна величина привърху променливи, разглеждани в регресионния анализ като неслучайни стойности, независимо от истинския закон на разпределение

Регресионен анализметод за моделиране на измерените данни и изследване на техните свойства. Данните се състоят от двойки стойности зависима променлива(променлива на отговора) и независима променлива(обяснителна променлива). Регресионният модел е функция на независимата променлива и параметри с добавена случайна променлива. Параметрите на модела се настройват така, че моделът да отговаря най-добре на данните. Критерият за качеството на приближението (обективна функция) обикновено е средната квадратична грешка: сумата от квадратите на разликата между стойностите на модела и зависимата променлива за всички стойности на независимата променлива като аргумент. Клон на регресионния анализ на математическата статистика и машинното обучение. Предполага се, че зависимата променлива е сумата от стойностите на някакъв модел и случайна променлива. Правят се предположения относно естеството на разпределението на това количество, наречено хипотеза за генериране на данни. Статистически тестове, наречени остатъчни анализи, се извършват, за да потвърдят или опровергаят тази хипотеза. Предполага се, че независимата променлива не съдържа грешки. Регресионният анализ се използва за прогнозиране, анализ на времеви редове, тестване на хипотези и идентифициране на скрити връзки в данните.

Определение за регресионен анализ

Извадката може да не е функция, а релация. Например данните за изграждане на регресия могат да бъдат така: . В такава извадка една стойност на променлива съответства на няколко стойности на променлива.

Линейна регресия

Линейната регресия предполага, че функцията зависи линейно от параметрите. В този случай не е необходима линейна зависимост от свободната променлива,

В случая, когато функцията на линейната регресия има формата

тук са компонентите на вектора.

Стойностите на параметрите в случай на линейна регресия се намират с помощта на метода на най-малките квадрати. Използването на този метод е оправдано от предположението за Гаусово разпределение на случайната променлива.

Разликите между действителните стойности на зависимата променлива и реконструираните се наричат регресионни остатъци(остатъци). В литературата се използват и синоними: остатъциИ грешки. Една от важните оценки на критерия за качество на получената зависимост е сумата от квадратите на остатъците:

Тук сума на квадратите на грешките.

Дисперсията на остатъците се изчислява по формулата

Тук средна квадратична грешка, средна квадратична грешка.

Графиките показват проби, обозначени със сини точки, и регресионни връзки, обозначени с плътни линии. Свободната променлива се нанася по абсцисната ос, а зависимата променлива се нанася по ординатната ос. И трите зависимости са линейни по отношение на параметрите.

Нелинейна регресия

Нелинейни регресионни модели – модели на формата

което не може да бъде представено като скаларно произведение

където са параметрите на регресионния модел, е свободна променлива от пространството, е зависима променлива, е случайна променлива и е функция от някакъв даден набор.

Стойностите на параметрите в случай на нелинейна регресия се намират с помощта на един от методите за градиентно спускане, например алгоритъма Levenberg-Marquardt.

Относно условията

Терминът "регресия" е въведен от Франсис Галтън в края на 19 век. Галтън откри, че децата на родители с висок или нисък ръст обикновено не наследяват изключителна височина и нарече това явление „регресия към посредственост“. Първоначално терминът се използва изключително в биологичен смисъл. След работата на Карл Пиърсън този термин започва да се използва в статистиката.

В статистическата литература се прави разлика между регресия, включваща една свободна променлива, и регресия, включваща няколко свободни променливи едноизмеренИ многоизмеренрегресия. Предполага се, че използваме няколко свободни променливи, тоест вектор на свободна променлива. В специални случаи, когато свободната променлива е скала, тя ще бъде означена с . Разграничете линеенИ нелинейнирегресия. Ако регресионният модел не е линейна комбинация от функции на параметрите, тогава се казва, че е нелинейна регресия. В този случай моделът може да бъде произволна суперпозиция на функции от определено множество. Нелинейните модели са експоненциални, тригонометрични и други (например радиални базисни функции или перцептрон на Розенблат), които предполагат, че връзката между параметрите и зависимата променлива е нелинейна.

Разграничете параметриченИ непараметричнирегресия. Трудно е да се направи строга граница между тези два вида регресии. В момента няма общоприет критерий за разграничаване на един тип модел от друг. Например линейните модели се считат за параметрични, а моделите, които включват осредняване на зависимата променлива върху пространството на свободната променлива, са непараметрични. Пример за параметричен регресионен модел: линеен предиктор, многослоен перцептрон. Примери за модели на смесена регресия: радиални базисни функции. Непараметричен модел с подвижно осредняване в прозорец с известна ширина. Като цяло, непараметричната регресия се различава от параметричната регресия по това, че зависимата променлива не зависи от една стойност на свободната променлива, а от някакво специфично съседство на тази стойност.

Има разграничение между термините „апроксимация на функцията“, „апроксимация“, „интерполация“ и „регресия“. Това е следното.

Апроксимация на функции.Дадена е функция на дискретен или непрекъснат аргумент. Необходимо е да се намери функция от определено параметрично семейство, например сред алгебрични полиноми от дадена степен. Функционалните параметри трябва да осигуряват минимум някаква функционалност, например,

Срок приближениесиноним на термина „апроксимация на функция“. По-често се използва, когато говорим за дадена функция, като функция на дискретен аргумент. Тук също трябва да намерите функция, която минава най-близо до всички точки на дадена функция. Това въвежда концепцията остатъциразстояния между точки на непрекъсната функция и съответните точки на дискретна аргументна функция.

Интерполацияфункции частен случай на апроксимационния проблем, когато се изисква в определени точки т.нар интерполационни възлистойностите на функцията и функцията, която я приближава, съвпадаха. В по-общ план се налагат ограничения върху стойностите на определени деривати на деривати. Тоест, дадена е функция на дискретен аргумент. Изисква се да се намери функция, която минава през всички точки. В този случай метриката обикновено не се използва, но често се въвежда концепцията за „гладкост“ на желаната функция.

Основната характеристика на регресионния анализ: с негова помощ можете да получите конкретна информация за това каква форма и характер има връзката между изследваните променливи.

Последователност от етапи на регресионния анализ

Нека разгледаме накратко етапите на регресионния анализ.

    Формулиране на проблема. На този етап се формират предварителни хипотези за зависимостта на изследваните явления.

    Дефиниция на зависими и независими (обяснителни) променливи.

    Събиране на статистически данни. Трябва да се съберат данни за всяка от променливите, включени в регресионния модел.

    Формулиране на хипотеза за формата на връзката (проста или множествена, линейна или нелинейна).

    Определение регресионни функции (състои се в изчисляване на числените стойности на параметрите на регресионното уравнение)

    Оценяване на точността на регресионния анализ.

    Интерпретация на получените резултати. Получените резултати от регресионния анализ се сравняват с предварителните хипотези. Оценява се коректността и достоверността на получените резултати.

    Прогнозиране на неизвестни стойности на зависима променлива.

Използвайки регресионен анализ, е възможно да се реши проблемът с прогнозирането и класификацията. Прогнозираните стойности се изчисляват чрез заместване на стойностите на обяснителните променливи в регресионното уравнение. Проблемът с класификацията се решава по следния начин: линията на регресия разделя целия набор от обекти на два класа и тази част от набора, където стойността на функцията е по-голяма от нула, принадлежи към един клас, а частта, където е по-малка от нула принадлежи към друг клас.

Проблеми на регресионния анализ

Нека разгледаме основните задачи на регресионния анализ: установяване на формата на зависимост, определяне регресионни функции, оценка на неизвестни стойности на зависимата променлива.

Установяване на формата на зависимост.

Характерът и формата на връзката между променливите могат да формират следните видове регресия:

    положителна линейна регресия (изразява се в равномерно нарастване на функцията);

    положителна равномерно нарастваща регресия;

    положителна равномерно нарастваща регресия;

    отрицателна линейна регресия (изразена като равномерен спад на функцията);

    отрицателна равномерно ускорена намаляваща регресия;

    отрицателна равномерно намаляваща регресия.

Описаните сортове обаче обикновено не се срещат в чиста форма, а в комбинация помежду си. В този случай говорим за комбинирани форми на регресия.

Дефиниция на регресионната функция.

Втората задача се свежда до идентифициране на ефекта върху зависимата променлива на основните фактори или причини, при равни други условия и при изключване на влиянието на случайни елементи върху зависимата променлива. Регресионна функциясе определя под формата на математическо уравнение от един или друг тип.

Оценка на неизвестни стойности на зависимата променлива.

Решението на този проблем се свежда до решаване на проблем от един от следните видове:

    Оценка на стойностите на зависимата променлива в разглеждания интервал от изходните данни, т.е. липсващи стойности; в този случай проблемът с интерполацията е решен.

    Оценка на бъдещите стойности на зависимата променлива, т.е. намиране на стойности извън зададения интервал на изходните данни; в този случай проблемът с екстраполацията е решен.

И двата проблема се решават чрез заместване на намерените оценки на параметрите за стойностите на независими променливи в регресионното уравнение. Резултатът от решаването на уравнението е оценка на стойността на целевата (зависима) променлива.

Нека да разгледаме някои от предположенията, на които се основава регресионният анализ.

Предположение за линейност, т.е. връзката между разглежданите променливи се приема за линейна. И така, в този пример начертахме диаграма на разсейване и успяхме да видим ясна линейна зависимост. Ако на точковата диаграма на променливите видим ясно отсъствие на линейна зависимост, т.е. Ако има нелинейна връзка, трябва да се използват нелинейни методи за анализ.

Предположение за нормалност остатъци. Предполага се, че разпределението на разликата между прогнозираните и наблюдаваните стойности е нормално. За да определите визуално естеството на разпределението, можете да използвате хистограми остатъци.

Когато се използва регресионен анализ, трябва да се има предвид основното му ограничение. Състои се във факта, че регресионният анализ ни позволява да открием само зависимости, а не връзките, които са в основата на тези зависимости.

Регресионният анализ ви позволява да оцените силата на връзката между променливите чрез изчисляване на прогнозната стойност на променлива въз основа на няколко известни стойности.

Регресионно уравнение.

Уравнението на регресията изглежда така: Y=a+b*X

Използвайки това уравнение, променливата Y се изразява чрез константа a и наклона на линията (или наклона) b, умножени по стойността на променливата X. Константата a се нарича още член на отсечката, а наклонът е коефициент на регресия или B-коефициент.

В повечето случаи (ако не винаги) има известно разсейване на наблюденията спрямо регресионната линия.

остатък е отклонението на единична точка (наблюдение) от регресионната линия (предсказана стойност).

За да решите проблема с регресионния анализ в MS Excel, изберете от менюто Обслужване"Пакет за анализ"и инструмента за регресионен анализ. Задаваме входните интервали X и Y. Входният интервал Y е диапазонът от зависими анализирани данни, той трябва да включва една колона. Входящият интервал X е диапазонът от независими данни, които трябва да бъдат анализирани. Броят на входните диапазони не трябва да надвишава 16.

На изхода на процедурата в изходния диапазон получаваме дадения отчет таблица 8.3а-8,3v.

ЗАКЛЮЧВАНЕ НА РЕЗУЛТАТИТЕ

Таблица 8.3а. Регресионна статистика

Регресионна статистика

множествено число Р

R-квадрат

Нормализирано R-квадрат

Стандартна грешка

Наблюдения

Нека първо да разгледаме горната част на изчисленията, представени в таблица 8.3а, - регресионна статистика.

величина R-квадрат, наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между изходните данни и регресионния модел (изчислените данни). Мярката за сигурност е винаги в рамките на интервала.

В повечето случаи стойността R-квадрате между тези стойности, наречени екстремни, т.е. между нула и едно.

Ако стойността R-квадратблизо до единица, това означава, че конструираният модел обяснява почти цялата вариабилност в съответните променливи. Обратно, смисълът R-квадрат, близо до нула, означава лошо качество на конструирания модел.

В нашия пример мярката за сигурност е 0,99673, което показва много добро прилягане на регресионната линия към оригиналните данни.

множествено число R - коефициент на множествена корелация R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y).

множествено число Ре равен на корен квадратен от коефициента на определяне; това количество приема стойности в диапазона от нула до единица.

При прост линеен регресионен анализ множествено число Rравен на корелационния коефициент на Пиърсън. Наистина ли, множествено число Rв нашия случай той е равен на корелационния коефициент на Pearson от предишния пример (0,998364).

Таблица 8.3b. Коефициенти на регресия

Коефициенти

Стандартна грешка

t-статистика

Y-пресечка

Променлива X 1

* Предоставена е съкратена версия на изчисленията

Сега разгледайте средната част от изчисленията, представени в таблица 8.3b. Тук са дадени регресионният коефициент b (2.305454545) и преместването по ординатната ос, т.е. константа a (2,694545455).

Въз основа на изчисленията можем да напишем регресионното уравнение, както следва:

Y= x*2,305454545+2,694545455

Посоката на връзката между променливите се определя въз основа на знаците (отрицателни или положителни) на регресионните коефициенти (коефициент b).

Ако знакът на регресионния коефициент е положителен, връзката между зависимата променлива и независимата променлива ще бъде положителна. В нашия случай знакът на регресионния коефициент е положителен, следователно връзката също е положителна.

Ако знакът на регресионния коефициент е отрицателен, връзката между зависимата променлива и независимата променлива е отрицателна (обратна).

IN таблица 8.3c. представени са изходните резултати остатъци. За да се появят тези резултати в отчета, трябва да поставите отметка в квадратчето „Остатъци“, когато стартирате инструмента „Регресия“.

ТЕГЛЕНЕ НА ОСТАНАЛАТА

Таблица 8.3c. Остатъци

Наблюдение

Прогнозира Y

Остатъци

Стандартни баланси

Използвайки тази част от отчета, можем да видим отклоненията на всяка точка от построената регресионна линия. Най-голямата абсолютна стойност остатъкв нашия случай - 0,778, най-малката - 0,043. За да интерпретираме по-добре тези данни, ще използваме графиката на оригиналните данни и построената регресионна линия, представени в ориз. 8.3. Както можете да видите, линията на регресия е доста точно „напасната“ към стойностите на оригиналните данни.

Трябва да се има предвид, че разглежданият пример е доста прост и не винаги е възможно да се изгради качествено линия на линейна регресия.

Ориз. 8.3.Изходни данни и регресионна линия

Проблемът с оценката на неизвестни бъдещи стойности на зависимата променлива въз основа на известни стойности на независимата променлива остана неразгледан, т.е. проблем с прогнозирането.

Имайки регресионно уравнение, проблемът за прогнозиране се свежда до решаване на уравнението Y= x*2.305454545+2.694545455 с известни стойности на x. Представени са резултатите от прогнозирането на зависимата променлива Y шест стъпки напред в таблица 8.4.

Таблица 8.4. Y променливи прогнозни резултати

Y (предвидено)

По този начин, в резултат на използването на регресионен анализ в Microsoft Excel, ние:

    построено регресионно уравнение;

    установена е формата на зависимостта и посоката на връзка между променливите - положителна линейна регресия, която се изразява в равномерно нарастване на функцията;

    установи посоката на връзката между променливите;

    оценява качеството на получената регресионна линия;

    са в състояние да видят отклонения на изчислените данни от данните на оригиналния набор;

    прогнозирани бъдещи стойности на зависимата променлива.

Ако регресионна функциядефинирани, интерпретирани и обосновани и оценката за точността на регресионния анализ отговаря на изискванията, конструираният модел и прогнозираните стойности могат да се считат за достатъчно надеждни.

Прогнозираните стойности, получени по този начин, са средните стойности, които могат да се очакват.

В тази работа разгледахме основните характеристики Описателна статистикаи сред тях такива понятия като средна стойност,Медиана,максимум,минимуми други характеристики на вариацията на данните.

Концепцията също беше обсъдена накратко емисии. Разгледаните характеристики се отнасят до така наречения проучвателен анализ на данни; неговите заключения може да не се отнасят за общата съвкупност, а само за извадка от данни. Проучвателният анализ на данни се използва за получаване на първични заключения и формиране на хипотези за населението.

Бяха разгледани и основите на корелационния и регресионен анализ, техните задачи и възможности за практическо приложение.

Регресионният анализ е метод за установяване на аналитичен израз за стохастичната зависимост между изследваните характеристики. Регресионното уравнение показва как се променя средната стойност припри промяна на някоя от х аз , и има формата:

Където y -зависима променлива (винаги е една и съща);

х аз - независими променливи (фактори) (може да има няколко от тях).

Ако има само една независима променлива, това е прост регресионен анализ. Ако има няколко от тях ( П 2), тогава такъв анализ се нарича многофакторен.

Регресионният анализ решава два основни проблема:

    конструиране на регресионно уравнение, т.е. намиране на вида на връзката между резултатния показател и независимите фактори х 1 , х 2 , …, х н .

    оценка на значимостта на полученото уравнение, т.е. определяне до каква степен избраните факторни характеристики обясняват вариацията на черта u.

Регресионният анализ се използва главно за планиране, както и за разработване на нормативна база.

За разлика от корелационния анализ, който отговаря само на въпроса дали има връзка между анализираните характеристики, регресионният анализ дава и своя формализиран израз. Освен това, ако корелационният анализ изучава някаква връзка между факторите, тогава регресионният анализ изучава едностранната зависимост, т.е. връзка, показваща как промяната във факторните характеристики засяга ефективната характеристика.

Регресионният анализ е един от най-развитите методи на математическата статистика. Строго погледнато, за прилагане на регресионен анализ е необходимо да се изпълнят редица специални изисквания (по-специално, хл 2 ,...,х н ;гтрябва да са независими, нормално разпределени случайни променливи с постоянни дисперсии). В реалния живот стриктното спазване на изискванията за регресионен и корелационен анализ е много рядко, но и двата метода са много разпространени в икономическите изследвания. Зависимостите в икономиката могат да бъдат не само преки, но и обратни и нелинейни. Регресионен модел може да бъде изграден при наличието на някаква зависимост, но при многовариантния анализ се използват само линейни модели на формата:

Регресионното уравнение се конструира, като правило, с помощта на метода на най-малките квадрати, чиято същност е да се минимизира сумата от квадратните отклонения на действителните стойности на получената характеристика от нейните изчислени стойности, т.е.:

Където T -брой наблюдения;

й =a+b 1 х 1 й 2 х 2 й + ... + b н х н й - изчислена стойност на фактора резултат.

Препоръчва се коефициентите на регресия да се определят с помощта на аналитични пакети за персонален компютър или специален финансов калкулатор. В най-простия случай коефициентите на регресия на еднофакторно уравнение на линейна регресия от формата y = a + bxможе да се намери с помощта на формулите:

Клъстерен анализ

Клъстерният анализ е един от методите на многомерния анализ, предназначен за групиране (групиране) на популация, чиито елементи се характеризират с много характеристики. Стойностите на всяка характеристика служат като координати на всяка единица от изследваната популация в многомерното пространство на характеристиките. Всяко наблюдение, характеризиращо се със стойностите на няколко индикатора, може да бъде представено като точка в пространството на тези индикатори, чиито стойности се считат за координати в многомерно пространство. Разстояние между точките РИ рс ккоординатите се определят като:

Основният критерий за клъстериране е, че разликите между клъстерите трябва да са по-значими, отколкото между наблюденията, приписани на един и същ клъстер, т.е. в многомерно пространство трябва да се спазва следното неравенство:

Където r 1, 2 - разстояние между клъстери 1 и 2.

Точно като процедурите за регресионен анализ, процедурата за клъстериране е доста трудоемка; препоръчително е да се извърши на компютър.

Съвременната политическа наука изхожда от позицията на взаимовръзката на всички явления и процеси в обществото. Невъзможно е да се разберат събитията и процесите, да се прогнозират и управляват явленията на политическия живот, без да се изучават връзките и зависимостите, които съществуват в политическата сфера на обществото. Една от най-често срещаните задачи в политическите изследвания е да се изследва връзката между някои наблюдавани променливи. Цял клас техники за статистически анализ, обединени под общото наименование „регресионен анализ“ (или, както се нарича още „корелационно-регресионен анализ“), помага за решаването на този проблем. Въпреки това, ако корелационният анализ дава възможност да се оцени силата на връзката между две променливи, тогава с помощта на регресионен анализ е възможно да се определи вида на тази връзка и да се предвиди зависимостта на стойността на една променлива от стойността на друга променлива.

Първо, нека си припомним какво е корелация. Корелацияпосочете най-важния специален случай на статистическа връзка, състоящ се във факта, че еднакви стойности на една променлива съответстват на различни средни стойностидруг. При промяна на стойността на атрибута x естествено се променя средната стойност на атрибута y, докато във всеки отделен случай стойността на атрибута при(с различни вероятности) може да приеме много различни стойности.

Появата на термина „корелация” в статистиката (а политическата наука включва постиженията на статистиката за решаване на нейните проблеми, което следователно е сродна дисциплина на политическата наука) се свързва с името на английския биолог и статистик Франсис Галтън, който предлага през 19 век. теоретични основи на корелационния и регресионен анализ. Терминът "корелация" е бил известен на науката по-рано. По-специално в палеонтологията през 18 век. използван е от френския учен Жорж Кювие. Той въведе така наречения закон за корелация, с помощта на който беше възможно да се реконструира външният им вид от останките на животни, намерени по време на разкопки.

Има една добре известна история, свързана с името на този учен и неговия закон за корелация. Така по време на университетска ваканция студенти, които решили да направят номер на известен професор, дръпнали върху един студент козя кожа с рога и копита. Той се качи през прозореца на спалнята на Кювие и извика: „Ще те изям“. Професорът се събудил, погледнал силуета и отвърнал: „Ако имаш рога и копита, значи си тревопасно животно и не можеш да ме изядеш. И за непознаването на закона за корелацията ще получите лоша оценка. Обърна се на другата си страна и заспа. Шегувам се, но в този пример наблюдаваме специален случай на използване на множествен корелационно-регресионен анализ. Тук професорът, въз основа на познаването на стойностите на две наблюдавани характеристики (наличието на рога и копита), въз основа на закона за корелация, изведе средната стойност на третата характеристика (класът, към който принадлежи това животно - a Тревопасен). В този случай не говорим за конкретната стойност на тази променлива (т.е. дадено животно може да приема различни стойности в номинална скала - може да е коза, овен или бик...).

Сега да преминем към термина „регресия“. Строго погледнато, това не е свързано със значението на онези статистически проблеми, които се решават с помощта на този метод. Обяснение на термина може да се даде само въз основа на познаването на историята на развитието на методите за изследване на връзките между характеристиките. Един от първите примери за изследване от този вид беше работата на статистиците Ф. Галтън и К. Пиърсън, които се опитаха да открият модел между ръста на бащите и техните деца според две наблюдаеми характеристики (където Х-височината на бащата и U-ръст на децата). В своето изследване те потвърдиха първоначалната хипотеза, че средно високите бащи отглеждат високи деца. Същият принцип важи и за ниските бащи и деца. Но ако учените спрат дотук, трудовете им никога няма да бъдат споменати в учебниците по статистика. Изследователите откриха друг модел в рамките на вече споменатата потвърдена хипотеза. Те доказаха, че много високите бащи раждат деца, които са средно високи, но не много различни по височина от деца, чиито бащи, макар и по-високи от средния, не се различават много от средния ръст. Същото важи и за бащите с много нисък ръст (с отклонение от средното за ниската група) - техните деца средно не се различават по височина от своите връстници, чиито бащи просто са ниски. Те нарекоха функцията, която описва този модел регресионна функция.След това изследване всички уравнения, описващи подобни функции и конструирани по подобен начин, започват да се наричат ​​регресионни уравнения.

Регресионният анализ е един от методите за многовариантен статистически анализ на данни, съчетаващ набор от статистически техники, предназначени да изучават или моделират връзките между една зависима и няколко (или една) независими променливи. Зависимата променлива, според традицията, приета в статистиката, се нарича отговор и се обозначава като VНезависимите променливи се наричат ​​предиктори и се означават като Х.По време на анализа ще се установи, че някои променливи са слабо свързани с отговора и в крайна сметка ще бъдат изключени от анализа. Останалите променливи, свързани със зависимата променлива, също могат да бъдат наречени фактори.

Регресионният анализ дава възможност да се предскажат стойностите на една или повече променливи в зависимост от друга променлива (например склонност към неконвенционално политическо поведение в зависимост от нивото на образование) или няколко променливи. Изчислява се на компютър. За да създадете регресионно уравнение, което ви позволява да измерите степента на зависимост на контролираната характеристика от факторните, е необходимо да включите професионални математици и програмисти. Регресионният анализ може да предостави неоценима услуга при конструирането на прогнозни модели за развитието на политическата ситуация, оценката на причините за социалното напрежение и при провеждането на теоретични експерименти. Регресионният анализ се използва активно за изследване на влиянието на редица социално-демографски параметри върху електоралното поведение на гражданите: пол, възраст, професия, място на пребиваване, националност, ниво и характер на доходите.

Във връзка с регресионния анализ се използват понятията независимаИ зависимпроменливи. Независима променлива е тази, която обяснява или причинява промяна в друга променлива. Зависима променлива е променлива, чиято стойност се обяснява с влиянието на първата променлива. Например на президентските избори през 2004 г. определящите фактори, т.е. независими променливи бяха такива показатели като стабилизиране на финансовото състояние на населението на страната, нивото на популярност на кандидатите и фактора заемане на длъжност.Зависимата променлива в този случай може да се счита процентът на гласовете, подадени за кандидатите. По същия начин, в двойката променливи „възраст на избирателя“ и „ниво на избирателна активност“, първата е независима, а втората е зависима.

Регресионният анализ ви позволява да решите следните проблеми:

  • 1) установи самия факт на наличието или отсъствието на статистически значима връзка между Ki Х;
  • 2) конструиране на най-добрите (в статистически смисъл) оценки на регресионната функция;
  • 3) според зададени стойности хизградете прогноза за неизвестното U
  • 4) оценява специфичната тежест на влиянието на всеки фактор хНа Uи съответно изключва несъществени характеристики от модела;
  • 5) чрез идентифициране на причинно-следствени връзки между променливи, частично контролиране на стойностите на P чрез регулиране на стойностите на обяснителните променливи Х.

Регресионният анализ е свързан с необходимостта от избор на взаимно независими променливи, които влияят върху стойността на изследвания индикатор, определят формата на регресионното уравнение и оценяват параметрите с помощта на статистически методи за обработка на първични социологически данни. Този тип анализ се основава на идеята за формата, посоката и близостта (плътността) на връзката. Разграничете парна баняИ множествена регресияв зависимост от броя на изследваните характеристики. На практика регресионният анализ обикновено се извършва заедно с корелационния анализ. Регресионно уравнениеописва числена връзка между количествата, изразена като тенденция една променлива да се увеличава или намалява, докато друга нараства или намалява. В същото време са ядосани мразовитИ нелинейна регресия.При описанието на политически процеси се срещат еднакво и двата регресионни варианта.

Точкова диаграма за разпределението на взаимозависимостта на интереса към статии на политическа тематика ( U)и образование на респондентите (Х)представлява линейна регресия (фиг. 30).

Ориз. тридесет.

Точкова диаграма за разпределението на нивото на избирателна активност ( U)а възрастта на респондента (А) (условен пример) е нелинейна регресия (фиг. 31).


Ориз. 31.

За да се опише връзката между две характеристики (A" и U) в сдвоен регресионен модел, се използва линейно уравнение

където a е стойността на случайната грешка на уравнението, когато характеристиките варират, т.е. отклонение на уравнението от „линейност“.

За оценка на коефициентите АИ bизползвайте метода на най-малките квадрати, който предполага, че сумата от квадратите на отклоненията на всяка точка от диаграмата на разсейване спрямо регресионната линия трябва да бъде минимална. Коефициенти a h bможе да се изчисли с помощта на система от уравнения:

Методът за оценка на най-малките квадрати дава оценки на коефициента като АИ б,за които правата минава през точката с координати хИ y,тези. има връзка при = брадва + б.Извиква се графично представяне на регресионно уравнение теоретична регресионна линия.При линейна зависимост коефициентът на регресия представлява на графиката тангенса на ъгъла на наклона на теоретичната регресионна линия към абсцисната ос. Знакът на коефициента показва посоката на връзката. Ако е по-голямо от нула, тогава връзката е директна, ако е по-малка, тя е обратна.

Примерът по-долу от изследването „Политически Петербург-2006“ (Таблица 56) показва линейната връзка между представите на гражданите за степента на удовлетвореност от живота им в настоящето и очакванията за промени в качеството на живот в бъдеще. Връзката е пряка, линейна (стандартизираният регресионен коефициент е 0,233, нивото на значимост е 0,000). В този случай регресионният коефициент не е висок, но надвишава долната граница на статистически значим показател (долната граница на квадрата на статистически значим показател на коефициента на Пиърсън).

Таблица 56

Влиянието на качеството на живот на гражданите в настоящето върху очакванията

(Санкт Петербург, 2006)

* Зависима променлива: „Как мислите, че ще се промени животът ви през следващите 2-3 години?“

В политическия живот стойността на изследваната променлива най-често зависи едновременно от няколко характеристики. Например нивото и естеството на политическата активност се влияят едновременно от политическия режим на държавата, политическите традиции, характеристиките на политическото поведение на хората в дадена област и социалната микрогрупа на респондента, неговата възраст, образование, ниво на доходи , политическа ориентация и др. В този случай е необходимо да се използва уравнението множествена регресия, което изглежда така:

къде е коефициентът b.- коефициент на частична регресия. Той показва приноса на всяка независима променлива за определяне на стойностите на независимата (резултатната) променлива. Ако коефициентът на частична регресия е близо до 0, тогава можем да заключим, че няма пряка връзка между независимите и зависимите променливи.

Изчисляването на такъв модел може да се извърши на компютър с помощта на матрична алгебра. Множествената регресия ни позволява да отразим многофакторния характер на социалните връзки и да изясним влиянието на всеки фактор поотделно и всички заедно върху получения атрибут.

Коефициентът, означен с б,наречен коефициент на линейна регресия и показва силата на връзката между вариацията на факторната характеристика хи вариация на получената черта YТози коефициент измерва силата на връзката в абсолютни мерни единици на атрибути. Но близостта на корелацията между характеристиките може да бъде изразена и в пропорции на стандартното отклонение на получената характеристика (този коефициент се нарича коефициент на корелация). За разлика от регресионния коефициент bкоефициентът на корелация не зависи от приетите единици за измерване на характеристиките и следователно е сравним за всякакви характеристики. Обикновено връзката се счита за силна, ако /> 0,7, средно близо - при 0,5 g 0,5.

Както е известно, най-близката възможна връзка е функционална връзка, когато всяка отделна стойност Yможе недвусмислено да се припише значението Х.Следователно, колкото по-близо е коефициентът на корелация до 1, толкова по-близка е връзката до функционалната. Нивото на значимост за регресионен анализ не трябва да надвишава 0,001.

Коефициент на корелация за дълго времесе счита за основен показател за близостта на връзката между характеристиките. По-късно обаче коефициентът на детерминация стана такъв показател. Значението на този коефициент е следното - той отразява дела на общата дисперсия на резултантната характеристика U, обяснява се с дисперсията на признака Х.Намира се чрез просто повдигане на квадрат на коефициента на корелация (вариращ от 0 до 1) и, на свой ред, за линейна зависимост отразява пропорцията от 0 (0%) до 1 (100%) характерни стойности Y,определени от характерните стойности Х.Написано е като аз 2,а в получените таблици на регресионен анализ в SPSS - без квадрат.

Нека очертаем основните проблеми при конструирането на уравнение на множествена регресия.

  • 1. Избор на фактори за включване в регресионното уравнение.На този етап изследователят първо компилира общ списъкосновните причини, които според теорията определят изучаваното явление. След това той трябва да избере характеристики в регресионното уравнение. Основното правило за подбор: факторите, включени в анализа, трябва да корелират помежду си възможно най-малко; само в този случай може да се припише количествена мярка за въздействие на конкретен фактор-атрибут.
  • 2. Избиране на формата на уравнение за множествена регресия(на практика по-често се използва линейна или линейно-логаритмична). Така че, за да използва множествена регресия, изследователят трябва първо да изгради хипотетичен модел на влиянието на няколко независими променливи върху резултата. За да бъдат резултатите надеждни, е необходимо моделът да съвпада точно с реалния процес, т.е. връзката между променливите трябва да бъде линейна, никоя значима независима променлива не може да бъде игнорирана и нито една променлива, която не е пряко свързана с процеса, който се изучава, не може да бъде включена в анализа. Освен това всички измервания на променливи трябва да бъдат изключително точни.

От горното описание произтичат редица условия за използването на този метод, без които е невъзможно да се пристъпи към процедурата на множествения регресионен анализ (MRA). Само спазването на всички от следните точки ви позволява правилно да извършите регресионен анализ.

Хареса ли ви статията? Споделете с вашите приятели!