Статистическа популация- набор от единици, които имат маса, типичност, качествена хомогенност и наличие на вариация.

Статистическата популация се състои от материално съществуващи обекти (Служители, предприятия, държави, региони), е обект.

Единица от населението— всяка конкретна единица от статистическа съвкупност.

Една и съща статистическа съвкупност може да бъде хомогенна по една характеристика и разнородна по друга.

Качествена еднородност- сходство на всички единици от съвкупността по една основа и различие по всички останали.

В статистическата съвкупност разликите между една и друга единица на съвкупността често са от количествен характер. Количествените промени в стойностите на дадена характеристика на различни единици от съвкупността се наричат вариация.

Вариация на черта- количествена промяна в характеристика (за количествена характеристика) по време на прехода от една единица от съвкупността към друга.

Знаке собственост Характеристикаили друга характеристика на единици, обекти и явления, които могат да бъдат наблюдавани или измерени. Признаците се делят на количествени и качествени. Разнообразието и изменчивостта на стойността на даден признак в отделните единици на съвкупността се нарича вариация.

Атрибутивните (качествените) характеристики не могат да бъдат изразени числено (състав на населението по пол). Количествените характеристики имат числено изражение (състав на населението по възраст).

Индекс- това е обобщаваща количествена и качествена характеристика на всяко свойство на единици или съвкупност като цяло при определени условия на време и място.

Карта за резултате набор от показатели, които цялостно отразяват изследваното явление.

Например, заплатата се изучава:

Знак - заплати
Статистическа съвкупност - всички служители
Единицата от съвкупността е всеки служител
Качествена хомогенност - начислени заплати
Вариация на знак - поредица от числа

Популация и извадка от нея

Базата е набор от данни, получени в резултат на измерване на една или повече характеристики. Наистина наблюдавана съвкупност от обекти, представена статистически чрез редица наблюдения случайна величина, е вземане на проби, а хипотетично съществуващото (предполагаемо) - общо население. Популацията може да е ограничена (брой наблюдения N = конст) или безкрайно ( N = ∞), а извадка от популация винаги е резултат от ограничен брой наблюдения. Броят на наблюденията, образуващи извадка, се нарича размер на извадката. Ако размерът на извадката е достатъчно голям ( n → ∞) пробата се разглежда голям, иначе се нарича вземане на проби ограничен обем. Пробата се разглежда малък, ако при измерване на едномерна случайна променлива размерът на извадката не надвишава 30 ( н<= 30 ), и при измерване на няколко едновременно ( к) функции в многомерното релационно пространство нДа се кне надвишава 10 (н/к< 10) . Примерните форми вариационна серия, ако членовете му са редови статистики, т.е. примерни стойности на случайната променлива хсе подреждат във възходящ ред (класират), стойностите на характеристиката се извикват настроики.

Пример. Почти същият произволно избран набор от обекти - търговски банки на един административен район на Москва, може да се разглежда като извадка от генералната съвкупност на всички търговски банки в този район и като извадка от генералната съвкупност на всички търговски банки в Москва , както и образец от търговските банки в страната и др.

Основни методи за организиране на вземане на проби

Надеждността на статистическите заключения и смислената интерпретация на резултатите зависи от представителностпроби, т.е. пълнота и адекватност на представянето на свойствата на генералната съвкупност, по отношение на които тази извадка може да се счита за представителна. Изследването на статистическите свойства на съвкупността може да се организира по два начина: с помощта непрекъснатоИ не непрекъснато. Непрекъснато наблюдениепредвижда преглед на всички единициизучавани съвкупност, А частично (избирателно) наблюдение- само части от него.

Има пет основни начина за организиране на пробно наблюдение:

1. прост произволен избор, при което обектите се избират на случаен принцип от съвкупност от обекти (например с помощта на таблица или генератор на произволни числа), като всяка от възможните проби има еднаква вероятност. Такива проби се наричат всъщност произволно;

2. прост избор чрез редовна процедурасе извършва с помощта на механичен компонент (например дата, ден от седмицата, номер на апартамент, букви от азбуката и т.н.) и получените по този начин проби се наричат механичен;

3. стратифицираниподборът се състои в това, че общата съвкупност на обема се разделя на субпопулации или слоеве (страти) на обема, така че . Стратите са хомогенни обекти по отношение на статистически характеристики (например населението е разделено на страти по възрастови групи или социална класа; предприятията по отрасли). В този случай пробите се извикват стратифицирани(в противен случай, стратифициран, типичен, регионализиран);

4. методи сериенселекция се използват за формиране сериенили проби от гнезда. Те са удобни, ако е необходимо да се изследва едновременно „блок“ или поредица от обекти (например партида стоки, продукти от определена серия или населението на териториално-административното деление на страната). Изборът на серии може да се извърши чисто на случаен принцип или механично. В този случай се извършва пълна проверка на определена партида стока или цяла териториална единица (жилищна сграда или блок);

5. комбинирани(стъпковият) избор може да комбинира няколко метода за избор наведнъж (например стратифициран и случаен или случаен и механичен); такава проба се нарича комбинирани.

Видове селекция

от умразграничават се индивидуален, групов и комбиниран подбор. При индивидуален подборотделни единици от генералната съвкупност се избират в извадката, с групов избор- качествено хомогенни групи (серии) от единици и комбинирана селекциявключва комбинация от първия и втория тип.

от методсе отличава селекцията повтарящи се и неповтарящи сепроба.

Неповториминаречена селекция, при която единица, включена в извадката, не се връща към първоначалната популация и не участва в по-нататъшна селекция; докато броят на единиците в генералната съвкупност нсе намалява по време на процеса на подбор. При повтаря сеселекция уловенв извадката единица след регистрация се връща в генералната съвкупност и по този начин запазва равни възможности, заедно с други единици, да бъде използвана в последваща процедура за подбор; докато броят на единиците в генералната съвкупност ностава непроменена (методът рядко се използва в социално-икономическите изследвания). Въпреки това, с големи N (N → ∞)формули за повторяемселекцията се доближава до тези за повтаря сеселекция и последните практически се използват по-често ( N = конст).

Основни характеристики на параметрите на генералната и извадковата съвкупност

Статистическите заключения от изследването се основават на разпределението на случайната променлива и наблюдаваните стойности (x 1, x 2, ..., x n)се наричат реализации на случайната променлива х(n е размерът на извадката). Разпределението на случайна променлива в генералната съвкупност е от теоретичен, идеален характер и нейният извадков аналог е емпириченразпространение. Някои теоретични разпределения са специфицирани аналитично, т.е. техен настроикиопределяне на стойността на функцията на разпределение във всяка точка от пространството на възможните стойности на случайната променлива. Поради това за извадка функцията на разпределение е трудна и понякога невъзможна за определяне настроикисе оценяват от емпирични данни и след това се заместват в аналитичен израз, описващ теоретичното разпределение. В този случай предположението (или хипотеза) относно типа разпределение може да бъде или статистически правилно, или погрешно. Но във всеки случай емпиричното разпределение, реконструирано от извадката, само грубо характеризира истинското. Най-важните параметри на разпространение са очаквана стойности дисперсия.

По своята същност разпределенията са непрекъснатоИ отделен. Най-известното непрекъснато разпределение е нормално. Примерни аналози на параметрите и за него са: средна стойност и емпирична дисперсия. Сред дискретните в социално-икономическите изследвания най-често използваните алтернативен (дихотомичен)разпространение. Параметърът на математическото очакване на това разпределение изразява относителната стойност (или дял) единици от съвкупността, които имат изследваната характеристика (посочена е с буквата); делът на населението, което не притежава тази характеристика, се обозначава с буквата q (q = 1 - p). Дисперсията на алтернативното разпределение също има емпиричен аналог.

В зависимост от вида на разпределението и от метода на избор на съвкупност, характеристиките на параметрите на разпределението се изчисляват по различен начин. Основните за теоретични и емпирични разпределения са дадени в табл. 1.

Фракция на пробата k nСъотношението на броя на единиците в извадката от съвкупността към броя на единиците в генералната съвкупност се нарича:

kn = n/N.

Фракция на пробата wе съотношението на единиците, притежаващи изследваната характеристика хдо размера на извадката н:

w = n n /n.

Пример.В партида стоки, съдържаща 1000 единици, с 5% проба примерен дял k nпо абсолютна стойност е 50 единици. (n = N*0.05); ако в тази проба се открият 2 дефектни продукта, тогава процент дефекти на пробата wще бъде 0,04 (w = 2/50 = 0,04 или 4%).

Тъй като извадката от съвкупността е различна от общата съвкупност, има грешки при вземане на проби.

Таблица 1. Основни параметри на генералната и извадкова съвкупности

Грешки при вземане на проби

Във всеки случай (постоянен и избирателен) могат да възникнат грешки от два вида: регистрация и представителност. Грешки Регистрациямога да имам случаенИ систематиченхарактер. Случаенгрешките се състоят от много различни неконтролируеми причини, непреднамерени са и обикновено се балансират взаимно (например промени в производителността на устройството поради температурни колебания в помещението).

Систематиченгрешките са предубедени, защото нарушават правилата за избор на обекти за извадката (например отклонения в измерванията при промяна на настройките на измервателното устройство).

Пример.За оценка на социалното положение на населението в града се предвижда да бъдат анкетирани 25% от семействата. Ако изборът на всеки четвърти апартамент се основава на неговия брой, тогава има опасност да изберете всички апартаменти само от един тип (например едностайни апартаменти), което ще доведе до систематична грешка и ще изкриви резултатите; изборът на номер на апартамент по партида е по-предпочитан, тъй като грешката ще бъде случайна.

Грешки в представителносттаса присъщи само на извадковото наблюдение, те не могат да бъдат избегнати и възникват в резултат на това, че извадковата съвкупност не възпроизвежда напълно генералната съвкупност. Стойностите на показателите, получени от извадката, се различават от показателите със същите стойности в общата съвкупност (или получени чрез непрекъснато наблюдение).

Пристрастност при вземане на пробие разликата между стойността на параметъра в популацията и нейната извадкова стойност. За средната стойност на количествена характеристика тя е равна на: , а за дела (алтернативна характеристика) - .

Грешките при извадката са присъщи само на извадковите наблюдения. Колкото по-големи са тези грешки, толкова повече емпиричното разпределение се различава от теоретичното. Параметрите на емпиричното разпределение са случайни променливи, следователно грешките на извадката също са случайни променливи, те могат да приемат различни стойности за различни проби и затова е обичайно да се изчислява средна грешка.

Средна извадкова грешкае величина, изразяваща стандартното отклонение на средната стойност на извадката от математическото очакване. Тази стойност, подчинена на принципа на случаен подбор, зависи основно от размера на извадката и от степента на вариация на характеристиката: колкото по-голяма е и колкото по-малка е вариацията на характеристиката (и следователно стойността), толкова по-малка е средната грешка на извадката . Връзката между дисперсиите на генералната и извадковата съвкупности се изразява с формулата:

тези. когато е достатъчно голям, можем да приемем, че . Средната извадкова грешка показва възможните отклонения на параметъра на извадката от съвкупността от параметъра на генералната съвкупност. В табл 2 показва изрази за изчисляване на средната извадкова грешка за различни методи за организиране на наблюдение.

Таблица 2. Средна грешка (m) на средната стойност на пробата и съотношението за различни типове проби

Къде е средната стойност на вариациите на извадката в рамките на групата за непрекъснат атрибут;

Средна стойност на вътрешногруповите дисперсии на пропорцията;

— брой избрани серии, — общ брой серии;

където е средната стойност на th-та серия;

— общата средна стойност за цялата извадкова популация за непрекъсната характеристика;

където е делът на характеристиката в тата серия;

— общия дял на характеристиката в цялата съвкупност от извадки.

Големината на средната грешка обаче може да се прецени само с определена вероятност P (P ≤ 1). Ляпунов А.М. доказа, че разпределението на извадковите средни стойности и следователно техните отклонения от общата средна стойност за достатъчно голям брой приблизително се подчинява на нормалния закон за разпределение, при условие че генералната съвкупност има крайна средна и ограничена дисперсия.

Математически това твърдение за средната стойност се изразява като:

а за дяла изразът (1) ще приеме формата:

Където - Има пределна извадкова грешка, което е кратно на средната извадкова грешка , а коефициентът на множественост е тестът на Стюдънт ("коефициент на увереност"), предложен от W.S. Госет (псевдоним "Студент"); стойностите за различни размери на извадката се съхраняват в специална таблица.

Стойностите на функцията Ф(t) за някои стойности на t са равни на:

Следователно израз (3) може да се чете по следния начин: с вероятност P = 0,683 (68,3%)може да се твърди, че разликата между извадката и общата средна стойност няма да надвишава една стойност на средната грешка m(t=1), с вероятност P = 0,954 (95,4%)- че няма да надвишава стойността на две средни грешки m (t = 2),с вероятност P = 0,997 (99,7%)- няма да надвишава три стойности m (t = 3) .По този начин вероятността тази разлика да надхвърли три пъти средната грешка се определя от ниво на грешкаи не възлиза на повече 0,3% .

В табл 3 са показани формули за изчисляване на максималната извадкова грешка.

Таблица 3. Гранична грешка (D) на извадката за средната стойност и съотношението (p) за различни видове наблюдение на извадката

Обобщаване на резултатите от извадката към популацията

Крайната цел на извадковото наблюдение е да се характеризира генералната съвкупност. При малки размери на извадката емпиричните оценки на параметрите ( и ) могат да се отклоняват значително от техните истински стойности ( и ). Следователно е необходимо да се установят граници, в които се намират истинските стойности ( и ) за примерните стойности на параметрите ( и ).

Доверителен интервална всеки параметър θ от генералната съвкупност е произволният диапазон от стойности на този параметър, който с вероятност близка до 1 ( надеждност) съдържа истинската стойност на този параметър.

Пределна грешкапроби Δ ви позволява да определите граничните стойности на характеристиките на общата популация и техните доверителни интервали, които са равни:

Долен ред доверителен интервалполучено чрез изваждане максимална грешкаот средната извадка (дял), а горната като я добавим.

Доверителен интервалза средната използва максималната грешка на извадката и за дадено ниво на достоверност се определя по формулата:

Това означава, че с дадена вероятност Р, което се нарича ниво на достоверност и се определя еднозначно от стойността T, може да се твърди, че истинската стойност на средната стойност е в диапазона от , а истинската стойност на дела е в диапазона от

При изчисляване на доверителния интервал за три стандартни нива на доверителност P = 95%, P = 99% и P = 99,9%стойността се избира от . Приложения в зависимост от броя на степените на свобода. Ако размерът на извадката е достатъчно голям, тогава стойностите, съответстващи на тези вероятности Tса равни: 1,96, 2,58 И 3,29 . По този начин пределната грешка на извадката ни позволява да определим граничните стойности на характеристиките на популацията и техните доверителни интервали:

Разпределението на резултатите от извадковото наблюдение на общата съвкупност в социално-икономическите изследвания има свои собствени характеристики, тъй като изисква пълно представяне на всичките му видове и групи. Основата за възможността за такова разпределение е изчислението относителна грешка:

Където Δ % - относителна максимална извадкова грешка; , .

Има два основни метода за разширяване на извадковото наблюдение към популация: пряко преизчисляване и коефициентен метод.

Същност директно преобразуванесе състои от умножаване на средната стойност на извадката!!\overline(x) по размера на популацията.

Пример. Нека средният брой малки деца в града се изчисли по извадковия метод и възлиза на един човек. Ако в града има 1000 млади семейства, тогава необходимите места в общинските детски ясли се получават, като тази средна стойност се умножи по размера на генералната съвкупност N = 1000, т.е. ще разполага с 1200 места.

Метод на коефициентитеПрепоръчително е да се използва в случай, когато се извършва селективно наблюдение, за да се изяснят данните от непрекъснатото наблюдение.

В този случай използвайте формулата:

където всички променливи са размерът на популацията:

Необходим размер на извадката

Таблица 4. Необходим размер на извадката (n) за различни видове организация на извадковото наблюдение

При планиране на извадково наблюдение с предварително определена стойност на допустимата извадкова грешка е необходимо правилно да се оцени изискваната размер на извадката. Този обем може да се определи на базата на допустимата грешка по време на наблюдение на извадката въз основа на дадена вероятност, която гарантира допустимата стойност на нивото на грешка (като се вземе предвид методът на организиране на наблюдението). Формулите за определяне на необходимия размер на извадката n могат лесно да бъдат получени директно от формулите за максимална грешка на извадката. И така, от израза за пределната грешка:

размерът на извадката се определя директно н:

Тази формула показва, че с максималната грешка на извадката намалява Δ необходимият размер на извадката нараства значително, което е пропорционално на дисперсията и квадрата на t теста на Стюдънт.

За конкретен метод за организиране на наблюдение необходимият размер на извадката се изчислява по формулите, дадени в табл. 9.4.

Примери за практически изчисления

Пример 1. Изчисляване на средна стойност и доверителен интервал за непрекъсната количествена характеристика.

За оценка на скоростта на разплащане с кредиторите в банката е извършена произволна извадка от 10 платежни документа. Техните стойности се оказаха равни (в дни): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятност Р = 0,954определяне на пределната грешка Δ примерна средна стойност и доверителни граници на средното време за изчисление.

Решение.Средната стойност се изчислява по формулата от табл. 9.1 за извадката

Дисперсията се изчислява по формулата от табл. 9.1.

Средна квадратна грешка за деня.

Средната грешка се изчислява по формулата:

тези. средното е x ± m = 12,0 ± 2,3 дни.

Надеждността на средната стойност беше

Изчисляваме максималната грешка по формулата от табл. 9.3 за повторно вземане на проби, тъй като размерът на популацията е неизвестен, и за Р = 0,954ниво на увереност.

Така средната стойност е `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. истинската му стойност е в диапазона от 7,4 до 16,6 дни.

Използване на t-таблица на Стюдънт. Приложението ни позволява да заключим, че за n = 10 - 1 = 9 степени на свобода, получената стойност е надеждна с ниво на значимост от £ 0,001, т.е. получената средна стойност е значително различна от 0.

Пример 2. Оценка на вероятността (генерален дял) Стр.

Механичен извадков метод за изследване на социалния статус на 1000 семейства разкрива, че делът на семействата с ниски доходи е w = 0,3 (30%)(пробата беше 2% , т.е. n/N = 0,02). Изисква се с ниво на увереност р = 0,997определяне на индикатора Рсемейства с ниски доходи в целия регион.

Решение.Въз основа на представените стойности на функцията Ф(t)намерете за дадено ниво на доверие Р = 0,997значение t = 3(виж формула 3). Пределна грешка на дроб wопределете по формулата от таблицата. 9.3 за неповтарящо се вземане на проби (механичното вземане на проби винаги е неповтарящо се):

Максимална относителна грешка на извадката в % ще бъде:

Вероятността (общият дял) на семействата с ниски доходи в региона ще бъде р=w±Δw, а доверителните граници p се изчисляват въз основа на двойното неравенство:

w — Δ w ≤ p ≤ w — Δ w, т.е. истинската стойност на p е в рамките на:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Така с вероятност от 0,997 може да се твърди, че делът на семействата с ниски доходи сред всички семейства в региона варира от 28,6% до 31,4%.

Пример 3.Изчисляване на средната стойност и доверителния интервал за дискретна характеристика, определена от интервална серия.

В табл 5. уточнено е разпределението на заявките за производство на поръчки според сроковете на изпълнението им от предприятието.

Таблица 5. Разпределение на наблюденията по време на поява

Решение. Средното време за изпълнение на поръчките се изчислява по формулата:

Средният период ще бъде:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 месеца.

Получаваме същия отговор, ако използваме данните за p i от предпоследната колона на таблицата. 9.5, използвайки формулата:

Имайте предвид, че средата на интервала за последната градация се намира чрез изкуственото й допълване с ширината на интервала на предишната градация, равна на 60 - 36 = 24 месеца.

Дисперсията се изчислява по формулата

Където x i- средата на интервалната серия.

Следователно!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), а средната квадратична грешка е .

Средната грешка се изчислява по месечната формула, т.е. средната стойност е!!\overline(x) ± m = 23,1 ± 13,4.

Изчисляваме максималната грешка по формулата от табл. 9.3 за повторна селекция, тъй като размерът на популацията е неизвестен, за ниво на достоверност 0,954:

Така че средната стойност е:

тези. истинската му стойност е в диапазона от 0 до 50 месеца.

Пример 4.За да се определи скоростта на разплащане с кредиторите на N = 500 корпоративни предприятия в търговска банка, е необходимо да се проведе извадково изследване, като се използва метод на случаен неповтарящ се подбор. Определете необходимия размер на извадката n, така че с вероятност P = 0,954 грешката на средната стойност на извадката да не надвишава 3 дни, ако оценките на опита показват, че стандартното отклонение s е 10 дни.

Решение. За да определим броя на необходимите изследвания n, ще използваме формулата за неповтарящ се подбор от таблицата. 9.4:

В него стойността t се определя от ниво на достоверност P = 0,954. Тя е равна на 2. Средната квадратична стойност е s = 10, размерът на популацията е N = 500, а максималната грешка на средната стойност е Δ x = 3. Замествайки тези стойности във формулата, получаваме:

тези. Достатъчно е да съставите извадка от 41 предприятия, за да оцените необходимия параметър - скоростта на разплащане с кредиторите.

Целият набор от индивиди от определена категория се нарича генерална съвкупност. Размерът на популацията се определя от целите на изследването.

Ако се изследва вид диво животно или растение, тогава общата популация ще включва всички индивиди от този вид. В този случай обемът на генералната съвкупност ще бъде много голям и при изчисленията се приема като безкрайно голяма стойност.

Ако се изследва ефектът на даден агент върху растения и животни от определена категория, тогава общата популация ще бъде всички растения и животни от тази категория (вид, пол, възраст, икономическа цел), към която принадлежат експерименталните обекти. Това вече не е много голям брой лица, но все още е недостъпен за цялостно изследване.

Обемът на общата съвкупност не винаги е достъпен за цялостно изследване. Понякога се изследват малки популации, например се определя средният добив на мляко или средното подстригване на вълна от група животни, назначени за определен работник. В такива случаи популацията ще бъде много малък брой индивиди, всички от които се изследват. Малка популация се открива и при изучаване на растения или животни, намерени в колекция, за да се характеризира определена група в тази колекция.

Характеристиките на груповите свойства (и т.н.), свързани с цялата популация, се наричат общи параметри.

Пробата е група от обекти, които се различават по три характеристики:

1 е част от генералната съвкупност;

2 произволно избрани по определен начин;

3 изследвани за характеризиране на цялата популация.

За да се получи доста точна характеристика на цялата популация от извадка, е необходимо да се организира правилният подбор на обекти от популацията.

Теорията и практиката са разработили няколко системи за подбор на индивиди за вземане на проби. Всички тези системи се основават на желанието да се осигури максимална възможност за избор на всеки обект от общата популация. Тенденцията и пристрастието при подбора на обекти за извадково изследване пречат да се получат правилни общи заключения и правят резултатите от извадковото изследване неиндикативни за цялата популация, т.е. непредставителни.

За да се получи правилна, неизкривена характеристика на цялата популация, е необходимо да се стремим да осигурим възможност за избиране на всеки обект от всяка част от популацията в извадката. Това основно изискване трябва да бъде изпълнено толкова по-стриктно, колкото по-променлива е чертата, която се изследва. Разбираемо е, че когато разнообразието се доближи до нула, като например в случая на изследвания на цвета на косата или перата при някои видове, всеки метод за подбор на проби ще даде представителни резултати.

В различни изследвания се използват следните методи за избор на обекти в извадката.

4 Случаен повторен подбор, при който обектите на изследване се избират от общата съвкупност, без първо да се вземе предвид развитието на изследваната характеристика, т.е. в произволен (за дадена характеристика) ред; След избора всеки обект се проучва и след това се връща в неговата популация, така че всеки обект да може да бъде избран повторно. Този метод на подбор е еквивалентен на подбор от безкрайно голяма генерална популация, за която са разработени основните показатели за връзката между извадката и общите стойности.

5 Случайна неповтаряща се селекция, при която обекти, избрани, както в предишния метод, случайно, не се връщат в генералната съвкупност и не могат да бъдат въведени отново в извадката. Това е най-често срещаният начин за организиране на извадка; това е еквивалентно на селекция от голяма, но ограничена популация, която се взема предвид при определяне на общи показатели от извадки.

6 Механична селекция, при която обектите се избират от отделни части на генералната популация и тези части се обозначават предварително механично според квадратите на експерименталното поле, според произволни групи животни, взети от различни области на популацията и т.н. Обикновено като много такива части са очертани, както се очаква да бъдат взети обекти за изследване, така че броят на частите е равен на размера на извадката. Механичната селекция понякога се извършва, като се избере да се изследват индивиди след определен брой, например чрез преминаване на животните през разцепване и избиране на всяка десета, стотна и т.н., или чрез косене на всеки 100 или 200 m, или чрез избиране на едно обект на всеки 10 срещнати 100 и т.н. екземпляри при изследване на цялата популация.

8 Сериен (клъстерен) подбор, при който генералната съвкупност се разделя на части - серии, някои от тях се изучават изцяло. Този метод се използва успешно в случаите, когато изследваните обекти са сравнително равномерно разпределени в определен обем или върху определена територия. Например, когато се изследва замърсяването на въздуха или водата с микроорганизми, се вземат проби и се подлагат на пълно изследване. В някои случаи селскостопанските обекти могат да бъдат изследвани и по метода на гнездене. При изследване на добива на месо и други преработени продукти от месодайна порода животни пробата може да включва всички животни от тази порода, пристигнали в два или три месопреработвателни предприятия. Когато се изучава размерът на яйцата в колективното птицевъдство, е възможно да се изследва тази характеристика в няколко колективни ферми в цялата популация от пилета.

Характеристики на груповите свойства (μ, си др.), получени за извадката, се наричат извадкови показатели.

Представителност

Директното изследване на група избрани обекти осигурява на първо място първичен материал и характеристики на самата извадка.

Всички примерни данни и обобщени показатели са важни като първични факти, разкрити от изследването и подлежат на внимателно разглеждане, анализ и сравнение с резултатите от други разработки. Но това не ограничава процеса на извличане на информация, присъща на първичните изследователски материали.

Фактът, че обектите са избрани за извадката по специални техники и в достатъчно количество, прави резултатите от изследването на извадката показателни не само за самата извадка, но и за цялата популация, от която е взета тази проба.

Една извадка, при определени условия, става повече или по-малко точно отражение на цялата популация. Това свойство на извадката се нарича представителност, което означава представителност с определена точност и надеждност.

Като всяко свойство, представителността на извадковите данни може да бъде изразена в достатъчна или недостатъчна степен. В първия случай в извадката се получават надеждни оценки на общите параметри, във втория - ненадеждни. Важно е да запомните, че получаването на ненадеждни оценки не намалява стойността на показателите за извадката за характеризиране на самата извадка. Получаването на надеждни оценки разширява обхвата на приложение на постиженията, получени в извадково изследване.

http://www.hi-edu.ru/e-books/xbook096/01/index.html?part-011.htm– много полезен сайт!

Извадковият метод на изследване е основният статистически метод. Това е естествено, тъй като обемът на обектите, които се изучават, обикновено е безкраен (и дори да е краен, е много трудно да се сортират всички обекти; човек трябва да се задоволи само с част от тях, селекция).

Генерални и извадкови съвкупности

Генералната съвкупност е съвкупността от всички елементи, изследвани в даден експеримент.

Извадкова популация (или извадка) е крайна колекция от обекти, произволно избрани от популация.

Обемът на съвкупността (извадкова или генерална) е броят на обектите в тази популация.

Пример за генерални и извадкови съвкупности

Да кажем, че изучаваме психологическата предразположеност на дадено лице към разделянето на даден сегмент по отношение на златното сечение. Тъй като произходът на самата концепция за златното сечение е продиктуван от антропометрията на човешкото тяло, ясно е, че в този случай общата популация е всяко антропогенно същество, което е достигнало физическа зрялост и е придобило окончателни пропорции, т.е. възрастна част от човечеството. Обемът на тази колекция е практически безкраен.

Ако тази предразположеност се изследва изключително в артистичната среда, тогава общата популация са хора, които са пряко свързани с дизайна: художници, архитекти, дизайнери. Има и много такива хора и можем да предположим, че обемът на генералната съвкупност в този случай също е безкраен.

И в двата случая за изследване сме принудени да се ограничим до разумни размери на извадката, избирайки като представители на едната или другата популация студенти по технически специалности (като хора, далеч от света на изкуството) или студенти по дизайн (като хора, пряко свързани с световни художествени образи).

Представителност

Основният проблем на метода на извадката е въпросът колко точно обектите, избрани от генералната съвкупност за изследване, представят изследваните характеристики на генералната съвкупност, т.е. въпросът за представителността на извадката.

И така, една извадка се нарича представителна, ако достатъчно точно представя количествените отношения на генералната съвкупност.

Разбира се, трудно е да се каже какво точно се крие зад неясната формулировка доста точно. Въпросите за представителността обикновено са най-противоречивите във всяко експериментално изследване. Има много примери, които вече са станали класически, когато недостатъчната представителност на извадката доведе експериментаторите до абсурдни резултати.

По правило въпросите за представителността се решават чрез експертна оценка, когато научната общност приема гледната точка на група авторитетни експерти относно правилността на изследването.

Пример за представителност

Да се върнем към примера за разделяне на сегмент. Въпросите за представителността на образците лежат в самата основа на изследването тук: при никакви обстоятелства не трябва да смесваме групи от субекти въз основа на тяхната принадлежност към артистичната среда.

Статистическо разпределение на наблюдаваната характеристика

Честота на наблюдаваната стойност

Нека в резултат на тестване в извадков обем наблюдаваният атрибут приема стойностите,, ... и стойността е наблюдавана веднъж, стойността е наблюдавана веднъж и т.н., стойността е наблюдавана веднъж. Тогава честотата на наблюдаваната стойност се нарича число, стойностите са числа и т.н.

Относителна честота на наблюдаваната стойност

Относителната честота на наблюдавана стойност е съотношението на честотата към размера на извадката:

Ясно е, че сумата от честотите на наблюдаваната характеристика трябва да даде размера на извадката

и сумата от относителните честоти трябва да дава единица:

Тези съображения могат да се използват за контрол при съставянето на статистически таблици. Ако равенствата не са изпълнени, тогава е допусната грешка при записване на резултатите от експеримента.

Статистическо разпределение на наблюдаваната стойност

Статистическото разпределение на наблюдавана характеристика е съответствието между наблюдаваните стойности на характеристиката и съответните честоти (или относителни честоти).

По правило статистическото разпределение се записва под формата на двуредова таблица, в която наблюдаваните стойности на характеристиката са посочени в първия ред, а съответните честоти (или относителни честоти) са посочени във втория линия:

Ако наблюдавана характеристика се характеризира с непрекъсната случайна променлива, приемаща стойности от интервал, тогава нейното статистическо разпределение се описва от честотите на попадане в частични интервали:

И така, моделите, на които се подчинява изследваната случайна променлива, са физически напълно определени от реалния набор от условия за нейното наблюдение (или експеримент) и са математически определени от съответното вероятностно пространство или, което е същото, от съответното закон за разпределение на вероятностите. Въпреки това, когато се провеждат статистически изследвания, друга терминология, свързана с понятието генерална съвкупност, се оказва малко по-удобна.

Генералната съвкупност е съвкупността от всички възможни наблюдения (или всички умствено възможни обекти от вида, който ни интересува, от който са „взети“ наблюденията), които могат да бъдат направени при даден реален набор от условия. Тъй като дефиницията се занимава с всички умствено възможни наблюдения (или обекти), понятието генерална съвкупност е условно математическо, абстрактно понятие и не трябва да се бърка с реални популации, обект на статистическо изследване. По този начин, след като разгледахме дори всички предприятия от подотрасъла от гледна точка на записване на стойностите на характеризиращите ги технически и икономически показатели, можем да разглеждаме изследваната съвкупност само като представител на хипотетично възможна по-широка съвкупност от предприятия които биха могли да работят в рамките на същия реален набор от условия

В практическата работа е по-удобно изборът да се свързва с обектите на наблюдение, отколкото с характеристиките на тези обекти. Избираме машини, геоложки проби, хора за изследване, но не и стойностите на характеристиките на машини, проби, хора. От друга страна, в математическата теория обектите и наборът от техните характеристики не се различават и двойствеността на въведената дефиниция изчезва.

Както виждаме, математическото понятие за „обща съвкупност“ е физически напълно определено, както и понятията „вероятностно пространство“, „случайна променлива“ и „закон за разпределение на вероятностите“, от съответния реален набор от условия и следователно всички тези четири математически понятия могат да се разглеждат в определено значение като синоними. Популацията се нарича крайна или безкрайна в зависимост от това дали колекцията от всички възможни наблюдения е крайна или безкрайна.

От определението следва, че непрекъснатите популации (състоящи се от наблюдения на признаци с непрекъснат характер) винаги са безкрайни. Дискретните генерални съвкупности могат да бъдат безкрайни или крайни. Например, ако партида от N продукта се анализира за клас (вижте примера в клауза 4.1.3), когато всеки продукт може да бъде причислен към един от четирите класа, случайната променлива, която се изследва, е номерът на класа на продукт, произволно извлечен от партидата и наборът от възможни стойности случайна променлива се състои съответно от четири точки (1, 2, 3 и 4), тогава, очевидно, популацията ще бъде крайна (само N възможни наблюдения).

Концепцията за безкрайна популация е математическа абстракция, както и идеята, че измерването на случайна променлива може да се повтори безкраен брой пъти. Приблизително безкрайна обща съвкупност може да се тълкува като граничен случай на крайна, когато броят на обектите, генерирани от даден реален набор от условия, нараства неограничено. Така че, ако в току-що дадения пример, вместо партиди от продукти, разгледаме непрекъснато масово производство на едни и същи продукти, тогава ще стигнем до концепцията за безкрайна обща съвкупност. На практика подобна модификация е еквивалентна на изискването

Извадка от дадена популация е резултат от ограничена поредица от наблюдения на случайна променлива. Извадката може да се разглежда като вид емпиричен аналог на генерална съвкупност, нещо, с което най-често се сблъскваме на практика, тъй като изследването на цялата генерална съвкупност може да бъде или твърде трудоемко (в случай на големи N), или фундаментално невъзможно (в случай на безкрайни генерални съвкупности).

Броят на наблюденията, които образуват извадка, се нарича размер на извадката.

Ако размерът на извадката е голям и имаме работа с едномерна непрекъсната стойност (или с едномерна дискретна стойност, чийто брой възможни стойности е доста голям, да кажем повече от 10), тогава често е по-удобно, от гледна точка на опростяване на по-нататъшната статистическа обработка на резултатите от наблюденията, да се премине към така наречените "групирани" извадкови данни. Този преход обикновено се извършва по следния начин:

а) отбелязват се най-малките и най-големите стойности в пробата;

б) целият обследван диапазон се разделя на определен брой от 5 равни групови интервала; в този случай броят на интервалите s не трябва да бъде по-малък от 8-10 и повече от 20-25: изборът на броя на интервалите значително зависи от размера на извадката; за приблизителна ориентация в избора 5 можете да използвате приблизителната формула

което трябва да се приема по-скоро като по-ниска оценка за s (особено за големи

в) крайните точки на всеки от интервалите са отбелязани във възходящ ред, както и техните среди

г) брои се броят на примерните данни, попадащи във всеки от интервалите: (очевидно); извадковите данни, които попадат в границите на интервалите, са или равномерно разпределени в два съседни интервала, или са договорени да бъдат приписани само на един от тях, например на левия.

В зависимост от конкретното съдържание на проблема, могат да бъдат направени някои модификации на тази схема за групиране (например, в някои случаи е препоръчително да се изостави изискването за еднаква дължина на интервалите за групиране).

Във всички следващи аргументи, използващи примерни данни, ще изхождаме от току-що описаната нотация.

Нека припомним, че същността на статистическите методи е да се използва определена част от генералната съвкупност (т.е. извадка), за да се правят преценки за нейните свойства като цяло.

Един от най-важните въпроси, чието успешно решаване определя достоверността на изводите, получени в резултат на статистическа обработка на данни, е въпросът за представителността на извадката, т.е. въпросът за пълнотата и адекватността на неговото представяне на интересуващите ни свойства на анализираната генерална съвкупност. В практическата работа една и съща група обекти, взети за изследване, могат да се разглеждат като извадка от различни генерални съвкупности. По този начин група семейства, произволно избрани от кооперативните къщи на една от жилищно-експлуатационните служби (ЖЕК) на един от градските райони за подробно социологическо проучване, може да се разглежда едновременно като извадка от общата съвкупност от семейства (с кооперация форма на жилище) на този ZhEK, и като извадка от общите семейства на дадена област и като извадка от генералната съвкупност на всички семейства в града и накрая като извадка от общата съвкупност на всички семейства в града, живеещи в кооперативни жилища. Смисленото тълкуване на резултатите от тестването значително зависи от това за коя генерална популация разглеждаме избраната група семейства като представителна, за коя генерална популация тази извадка може да се счита за представителна. Отговорът на този въпрос зависи от много фактори. В горния пример по-специално зависи от наличието или отсъствието на специален (може би скрит) фактор, който определя принадлежността на семейството към даден жилищен офис или квартал като цяло (такъв фактор може да бъде например среден доход на глава от населението на семейството, географското местоположение на района в града, „възрастта“ на района и др.).

Население- съвкупността от всички обекти (единици), по отношение на които ученият възнамерява да направи изводи, когато изучава конкретен проблем. Съвкупността се състои от всички обекти, които подлежат на изследване. Съставът на популацията зависи от целите на изследването. Понякога генералната съвкупност е цялото население на определен регион (например, когато се изследва отношението на потенциалните избиратели към кандидат), най-често се посочват няколко критерия, които определят обекта на изследването. Например жени на възраст 18-29 години, които използват определени марки кремове за ръце поне веднъж седмично и имат доход от поне $150 на член на семейството.

проба- набор от случаи (субекти, обекти, събития, проби), използвайки определена процедура, избрани от общата съвкупност за участие в изследването.

Размер на извадката;
Зависими и независими проби;
Представителност:
1. Пример за непредставителна извадка;
Видове планове за изграждане на групи от образци;
Стратегии за изграждане на група:
1. рандомизация;
2. Избор по двойки;
3. Стратометрична селекция;
4. Приблизително моделиране.

Размер на извадката- броят на случаите, включени в извадката. Поради статистически причини се препоръчва броят на случаите да бъде поне 30-35.

Зависими и независими проби

При сравняване на две (или повече) проби важен параметър е тяхната зависимост. Ако е възможно да се установи хомоморфна двойка (т.е. когато един случай от проба X съответства на един и само един случай от проба Y и обратно) за всеки случай в две проби (и тази основа за връзката е важна за характеристика, измерена в пробите), такива проби се наричат зависими. Примери за зависими извадки: двойки близнаци, две измервания на черта преди и след експериментално влияние, съпрузи и съпруги и др.

Ако няма такава връзка между пробите, тогава тези проби се считат за независими, например: мъже и жени, психолози и математици.

Съответно зависимите проби винаги имат еднакъв размер, докато размерът на независимите проби може да се различава.

Сравнението на пробите се извършва с помощта на различни статистически критерии:

t-тест на Стюдънт;
Wilcoxon Т-тест;
U тест на Mann-Whitney;
Знаков критерий и др.

Представителност

Извадката може да се счита за представителна или непредставителна.

Пример за непредставителна извадка

В Съединените щати един от най-известните исторически примери за непредставителна извадка се счита за случая, който се случи по време на президентските избори през 1936 г. Списанието Literary Digest, което успешно предсказа събитията от няколко предишни избори, сгреши в своите прогнози, като изпрати десет милиона тестови бюлетини на абонатите си, хора, избрани от телефонните указатели в цялата страна и от хора в списъците за регистрация на автомобили. В 25% от върнатите бюлетини (почти 2,5 милиона) гласовете са разпределени както следва:

57% предпочитат републиканския кандидат Алф Ландън

40% са избрали тогавашния президент демократ Франклин Рузвелт

На действителните избори, както е известно, Рузвелт спечели, като спечели повече от 60% от гласовете. Грешката на Literary Digest беше следната: в желанието си да увеличат представителността на извадката - тъй като знаеха, че повечето от техните абонати се смятат за републиканци - те разшириха извадката, за да включат хора, избрани от телефонни указатели и регистрационни списъци. Те обаче не взеха предвид реалностите на своето време и всъщност наеха още повече републиканци: по време на Голямата депресия предимно представители на средната и висшата класа можеха да си позволят да притежават телефони и автомобили (т.е. повечето републиканци , а не демократи).

Видове планове за изграждане на групи от образци

Има няколко основни типа планове за групови сгради:

Изследване с експериментални и контролни групи, които са поставени в различни условия;
Проучване с експериментални и контролни групи, използващи стратегия за подбор по двойки;
Изследване, използващо само една група – експериментална;
Изследване, използващо смесен (факториален) дизайн - всички групи са поставени в различни условия.

Стратегии за изграждане на група

Подборът на групи за участие в психологически експеримент се извършва с помощта на различни стратегии, които са необходими, за да се осигури възможно най-голямо уважение към вътрешната и външната валидност:

Рандомизиране (случаен избор);
Избор по двойки;
Стратометрична селекция;
Приблизително моделиране;
Привличане на реални групи.

Рандомизиране

Рандомизирането или произволното вземане на проби се използва за създаване на прости случайни проби. Използването на такава извадка се основава на предположението, че всеки член на популацията е еднакво вероятно да бъде включен в извадката. Например, за да направите произволна извадка от 100 студенти, можете да поставите парчета хартия с имената на всички студенти в шапка и след това да вземете 100 парчета хартия от нея - това ще бъде случаен избор

Избор по двойки

Подборът по двойки е стратегия за конструиране на групи за вземане на проби, в които групи от субекти са съставени от субекти, които са еквивалентни по отношение на вторични параметри, които са значими за експеримента. Тази стратегия е ефективна за експерименти, използващи експериментални и контролни групи, като най-добрият вариант е включването на двойки близнаци (моно- и дизиготни), тъй като ви позволява да създавате.

Стратометрично вземане на проби

Стратометрична селекция - рандомизация с разпределяне на страти (или клъстери). С този метод на извадка генералната съвкупност се разделя на групи (страти) с определени характеристики (пол, възраст, политически предпочитания, образование, ниво на доходи и т.н.) и се избират субекти със съответните характеристики.

Приблизително моделиране

Приблизително моделиране - изготвяне на ограничени извадки и обобщаване на заключения за тази извадка за по-широка популация. Например, с участието на студенти от 2-ра година в проучването, данните от това проучване се отнасят за „хора на възраст от 17 до 21 години“. Допустимостта на подобни обобщения е изключително ограничена.