51
ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS (Записки, Data Management) Александър Стоянов

ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

  

  

  

ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS (Записки, Data Management)

Александър Стоянов  

Page 2: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

 

 

Съдържание  

ВЪВЕДЕНИЕ.......................................................................................................................................1

ОСНОВНИ ТЕРМИНИ И КОНЦЕПЦИИ В РАБОТАТА СЪС SPSS................................4

1: Въпросник, въпрос и променлива ..............................................................................4

2: Променлива (variable) и случай (case)......................................................................5

3: Основни менюта, прозорци и функции ...................................................................6

ВЪВЕЖДАНЕ И ФОРМАТИРАНЕ НА ДАННИ.................................................................11

1: Въвеждане на данни........................................................................................................11

2: Дефиниране на променливите (DEFINE VARIABLE PROPERTIES) .........14

3: Въвеждане на данни в EXCEL......................................................................................17

ЧЕСТОТНИ РАЗПРЕДЕЛЕНИЯ...............................................................................................18

Едномерни разпределения...............................................................................................18

Двумерни разпределения (crosstabs) .........................................................................22

ПРЕОБРАЗУВАНЕ НА ДАННИ................................................................................................26

1: RECODE ....................................................................................................................................26

2: COMPUTE ................................................................................................................................30

3: COUNT.......................................................................................................................................32

4:  IF.................................................................................................................................................35

5: WEIGHT....................................................................................................................................38

6: SELECT CASES .......................................................................................................................42

ПРИЛОЖЕНИЕ 1: ОСНОВНИ МЕНЮТА (SPSS 13.0)....................................................46

Меню FILE ...................................................................................................................................46

Меню EDIT ..................................................................................................................................48

Меню UTILITIES .......................................................................................................................49  

Page 3: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

ВЪВЕДЕНИЕ 

 Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

ва за пръв път през 60‐те години във версия за мейнфрейм компютри и е резул‐тат от работата на значим брой статистици и програмисти от най‐реномираните изследователски и университетски центрове в света. С навлизането на персо‐налните компютри (РС) SPSS се появи във версии за РС – първоначално работе‐щи под управлението на DOS, а по‐късно и във версии за Windows. Продуктът се предлага на пазара на модули, сред които задължителен модул (без който сис‐темата не може да работи) е т.нар. Base System.  

Настоящото изложение и примери се основават на текущо продаваната версия на продукта ‐  SPSS 13.0 (към средата на 2006 г.). Компанията непрекъс‐нато усъвършенства продукта и предлага нови версии приблизително веднъж годишно. Повече информация относно предлаганите новости и основни поня‐тия в работата със SPSS могат да се намерят на страницата на компанията про‐изводител: www.spss.com.  

Други продукти, които предлагат сходни със SPSS възможности са SAS, BMDP, SYSTAT, STATGRAPHICS, STATISTIKA и др. Продукти, с които по принцип могат да се извършват операции подобни на вградените в SPSS технологии са Excel и Access, но при тях това става по един доста по‐сложен начин тъй като не са специално пригодени за тази цел. 

От гледна точка на своята структура и начин на организация SPSS е про‐дукт, който е предназначен преди всичко за обработка и анализ на информация от социални и маркетингови проучвания. Това се отнася както за начина, по който в SPSS се структурира масивът от информация, така и за вградените в продукта технологии за обработка и статистически анализ на данни. Основните особености на продукта, които го правят подходящ за обработване на подобен тип данни са: 

• Възможността сравнително лесно да се получават агрегирани разпре‐деления на стойностите на дадена променлива, като заедно с тях се из‐веждат и повечето статистически показатели, характеризиращи тези разпределения; 

• Възможността масивът от данни да бъде модифициран и преструкту‐риран 

• Възможността масивът от данни да бъде обобщаван в разрез по всяка една от променливите в него; 

• Възможността сравнително лесно да се прилагат сложни методи на статистически анализ на връзки и зависимости (корелационен, регре‐сионен, факторен и пр. анализи). 

SPSS е продукт, който обслужва различен тип потребители. Основното, ко‐ето ги обединява е необходимостта да правят изводи и заключения на основата на анализа на масовидни явления в социалния, икономическия и политическия живот. Закономерностите, свързани с явления от този тип се проявяват, когато се наблюдават достатъчно голям брой случаи. Изводите се правят на основата на съвкупностните характеристики в разрез по един или няколко признака 

Page 4: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

едновременно. По този начин се характеризира изследваната съвкупност като цяло. Става дума за анализ на такъв тип закономерности, които се открояват, когато се наблюдават достатъчно голям брой случай.  

Проблемът за това какъв брой наблюдения е достатъчен, за да правим обосновани изводи и заключения е един от основните проблеми в статистиката. Характеристиките на масовидноста като такава са занимавали и занимават ста‐тистическата теория и практика от нейното възникване. Доколкото, и в степен‐та, в която една голяма част от науките (природни и обществени) изучават яв‐ления от масовиден тип, статистическата теория се явява техен основен позна‐вателен инструмент. Тя дефинира формалните основания на обоснованите из‐води и заключения.  

Другият съществен аспект на обоснованите изводи за масовидните явле‐ния е съдържателният. Съдържателните критерии за обоснованост произтичат от науките, които изучават съответното явление или процес. В това отношение многообразието е огромно (твърде малко са науките, които практически не се занимават с изучаването на масовидни явления). Съотношението между фор‐малните и съдържателните критерии за обоснованост е подобно на отношение‐то между количество и качество. Всяко нарушаване на този баланс води до се‐рия неблагополучия, които могат да се групират в две основни категории: 

1. Поставяне на твърде силен акцент върху формалните/количествените аспекти на анализа, т.е. доминирането на статистическия анализ. Това най‐често прави изводите малко или повече безсъдържателни.  

2. Обратно, доминирането на съдържателната/качествената страна в ана‐лиза води до изводи, които са или статистически необосновани или емпирично непроверяеми. В социологията например този дисбаланс е довел до значими противоречия между емпиричната и теоретичната социология: те говорят на различни езици, формират различни лагери и пр. Проблемът за съотношението между количество и качество, статистика и др. науки, съдържание и форма, тео‐ретично и емпирично в науката е вечен. В този смисъл търсенето и намирането на конкретни решения може по‐скоро да се разглежда като процес, който движи напред познанието във всяка една научна област. 

SPSS е продукт за обработка и анализ на данни, в който са вградени и фор‐малните и съдържателните технологии, позволяващи изучаването на явления от масовиден тип. Това се отнася до начините на формиране на масивите от ин‐формация: 

Формалният аспект се съдържа в количествените характеристики на данните, които изграждат масива от информация за дадено явление. Основни понятия в този аспект са  case (случай) и variable (променлива). Variable отразя‐ва начина на количествено изобразяване на качествено обособените признаци, за които търсим да открием някакви закономерности. Case е това, което пряко кореспондира с понятието за масовидност. Ако приемем, че променливата (variable) е „Пол” и нейните значения са мъж и жена, то проблемът за масовид‐носта в този случай се изразява в това какво е количественото отношение меж‐ду двата пола за дадена популация и какъв брой случаи (case) е достатъчен, за да направим обоснован извод, за това отношение. От формална (статистическа) гледна точка е без значение кое явление, процес или предмет ще обозначим ка‐то case и какви негови характеристики/признаци ще обозначим като variable. Съществено за case е техният брой, а за variable – скалата на измерване, т.е. на‐чина на количественото и представяне. 

Page 5: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

От съдържателна гледна точка това, което се обозначава като case и като variable е от огромно значение. По‐точно те са смисълът и съдържанието на изс‐ледователския процес. И още по‐точно, съдържателната гледна точка е онази, която дефинира кое ще е case и кое ще е variable. От това какви елементи на действителността ще бъдат обозначени с тях зависи както какво ще се изследва, така и това за какво ще се правят изводи и обобщения. 

*** Работата със SPSS предполага интеграция на няколко типа дейности, свър‐

зани с анализа на данни: 1. Въвеждане и модификация на данни. Крайният резултат от тази дей‐

ност е т.нар. чист файл с данни (clean data file). Извършването на свързаните с тази дейност операции предполага данните да се въведат, форматират и прег‐ледат така, че да са подходящи за анализ. В много случаи анализът се предпос‐тавя от формата и чистотата на данните. В този смисъл макар да не довежда до конкретни изводи и обобщения тази дейност е тяхна предпоставка. 

2. Статистически анализ на данни. SPSS съдържа процедури, позволява‐щи да се извършват повечето видове статистически анализ. Целта на статисти‐ческия анализ е да опише формата и съвкупностните характеристики на наблю‐даваните разпределения на променливите, както и да оцени степента на значи‐мост на пресмятаните обобщаващи показатели и коефициенти. В крайна сметка статистическият анализ позволява да се направят обосновани предположения за това дали наблюдаваните количествени характеристики на променливите са закономерни или случайни. 

3. Съдържателен анализ на данни. Независимо от своята изключителна важност, статистическият анализ е (помощно) средство на съдържателния ана‐лиз. Последният има за цел да опише и обясни същностните характеристики на дадено явление или процес изхождайки от определена емпирична информация. Съдържателният анализ е онзи, който определя кои променливи и какви разп‐ределения на променливите имат смисъл; също какъв е конкретният смисъл, който може да се изведе от дадена емпирична информация. Понятието съдър­жателен анализ е термин, който обозначава обстоятелството, че променливите и данните са пряко свързани с определена област на знанието за действител‐ността. Настоящото изложение изхожда преди всичко от изследователската практика в областта на социалните и маркетинговите изследвания. Даваните примери се основават на прилаганите в тези изследвания методи на изследване и теоретични схеми за интерпретация на действителността. Понятието анализ на данни се разбира преди всичко като съдържателен анализ, в който статисти‐ческият аспект има помощно (инструментално) значение. В този смисъл насто‐ящото изложение е фокусирано не толкова върху начина на пресмятане на ста‐тистическите показатели (статистическата методология), а на тяхното значение и смисъл за съдържателните изводи и обобщения. 

 Настоящото изложение се базира на SPSS 13.0. При излагането на основни‐

те методи и техники за работа със SPSS се използват данни от емпирични изс‐ледвания на Витоша рисърч и Центъра за изследване на демокрацията. Общата характеристика на тези изследвания и използваните въпросници са дадени в Приложение 2 и Приложение 3. 

 

Page 6: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

 

ОСНОВНИ ТЕРМИНИ И КОНЦЕПЦИИ В РАБОТАТА СЪС SPSS 

 

1: Въпросник, въпрос и променлива 

Терминът въпросник (questionnaire) е родово понятие, с което се обозна‐чава физическият носител на първичната индивидуална информация, т.е. то‐ва е специфичен формуляр, в който се регистрират данните за всяка единица на наблюдение в дадено емпирично изследване. Каквато и да е единицата на наб‐людение (респондент, фирма, събитие и пр.), за целите на обработката на дан‐ните тя се нарича случай (case).  

Като правило въпросникът е средство (инструмент), което се използува в т.нар. количествени изследвания, основани на извадка от случаи. Въпросни‐кът може да бъде реализиран в различни варианти. В зависимост от начина на събиране и регистриране на информацията най‐широко разпространени са: 

 Pen and Paper (PP) 

Въпросник на хартиен носител. Класическа форма на въпросника, която представлява формуляр, в който се записват данните за наблюдаваните случаи. След това от хартиената форма данните се пренасят (въвеждат) в компютър. 

CATI  Computer Assited Telephone Interviewing. Данните при този тип изследва‐ния се събират чрез телефонно интервю. CATI системата представлява софтуер, който управлява случайният избор и набиране на телефонни номера. Данните от провежданите интервюта се въвеждат директно в CATI системата от интервюерите, като информацията се обработва и ана‐лизира в реално време. 

CAPI  Computer Assisted Personal Interviewing. При този тип изследвания интер‐вюерите разполагат с мобилни компютри (лаптоп). Набираната инфор‐мация се въвежда в базата данни в хода на провеждане на интервюто 

ONLINE  При този тип изследвания въпросниците за събиране на информация мо‐гат да бъдат изпращани на респондентите по електронна поща или да са достъпни за попълване чрез достъп до даден уеб сайт. 

 Терминът променлива (variable) би могъл да се дефинира като въпрос, 

който може да има един единствен отговор (измежду краен брой алтернативи). По‐общо променливата е признак, който приема едно от множество възможни значения/стойности. За да бъде обработена и анализирана информацията за дадено явление или процес е необходимо тази информация да се структурира така, че да съдържа краен брой единични признаци (променливи), всеки един от които приема едно единствено значение.  

Работата със SPSS започва с уточняването на броя на променливите и зна‐ченията, които може да приема всяка една от тях. Необходимо е въпросите във въпросника, на основата, на който се събира информацията да се разпределят по променливи на основата на броя на отговорите, които могат да се дадат на всеки въпрос. Обикновено това се извършва при разработването на въпросника. Това условие предопределя множество изисквания ‐ съдържателни (по отно‐

Page 7: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

шение на начина на конструиране на признаците) и методологически (по отно‐шение на методологията и методиката за набиране на информацията, скалите на измерване, техниката на измерване на признаците и пр.). Ето защо обработ‐ката на данните изисква предварителна теоретична (съдържателна) разработка на изследователския проблем и конструиране на система от признаци, чрез ко‐ито този проблем ще бъде изучаван емпирично, т.е. разработката на модел на изследваното явление. В зависимост от естеството на обекта на изследване и неговите характеристики, нивата на конкретизация, които трябва да се преми‐нат, за да се достигне до елементарните признаци може да варира значително.  

2: Променлива (variable) и случай (case) 

SPSS представя данните в двумерно пространство ‐ редове и колони. Ос‐новните понятия, които се използват за обозначаването има са case (случай) и variable (променлива). Данните за дадено наблюдавано явление или процес се представят като съвкупност от множество наблюдения на множество от харак‐теристики, качества признаци на всяка единица на наблюдение. Основните по‐нятия в това определение са: 

 ДАННИ   

CASE  VARIABLE Наблюдение (observation) Представлява фиксиране на значенията на даден признак (характеристика). 

Признак Качество, свойство, характеристика, от което се интересуваме. Признакът, който се обоз‐начава като променлива следва да е конкре‐тен, т.е да може да приема само едно от ня‐колко възможни значения. 

Единица на наблюдение Носител на признаците, които се интересу‐ваме. Или обратно признаците са начин за характеризиране на самата единица на наб‐людение, от която всъщност се интересува‐ме. 

Измерване на признаците Процес на присвояване на значения на даден признак. Значенията могат да бъдат коли‐чествени или качествени характеристики. 

Множество наблюдения Анализът и обработката на данни се основа‐ва на положението, че всяко "нещо" е в ня‐каква степен уникално. Извършването на по‐вече наблюдения обаче е в състояние да раз‐крие общото в нещата, да очертае черти на "нещата", които са общо присъщи на опреде‐лена съвкупност от явления. 

Съвкупност от характеристики Най‐често дадено явление или процес не мо‐же да се характеризира с един единствен признак. В този смисъл признаците, които са представени като променливи са части от едно цяло и подлежат на обединение. 

 Променливите в SPSS са признаци, които могат да имат едно единствено 

значение. В зависимост от типа значения на променливите, те се подразделят на два основни типа: числови (numeric) и стрингови (string). За числовите про‐менливи се приема, че значението, което те имат за всеки случай (case) говори само за себе си. Например, за променливата „Възраст на респондента в навър‐шени години” значението 35 означава, че съответният респондент е на 35 годи‐ни. С такъв тип променливи в SPSS могат да бъдат извършвани всякакви арит‐метични процедури и респ. да се пресмятат стойностите на всички статистичес‐ки показатели (напр. средна възраст, и пр.).  

Page 8: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

Значенията на стринговите променливи обикновено са някакъв текст. Например в дадено изследване е зададен въпросът: „Какви препоръки бихте да‐ли на кмета на селото, в което живеете?”, отговорите (значенията на променли‐вата) могат да се въвеждат като текст.  С подобен тип данни обаче не могат да се извършват аритметични операции. Възможностите за обработка се свеждат до генерирането на списъци с изказванията на респондентите – като цяло или в разрез по определени групи или подгрупи. 

Пространството на данните в SPSS е двумерно и може да се изобрази като таблица с редове и колони. По колони са представени променливите, а по редове – случаите.  В Таблица  1 е изобразен масив от данни съдържащ 3 случая, като за всеки случай е представена информация за 2 числови променливи и 1 стрингова променлива. 

 Таблица  1: Пространство на данните в SPSS 

   Var 1  Var 2  Var 3 Case 1  1  34  Няма препоръки Case 2  1  54  Да помисли за инфраструктурата Case 3  2  .  Да бъде по‐честен с хората от селото 

 Таблица  2: Характеристики на променливите в Таблица  1 

 Име на променли‐вата  (VARIABLE NAME) 

Етикет на променли‐вата (VARIABLE LABEL) 

Възможни значения на променливите: 

Стойности (VARIABLE VALUES) 

       Var 1  Пол  Мъж  1     Жена  2 Var 2  Възраст в навършени 

години Число = Брой навър‐шени години 

> 18 

Var 3  Препоръки към кмета на селото 

Текст   

 В Таблица 1 данните са представени така, както биха изглеждали, ако се 

въведат в SPSS, а в Таблица 2 са дадени допълнителни пояснения относно приз‐наците, с които са свързани променливите и респ. начинът, по който тези приз‐наци са преобразувани за целите на обработката на данни, т.е. възприетите при въвеждането на данните конвенции и дефиниции на SPSS. Ако се изхожда от информацията, дадена в Таблица  1 може да се каже, че първият респондент (Case 1) е мъж на 34 г., който няма препоръки към кмета на селото, в което жи‐вее. Третият респондент (Case 3) е жена, която не е посочила възрастта си (фи‐гурира като точка в базата данни) и смята, че кметът трябва да бъде по‐честен с хората от селото, в което живее. 

 

3: Основни менюта, прозорци и функции 

Преди да бъдат разгледани основните операции, свързани с въвеждането и обработката на данни в SPSS е необходимо да се направи кратък преглед на не‐говите основни менюта и функции. Това описание може при по‐нататъшната 

Page 9: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

работа да се използва за справка. Важно е да се отбележи, че по‐голямата част от менютата и подменютата в SPSS стават активни, когато се зареди или въведе файл с данни. Работата с SPSS е безпредметна ако подобен файл не е на разпо‐ложение. 

В SPSS има два основни режима на работа: 1) задаване на командите чрез менюта;  2) синтактичен режим. Синтактичният режим е наследен от по‐старите версии на SPSS, работещи в режим DOS, но не е изваден от употреба по‐ради възможността чрез него да се задава изпълнението на по‐сложни процеду‐ри за обработка на данни. Също така той се използва при задаването на пореди‐ца от команди за обработка на данни, които да бъдат изпълнявани „в пакет” (batch processing). 

Работата с менютата се основа на общите принципи, които се използват в повечето приложения работещи под Windows. Съответно на режимите на рабо‐та, SPSS поддържа 3 основни прозореца: DATA EDITOR, OUTPUT и SYNTAX. 

DATA EDITOR. Това е прозорецът за редакция и въвеждане на данни. При зареждане на файл с данни, те се изобразяват в него. Редакторът за данни пред‐ставлява таблица с редове и колони. По редове се изобразяват случаите, а по ко‐лони – променливите. Ако в този прозорец липсват данни (т.е. няма активен файл с данни) повечето от командите на SPSS са неактивни. Възможностите за „запълване” на редактора с данни принципно са две: данните се въвеждат или се зарежда вече готов файл с данни. Въвеждането на данни (а също и редактиране‐то на вече въведените данни) става като курсорът се позиционира в дадена клетка от таблицата на редактора и се въведе съответният символ. 

В този прозорец могат да се зареждат и данни от съвместими с SPSS про‐дукти (EXCEL, DBASE). За масиви от данни създадени в EXCEL важи правилото, че първият ред в таблицата на EXCEL се приема като ред, в който са описани име‐ната на променливите, а под тях, по колони се записани стойностите, които при‐емат за всеки случай (case). Импортирането на данни от DBASE става автомати‐зирано, като SPSS приема зададените в DBASE полета като променливи. Следва да се има предвид, че при по‐старите версии на SPSS има ограничение за броя на променливите в един файл (1500), докато за броя на случаите няма ограниче‐ния. Когато трябва да се работи в файлове, които имат повече от 1500 промен‐ливи обикновено се създават два или повече файла, които имат общи промен‐ливи. 

Редакторът за данни има два подпрозореца: DATA VIEW и VARIABLE VIEW. В DATA VIEW се изобразяват наличните данни. Във VARIABLE VIEW са изобразени променливите в работния файл и е налице възможност за въвежда‐не на техните параметри ‐ имена, етикети, дефиниране на липсващи стойности и др. (Фигура 1). 

 

Page 10: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

Фигура  1 

   

SYNTAX. Този прозорец не се отваря по подразбиране освен, ако в настрой‐ките на SPSS (EDIT>OPTIONS) не се зададе подобен параметър. Служи за изпис‐ване на команди. Всяка команда в SPSS започва с букви, които обозначават наи‐менованието на операцията, която ще се изпълнява. След наименованието се записват допълнителните параметри на операцията (променливи, които ще участвуват, статистически показатели, които се бъдат пресметнати и пр.). До‐пълнителните параметри се наричат още подкоманди.  

Всяка команда завършва с точка (.), която е знак за край на операцията (command terminator). Липсата на точка, „интерпретира” следващата команда, като част от предходната и обикновено води до съобщение за грешка. 

След като командата и съответните и параметри се изпишат, текстът се маркира и се „натиска” бутонът „>” „RUN” или Ctrl+R, с което започва нейното изпълнение. Съдържанието на този прозорец може да бъде записано като файл, който получава служебно разширение *.SPS.  

Page 11: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

Работата с менюта предполага задаването на командите, чрез диалогови прозорци. Когато са зададени достатъчен брой параметри дадена команда да бъде изпълнена (бутонът „ОК” или „CONTINUE”се осветява). В този момент също  е възможно да се премине в синтактичен режим: чрез бутона PASTE изградената чрез менюто команда се пренася като текст в синтактичния прозорец. По този начин може да се изгради поредица от команди, които да бъдат запазени, изпол‐звани по‐късно или модифицирани. 

 Фигура  2 

  

Page 12: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

10 

OUTPUT. В този прозорец се извеждат резултатите от изчисленията, които се правят. Освен това в OUTPUT се извеждат и служебни съобщения: за грешки, изпълнените команди и др. В самият прозорец може да се работи като в елемен‐тарен текстов редактор, да се копира и прехвърля текст към други приложения. На създадения файл се дава служебно разширение *.SPO. Съдържанието на OUTPUT може да бъде експортирано във файл с различен формат – HTML, MS Word (doc, rtf), MS Excel, ASCII (txt) и др. 

Прозорецът е разделен на две части, като в лявата, под формата на дирек‐тория се създава папка за всяка операция; по този начин се улеснява прегледът на получените резултати. В десния прозорец таблиците не са в текстов формат. Това дава възможност да се работи с допълнителни шрифтове и формати, както и да се оформя непосредствено текстовата част на анализа на данните.  

 Фигура  3 

 

Page 13: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

11 

 

ВЪВЕЖДАНЕ И ФОРМАТИРАНЕ НА ДАННИ 

 

1: Въвеждане на данни 

Въвеждането на данни в SPSS е сравнително лесно, ако преди това изход‐ните данни са подготвени за тази цел. Основните действия, свързани с подго‐товката и въвеждането на данни може да се илюстрира със следния пример: 

Проведено е интервю, което обхваща 3 основни въпроса:  1. Вашият пол? (1=Мъж, 2=жена); 2. Вашата възраст (в навършени години)? 3. Кои от следните неща притежавате? – мобилен телефон, DVD, хладилник, 

фризер (1=да/притежава, 2=не/не притежава). Последният въпрос всъщност включва 4 единични въпроса и поради това 

се преобразява в 4 променливи. Интервюирани са 5 човека, като техните отговори се разпределят както 

следва:  

Таблица  3   Р 1  Р2  Р 3  Р 4  Р5 

 1. Пол?  Мъж (1)  Мъж (1)  Жена (2)  Жена (2)  Жена (2) 2. Възраст?  Непоказал 34  39  26  18 3А. Притежава мобилен телефон?  Да (1)  Да (1)  Не (2)  Да (1)  Не(2) 3В. Притежава DVD?  Не (2)  Не (2)  Да (1)  Не (2)  Не (2) 3С. Притежава хладилник?  Да (1)  Да (1)  Да (1)  Да (1)  Да (1) 3D. Притежава автомобил?  Не (2)  Да (1)  Не (2)  Не (2)  Да (1) 

 Въвеждането на тези данни в SPSS става като курсора се позиционира в 

горния ляв ъгъл на таблицата в редактора за данни (DATA EDITOR) и се въведе първото число за Респондент 1 (1). Преместването на курсора в дясно води до автоматично създаване на първата променлива (var00001). След това по същия начин се въвежда стойността за втората променлива (.), третата (1), четвъртата (2), петата (1) и шестата (2). Въвеждането на данни за Респондент 2 става по съ‐щия начин, като курсора се премести в ляво на ред 2. Въвеждането на стойност‐та на първата променлива за Респондент 2 автоматично запълва стойностите за останалите променливи (на този ред) с „точки”, които са символ на SYSTEM MISSING стойности. С въвеждането на данни на тяхно място SYSTEM MISSING стойностите се заместват от съответно въведените числа. Като се вземат пред‐вид описаните по‐горе кодове на различните отговори и се въведат данните, ре‐зултатът изглежда по следния начин: 

Page 14: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

12 

Фигура  4 

 След въвеждане на всички данни (в нашия случай данните за 5 респонден‐

та) е препоръчително файлът да бъде записан (Save Data или Save As, които в то‐зи случай действат по еднакъв начин). В диалоговия прозорец на командата Save As Data File (Фигура 5) се задава директорията, в която да бъде записан файла, името (препоръчва се да се запази предлаганото разширение SAV) и формата на запис (по подразбиране SPSS записва файловете в неговия собствен формат, но е възможно да се използуват и другите предлагани варианти: 

 SPSS  Оригинален формат за запис на данните в SPSS. Файлът съдър‐

жа данните, както и етикетите и дефинициите на променливи‐те.  

SPSS/PC+  Оригинален формат за запис на данните в SPSS за DOS. Файлът съдържа данните, както и етикетите и дефинициите на про‐менливите.  

SPSS Portable 

Формат за запис на данните в SPSS, който по същество записва данните в ASCII формат, но съдържа както данните, така и ети‐кетите и дефинициите на променливите. 

Tab delimited 

Запис на данните в ASCII формат, при който отделните полета са разделени с табулатор, а в края на всеки запис (прави се по един запис за всеки случай) има знак за нов ред (CR). Файлът съдържа само данните и не включва етикети и дефиниции на променливите.  

Fixed ASCII  Запис на данните в ASCII формат, при който на всяка променли‐ва се присвояват толкова колони, колкото са дефинирани 

Page 15: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

13 

(WIDTH), а в края на всеки запис (прави се по един запис за все‐ки случай) има знак за нов ред (CR). Файлът съдържа само дан‐ните и не включва етикети и дефиниции на променливите.  

Excel  Запис на данните във формат за Excel. Всяка променлива предс‐тавлява колона, а всеки случай – ред в таблицата. Файлът съ‐държа само данните и не включва етикети и дефиниции на променливите.  

1‐2‐3 Release 1, 2, 3 (WKS) 

Запис на данните във формат за WKS. Всяка променлива предс‐тавлява колона, а всеки случай – ред в таблицата. Файлът съ‐държа само данните и не включва етикети и дефиниции на променливите.  

SYLK  Запис на данните във формат за SYLK. Всяка променлива предс‐тавлява колона, а всеки случай – ред в таблицата. Файлът съ‐държа само данните и не включва етикети и дефиниции на променливите.  

dBASE  Запис на данните във формат за dBASE. Всяка променлива пред‐ставлява запис в базата данни. Файлът съдържа само данните и не включва етикети и дефиниции на променливите. 

 Фигура 5 

   При работа с големи масиви от данни и особено в случаи, когато процесът 

на въвеждане е разпределен между много оператори използването на DATA EDITOR е практически неудобно. Подходящи за такива случаи са специализира‐не системи за въвеждане на данни, които интегрират две основни функции – 

Page 16: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

14 

контрол на въвежданите данни (ограничава се броя на възможните стойности и се намалява възможността за грешки) и контрол върху връзките между стой‐ностите на различни променливи. Съществуват няколко специализирани соф‐туерни решения за въвеждане на данни сред които по‐широко използваните са SPSS Data Entry, EPI Data, Quantum, Blaze и др. 

2: Дефиниране на променливите (DEFINE VARIABLE PROPERTIES) 

Дефинирането на променливите (DEFINE VARIABLE PROPERTIES) може да се извърши и преди и след въвеждането на данните. Командата се намира в ме‐ню DATA> DEFINE VARIABLE PROPERTIES. Другият начин за дефиниране на про‐менливите е в подменю VARIABLE VIEW на DATA EDITOR. И чрез двата начина се задават основните характеристики на дадена променлива (тип, дължина, етике‐ти, липсващи стойности и пр.). Файл, в който променливите не са дефинирани е общо взето неразбираем. Избирането на командата DEFINE VARIABLE PROPERTIES отваря един основен диалогов прозорец (Фигура  6) на който се из‐бират променливите, които ще бъдат дефинирани. След избор на променлива, чрез бутон CONTINUE се преминава в следващия подпрозорец (Фигура  7), къде‐то се задават или променят всички дефиниции на съответната променлива. 

 Фигура  6 

  

Page 17: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

15 

Фигура  7 

  Задаването на параметрите на променливите може да се направи и в  под‐

меню VARIABLE VIEW на DATA EDITOR.  Значението на основните параметри за всяка променлива е следното: 

Name. Име на променливата (variable name). Отнася се до начина, който променливата се записва в базата данни на SPSS. В това поле по подразбиране е присъства „служебното” име на променливата, дадено от SPSS (напр. var00002). То може да бъде заменено, като изискванията спрямо имената на променливите са: да започват с буква (латиница), да не се използват специални символи и да не са по‐дълги от 8 знака. Например: A1, POL, BX348, GRAD и пр. Макар имената да могат да са произволни се препоръчва те или да кореспондират с начина на представяне на въпросите във въпросника (напр. Q1) или да указват съдържа‐нието на променливата (напр. РОL). 

Type. Тип на променливата. Отразява начинът, по които се „интерпрети‐рат” въведените в базата данни символи. Основните два типа променливи са числови (numeric) и стрингови (string). Числовите променливи биват от няколко подтипа: Comma, Dot, Scientific notation, Date, Dollar, Custom currency са също ви‐дове числови променливи, но имат свои специфични особености. Дефинирането на променливата като стрингова позволява въвеждането на текстова информа‐ция като нейна стойност. 

Width.  Ширина. Дефинира броят на знаците преди десетичната точка.  Decimals. Дефинира броят на знаците след десетичната точка.  Width и Decimals са параметри, които се отнасят само за числовите про‐

менливи и задават т.нар. формат (FORMAT) на променливата. По подразбиране стойностите на тези параметри са 8.2: F 8.2 обозначава променлива, която и ма 8 знака преди и десетичната запетая и 2 знака след нея, а F 1.0 променлива, която може да има стойности само цели числа от 0 до 9. 

Label. Етикет на променливата (variable label). Това е текстът, който се свързва с дадена променлива. Най‐целесъобразно е тук да се въвеждат тексто‐вете на въпросите в съответното проучване. 

Page 18: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

16 

Values. Етикети на стойностите на променливата (value labels). Етикетите се използуват за удобство, т.е. въвеждането им не е задължително. Много често обаче това е важно. Например, когато съответните числа не означават количест‐ва, а качествени характеристики (т.е. когато значенията на дадена променлива са кодирани с числа, но сами по себе си не са числа в буквалния смисъл). При въ‐веждане на текстове следва да се въведе: 1) при VALUE ‐ съответната стойност; 2) при VALUE LABEL – съответният етикет/ текст (не повече от 20 знака) и 3) да се потвърди въведеното с бутон ADD. Бутоните REMOVE и CHANGE се използу‐ват за изтриване на въведени етикети или за промяна на текстовете на вече съ‐ществуващи етикети. 

Missing. Липсващи стойности (missing values). В този подпрозорец се дефи‐нират т.нар. липсващи стойности (missing values). За всяка променлива опреде‐лени стойности могат да бъдат дефинирани като „липсващи”. Това се прави, ко‐гато изследователят не желае тези стойности да бъдат включвани в изчислени‐ята. Причините да липсва подобно желание са две основни: 

1. Когато за определен случай няма информация за някоя променлива (например някой от респондентите е отказал или не може да отговори на даден въпрос). 

2. Когато дадена стойност на променливата е незначеща, т.е. не означава нищо определено: например отговори от типа „не зная”, „не мога да преценя” и пр. 

Съответно на тези два типа причини са налице две възможности стойнос‐тите да се дефинират като липсващи: 

SYSTEM MISSING: се отнася главно за първия случай, т.е. използва се когато дадена стойност изобщо отсъства. 

USER MISSING: отнася се за случаи, когато е налице някаква информация, но тя не може да се приеме като истинско значение на променливата (не зная, не си спомням, не мога да реша и пр.). 

Разликата между двете дефиниции е, че SYSTEM MISSING стойностите ни‐кога на участвуват в изчисленията, докато USER MISSING стойностите по под‐разбиране (BY DEFAULT) не се включват в изчисленията, но при подаване на съ‐ответна команда могат да бъдат включени. 

За всяка променлива до 3 различни стойности могат да се дефинират като липсващи (discrete missing values). Ако вместо 3 отделни стойности се зададат интервали, то възможността е 1 отделна стойност и един интервал. Интервали‐те се задават чрез използуване на опциите: RANGE OF MISSING VALUES (интер‐вал на липсващи стойности) или RANGE AND ONE DISCRETE MISSING VALUE (ин‐тервал и една отделна липсваща стойност). 

Columns. В този прозорец се определя начинът, по който данните се изоб‐разяват на екрана в редактора за данни. Задаването на броя знаци (дължината) на променливата се прави в TYPE. 

Align. Подравняване. Отнася се до начина за изобразяване на данните в ре‐дактора за данни. 

Measure. Скала на измерване. Тази дефиниция определя начинът на из‐мерване на променливата и е свързана със статистическите показатели, които могат да бъдат пресмятани. Възможните скали на измерване са: 

Page 19: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

17 

‐ Scale. Отнася се за променливи измерени чрез относителна или интер‐вална скала (възраст в години, доходи в съответна парична единица, тегло в ки‐лограми и пр.). Това е най‐силният тип скала, т.е. позволява пълноценно използ‐ване на всички статически показатели. 

‐ Ordinal. Отнася се за променливи измерени на ординална или рангова скала. Този тип скали съдържат количествена градация, но дистанцията между отделните степени на скалата не може да бъдат определена точно. Примери в това отношение са скали от типа: 1) напълно одобрявам, одобрявам от части, отчасти неодобрявам, неодобрявам изобщо; 2) първо място, второ място, трето място и пр. 

‐ Nominal. Отнася се за променливи при които се разграничават единствено качествени разновидности на даден признак (например променливата пол, с нейните значения мъж и жена). При този тип скали, числовите стойности на променливата се използват просто като символи, т.е. имат номинален характер.  

3: Въвеждане на данни в EXCEL 

При въвеждане на данни в EXCEL, при който видът на таблицата е подобен на този в SPSS е необходимо данните да се разполагат по същия начин като в SPSS. По редове се въвеждат данните за всеки случай (case), а по колони се раз‐полагат променливите. В първия ред на EXCEL таблицата могат да се въведат имената на променливите (А1, РОХ, и пр.). При това положение, когато данните се импортират в SPSS, въведените имена на променливите автоматично се присвояват на съответните променливи. Ако въвеждането на данни започне от клетка А1, при импортиране на данните на съответните променливи се присво‐яват служебни имена (VAR00001, VAR00002 и пр.). 

След като данните се въведат в EXCEL, файлът се записва. Необходимо е да се знае, че всяка версия на SPSS е способна да „чете” онези формати на EXCEL, които са били на пазара до годината на публикуване. Ето защо практически е най‐добре файловете от EXCEL да се записват в по‐старите формати. 

Процедурата по импортиране става чрез OPEN>DATA, като в диалоговия прозорец се маркира отварянето на файл от EXCEL и евентуално да се маркира прозорчето READ VARIABLE NAMES (ако на първият ред в таблицата на EXCEL са въведени имена на променливи). Самото „прочитане” на данните става автома‐тично.  

Page 20: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

18 

 

ЧЕСТОТНИ РАЗПРЕДЕЛЕНИЯ 

Честотните разпределения са най‐простият и най‐често използваният на‐чин за обобщено представяне на данните в даден масив (файл). На фазата на въ‐веждането и форматирането на изходните данни, честотните разпределения позволяват да се направи подробен преглед на въведената информация и да се отстранят съответните грешки. На фазата на анализ на данните  честотните разпределения  са основно първоначално средство за изобразяване на резулта‐тите от дадено проучване. Най‐често използваните честотни разпределения са т.нар. едномерни и двумерни разпределения. 

 

Едномерни разпределения 

Едномерните разпределения (FREQUENCY DISTRIBUTIONS или FREQUENCIES) са най‐простата форма на обработка на данни. Те визуализират както въведените данни, така и всички свързани с тях преобразувания. Проце‐дурата за изчисляване на едномерни разпределения (FREQUENCIES) се намира в меню ANALYZE>Descriptive Statistics>Frequencies. В диалоговия прозорец са изобразени два списъка с променливи: в левия се извеждат всички променливи в активния файл, а в десния (който е празен) чрез бутона между тях се „прена‐сят” променливите, за които желаем да направим едномерно разпределение. 

 Фигура  8 

  За да направим едномерно разпределение на променливата „Възраст” 

(var00002) спазваме следната последователност: 1. Маркира се променливата var00002 от левия прозорец, за които ще се 

изготвят едномерни разпределения. 

Page 21: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

19 

2. Чрез бутона между двата прозореца променливата се прехвърля в дес‐ния прозорец. 

3. Кликва се на бутон ОК.  

Фигура  9 

  4. В прозореца OUTPUT (който се активира автоматично със започване на 

изчисленията) се преглеждат резултатите. Едномерното разпределение на про‐менливата var00002 от дадения по‐горе пример за въвеждане на данни изглеж‐да по следния начин: 

 

Page 22: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

20 

Фигура  10 

 Изобразените на Фигура  10 резултати имат следните значения:  Таблица Statistics. Показва обобщаваща информация за честотното разп‐

ределение на променлива VAR00002.  N VALID, показва броят на валидните случаи, които в нашия пример са 4. Missing показва броят на липсващите стойности – в случая 1 (т.е. за един от 

респондентите променливата няма валидна стойност). Таблица VAR00002. Показва детайлна информация за честотното разпре‐

деление на променливата VAR00002. В първата колона (от ляво) са изредени валидните стойности (Valid) на 

променливата (18, 26, 34, 39). Total показва общият брой валидни случаи. След валидните случаи в първа колона се изобразява информация за липс‐

ващите случаи (Missing). В конкретният пример имаме само един тип липсващи случаи – system missing, т.е. това са случаи за които не е налице никаква инфор‐мация.  

Total в края на първата колона обозначава общият брой случаи. Втората колона (от ляво на дясно) – Frequency ‐ показва наблюдаваните 

честоти за всяка от стойностите на променливата VAR00002. Всяка от валидни‐те стойности се среща по един път. Общият брой на валидните случаи е 4. Броят на system missing случаите е 1. Общият брой на случаите (валидни и липсващи) е 5. 

Третата колона (от ляво на дясно) – PERCENT – показва относителните дялове на честотите за дадена стойност на променливата изчислен при база, равна на сумата от всички случаи в активния файл. Базата се посочва в реда 

Page 23: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

21 

TOTAL. В конкретния пример има 5 стойности и всяка една представлява 20% от общата сума на случаите. 

Четвъртата колона (от ляво на дясно) ‐ VALID PERCENT (валиден про‐цент) – показва разпределението на относителните дялове за всяка от валидни‐те стойности на променливата при база всички валидни случаи в активния файл, т.е. базата за изчисление на тези относителни дялове е общият брой на валидните случаи (в конкретния пример – 4). Ако за дадена променлива няма липсващи стойности, колоните PERCENT и VALID PERCENT са идентични. 

Петата колона (от ляво на дясно) – CUMULATIVE PERCENT (кумулативен процент) – изобразява относителни дялове, като всеки ред е равен на сумата от стойността на реда и сумата на стойностите на всички предходни редове. Из‐численията се базират на валидните случаи. В конкретната таблица валидните случаи са 4, всеки представлява 25% от общата сума на случаите (4). 

Ако работим с разгледания вече пример и въведем етикети за променли‐вата „Пол” и нейните стойности, както и ако променим името на самата промен‐лива, то резултатите от честотното разпределение изглеждат по следния начин:  Фигура  11 

 Промените изобразени на Фигура  11 показват конкретната съдържателен 

характеристика на променливата (пол) и на нейните стойности. В първата ко‐лона (от ляво) са изобразени както числовите стойности, с които са кодирани значенията на променливата (пол), така и присвоените за всяка една от тези стойности етикети. 

  

Page 24: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

22 

Двумерни разпределения (crosstabs) 

Двумерните разпределения (crosstabs или cross tables) представля‐ват разпределение на стойностите на всеки случай по две променливи ед‐новременно. Обобщеното представяне на всички случаи се извежда в табли‐ца, в която броят на колоните е равен на броя значения на едната променли‐ва, а броя на редовете – на броя на възможните значения на другата промен‐лива. 

Като се използват данните от вече въведеният пример, двумерното разпределение на променливите „пол” и „възраст” изглежда по следния на‐чин: 

 Фигура  12 

 Изобразените на Фигура  12 две таблици съдържат следните значе‐

ния: Таблица Case Processing Summary съдържа общи сведения за броя на 

валидните (valid) и липсващите (missing) случаи, както и общия брой (total) на случаите. 

Таблица Vyzrast Възраст * POL Пол на респондента Crosstabulation съ‐държа конкретните резултати от двумерното разпределение. По редове са представени стойностите на променливата Възраст (18, 26, 34, 39), а по ко‐лони стойностите на променливата Пол (1, 2). В колони 2 и 3 (от ляво на дяс‐но) е показан броят на случаите, които попадат във всяка клетка. Ако в да‐дена клетка не попадат никакви случаи се изобразява 0. В колона 3 (Total) е показан общият брой на случаите от всяка възрастова категория. В на‐долния ред на таблицата (Total) е показан общият брой случаи съответно на мъжете (1) и жените (3). Първият ред на таблицата показва, че в масива има една жена на 18г., вторият – една жена на 26г., третият – един мъж на 34г., 

Page 25: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

23 

четвъртият – една жена на 39г. Обозначението COUNT в горния ляв край на таблицата показва, че тя представя броят на случаите за всяка променлива. 

Важна особеност на двумерните разпределения е, че те не включват липсващите стойности. В този смисъл при анализа на полученото разпреде‐ление винаги следва да се вземат предвид данните от таблица Case Processing Summary, където се съдържа информация за броя на включените (valid) и из‐ключените (missing) в двумерното разпределение случаи. 

Представеното на Фигура  12 двумерно разпределение съдържа само абсолютни честоти и не включва други статистически показатели; то е най‐простият начин за двумерно представяне на честотите на две променливи1. Тази форма на двумерното разпределение се използва най‐вече за преглед (оглед) на въведените данни или за проверка на данните, след извършване‐то на преобразувания на променливите (рекодиране, обединение и др.). По‐лучаването му става чрез меню ANALYZE>Descriptive Statistics>Crosstabs… В съответния диалогов прозорец (Фигура  13) се задават параметрите на про‐цедурата като се спазва следната последователност: 

1. От списъка променливи (ляв подпрозорец) се избира променлива‐та, която ще бъде изобразена по ред  и се премества чрез бутона в подпрозо‐рец Row(s): 

2. От списъка променливи (ляв подпрозорец) се избира променлива‐та, която ще бъде изобразена по колона и се премества чрез бутона в подп‐розорец Column(s): 

3. Потвърждава се изпълнението чрез бутон OK  

Фигура  13 

 

                                                        1 По‐разгърнатите варианти на двумерните разпределения се представят в раздел „Анализ на 

данни” 

Page 26: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

24 

Въвеждане на повече променливи в подпрозорците Row или Column води до създаване на повече двумерни таблици – всяка от променливите въведени в Row се комбинира с всяка от променливите въведени в Column. 

Въвеждането на данни и формирането на големи масиви, съдържащи множество променливи и голям брой респонденти (случаи) е неизбежно свър‐зано с допускането на грешки. В този смисъл представените варианти на едно‐мерни и двумерни разпределения следва задължително да бъдат използвани за внимателен преглед на въведените данни и параметрите на съответните променливи. Анализът на данни, които са некоректно или погрешно въведени или дефинирани води до съществени затруднения или до погрешни изводи и обобщения. 

Едномерните разпредения се използват за първичен оглед  и корекция на: ‐ Въведените етикети и имена на променливите и техните стойности. На‐

личието на етикети не е задължително. В повечето случаи обаче липсата на ети‐кети прави невъзможна ориентацията в масива данни. Това положение става още по‐важно, когато с даден масив работят повече изследователи. Имената на променливите и съответните етикети (на променливите и техните стойности) следва да са обвързани с използваните за набирането на информацията въпрос‐ници и формуляри. 

‐ Дефинираните липсващи стойности. Едномерното разпределение дава ясна представа за резултатите от това дефиниране. В това отношение е необхо‐димо да се прецени, кои стойности на дадена променлива са принципно неиз‐ползваеми (липсваща или погрешна информация). Такива стойности е редно да се дефинират като system missing като по този начин те по принцип се изключ‐ват от по‐нататъшни изчисления и преобразувания. Някои стойности на про‐менливите по принцип носят информация, но тя е може да се окаже недоста‐тъчна за съдържателния анализ. Примери в това отношения са отговори на рес‐пондентите като „Не зная”, „Не се отнася за респондента”, „Отказ” и др. Най‐често за подобни стойности се използва дефиницията USER MISSING, която позволява тези стойности да се включват или изключват от анализа в зависимост от нуж‐дите на изследователя. 

‐ Недопустими стойности. Това са стойности на променливата, които изли‐зат извън областта на възможните и в повечето случаи са резултат от грешки при въвеждане на данните. Например променливата „пол” може да приема стойности 1 и 2 (1=мъж и 2=жена). Всяка друга въведена стойност е грешка, която е необходимо да се коригира. Едномерното разпределение е най‐ефективния начин тези стойности да се открият и коригират. Коригирането най‐често изисква справки с първичните документи (въпросници, формуляри и пр.) и откриване на съответната стойност в масива с въведени данни (DATA EDITOR>DATA VIEW). Когато корекцията е невъзможна съответните стойности се дефинират като SYSTEM MISSING. 

Двумерните разпределения са едно от най‐удобните средства за логичес­ки оглед и корекция на въведените данни. По принцип логически оглед на дан‐ните е възможен когато между две и повече променливи съществува определе‐на логическа връзка ‐ определена стойност на дадена променлива изключва (или предполага) точно фиксирана стойност на друга променлива. Например трудно е да се допусне, че е възможно човек да е на 20г. и да има 25г. трудов стаж. Двумерното разпределение на променливите възраст и трудов стаж може да очертае дали в комбинации, които са логически или съдържателно  недопус‐

Page 27: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

25 

тими (невъзможни) са попаднали определени респонденти. Наличието на таки‐ва случаи следва да бъде коригирано преди да се пристъпи към анализ на дан‐ните. 

Често въпросниците съдържат т.нар. „филтри” – въпроси, които разделят респондентите на 2 или повече категории. След въпросите‐филтри следват въп‐роси, които се отнасят само за част от респондентите. Проверката за реалното спазване на условието, зададено чрез въпрос‐филтър става отново като се из‐ползва двумерно разпределение на променливата, свързана с този въпрос и променливите, свързани с въпросите, които се отнасят само за част от респон‐дентите. 

Целта на описаните по‐горе процедури за оглед на данните чрез едномер‐ни и двумерни разпределения е да се достигне до т.нар. „чист” масив с данни (clean data file). Процесът на оглед и корекция на данните се нарича чистене или редактиране на данни. 

Page 28: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

26 

 

ПРЕОБРАЗУВАНЕ НА ДАННИ 

Преобразуването на даден масив от данни е една от съществените опера‐ции, които подготвят статистическият и/или съдържателният анализ на дан‐ните. То се налага поради различни причини, като най‐често срещаните са след‐ните: 

1. Начинът, по който е събирана информацията често не е напълно подхо‐дящ за извършването на определен тип анализ. Обикновено това се отнася за социално‐демографски променливи представени на интервалната скала (въз‐раст, доходи). За да не се губи информация в процеса на набиране доходът и възрастта на респондентите се записват/въвеждат като абсолютни стойности. Когато се работи с големи извадки, получаваните едномерни разпределения на тези променливи съдържа „прекалено много” различни стойности, а това създа‐ва необходимостта от групиране в няколко по‐малко на брой възрастови или подоходни интервала. Подобно групиране улеснява съдържателния анализ на данните, но стеснява възможностите за приложение на по‐сложни статистичес‐ки методи за анализ на връзки и зависимости. В подобни случаи се налага обра‐зуването на нови променливи: признаците измерени на интервалната скала се групират в няколко категории, но същевременно се запазва и изходната инфор‐мация. 

2. Изчисляване на стойности на променливите, които са производни от ня‐колко изходни променливи. Това най‐често се налага, когато за целите на наби‐рането на информация признаците се декомпозират до степен, позволяваща максимално точно регистриране на значенията им. В процеса на анализ често се налага да се извърви обратният път – значенията на няколко признака да се обединят. 

3. Образуване на специфични категории респонденти (случаи) на основана на логическо комбиниране на стойностите на няколко променливи. Образува‐нето на нови комбинации от значения на признаците (и респ. групирането на респондентите на тази основа) се налага често в хода на анализа на данните. Обикновено подобна насока на работа следва от резултатите от анализа на връзките и зависимостите между променливите и е начин да се задълбочи изс‐ледването на съответния проблем. 

1: RECODE 

Рекодирането (RECODE) е процедура, при която въведените стойности на дадена променлива се преобразуват според избрана от изследователя схема. В SPSS това може да става по два основни начина: 

1. Стойностите на променливата се преобразуват, без да се образува нова променлива (RECODE INTO SAME VARIABLES). В случай промените са необрати‐ми. 

2. Стойностите на променливата се преобразуват като се създава нова променлива (RECODE INTO DIFFERENT VARIABLES). В този случай изходната (старата) променлива се запазва, а се образува нова променлива, в която са нап‐равени желаните от изследователя промени. 

Page 29: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

27 

Като се вземе предвид възможността за грешки, а също и възможността да се промени стратегията, използвана от изследователя за предпочитане е изпол‐зването на втория начин, тъй като той винаги оставя възможност за връщане назад. Основните/ най‐често срещаните случаи, при които се налага използва‐нето на процедурата рекодиране са следните: 

1. Промяна в числовите значения на променливата; 2. Обединяване на значения на променливата; 3. Обръщане или модификация на скали за измерване; 4. Преминаване от един тип скала към друг.  RECODE INTO SAME VARIABLES 

Процедурата се намира в меню TRANSFORM>RECODE>INTO SAME VARIABLES. От списъка в левия панел се избира променливата, която ще се ре‐кодира. След това тя се премества в десния панел. Изобразените в този панел променливи са тези, върху които ще се изпълни процедурата рекодиране. Въз‐можно е процедурата да се изпълни върху няколко променливи едновременно, в случай че начинът на рекодиране е еднакъв. 

 Фигура  14 

 Бутоните IF и OLD AND NEW VALUES служат за въвеждане на схемата за ре‐

кодиране. Когато минимално необходимите за извършване на процедурата па‐раметри са въведени, бутонът ОК се осветява и процедурата може да бъде из‐пълнена. 

Page 30: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

28 

Фигура  15 

 OLD AND NEW VALUES. Този бутон отваря диалоговият прозорец, в който 

се задават основните параметри за рекодиране. В лявата част на диалоговия прозорец (Old value) се въвеждат старите стойности на променливата. За всяка стара стойност в дясната част на прозореца (New value) се въвежда новата стой‐ност. Потвърждаването на всяка промяна става чрез натискане на бутон ADD, с което въведената схема на рекодиране се изписва в долния десен подпрозорец. След последователното въвеждане на всички изменения се натиска бутон CONTINUE, а след това ОК в основния прозорец на процедурата. Старите стой‐ности (Old value) могат да се въвеждат за преобразуване в нови стойности (new value) като се използват няколко възможности: 

VALUE – въвежда се отделна (единична) стара стойност на променливата. Срещу нея в дясната страна на прозореца се въвежда новата стойност. В случаи‐те, когато старата стойност трябва да се превърне в липсваща стойност се мар‐кира позицията system missing. 

SYSTEM MISSING – маркирането на тази опция дава възможност system missing стойностите на променливата да се превърнат в „значещи” стойности (т.е. стойности, който се включват в различните разпределения). 

SYSTEM OR USER MISSING – маркирането на тази опция води до едновре‐менното прекодиране на всички стойности, дефинирани като system missing или user missing. 

RANGE – съществуващите тук три опции дават възможност едновременно да се рекодират няколко последователни стойности (интервали). Чрез първата опция се задава горна и долна стойност за интервала. За втората опция (lowest through) рекодираният интервал започва от най‐ниската стойност на променли‐вата и се задава само горната му граница. При третата опция (highest through) се задава начало на интервала, а краят е най‐високата стойност на променливата. 

ALL OTHER VALUES – чрез тази опция е възможно всички неотбелязани за рекодиране стойности на променливата да бъдат обединени в една обща група. Ако не се избере тази опция, неотбелязаните стойности остават без промяна. 

 

Page 31: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

29 

RECODE INTO DIFFERENT VARIABLES 

Тази процедура се различава от предходната по това, че създава нова про‐менлива, в която се копират всички стойности на променливата, подлежаща на рекодиране (старата променлива). Затова след избиране на променливата, под‐лежаща на рекодиране е необходимо в подпрозореца NUMERIC VARIABLE ‐ > OUTPUT VARIABLE да се зададе име (Name) и етикет (Label) на новата променли‐ва, след което да се потвърди това с натискане на бутона CHANGE (Фигура  16). Новите и старите стойности се въвеждат по същия начин като при процедурата RECODE INTO SAME VARIABLES. 

 Фигура  16 

 Особеност при тази процедура е опцията ALL OTHER VALUES. По подразби‐

ране всички неописани в трансформацията стойности се рекодират в SYSTEM MISSING. За да се запазят старите стойности е необходимо да се избере ALL OTHER VALUES и да се зададе схема на рекодиране COPY OLD VALUES. В този слу‐чай старите стойности се запазват без промяна.  Фигура  17 

 

Page 32: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

30 

Вариантът RECODE INTO DIFFERENT VARIABLES е препоръчваната по принцип процедура, тъй като се запазва старата променлива и е възможно в следващи преобразувания тя отново да се използва като изходна база за реко‐диране. 

Особености: ‐ Рекодирането може да бъде извършено при спазване на определено усло‐

вие (например да се извършва, ако дадена променлива приема определени стойности). Условието се задава като се избере бутон IF и се въведат съответни‐те параметри. За целта опцията INCLUDE ALL CASES в подпрозореца на IF следва да се замени с опцията INCLUDE IF CASE SATISFIES CONDITION, след което да се въведе съответното условие. 

‐ За да се види резултатът от рекодирането е необходимо да се направи ед‐номерно разпределение на новата/рекодираната променлива. 

‐ При рекодиране е необходимо предварително да се пресметнат предпо‐лагаемите честоти за новите категории. По този начин е възможно да се конт‐ролира дали крайният резултат съвпада с предварително определената схема за рекодиране. 

 

2: COMPUTE 

Процедурата COMPUTE образува нова променлива (TARGET VARIABLE), чийто стойности за всеки случай (CASE) са резултат от аритметични и логически операции с други променливи. Изпълнението на процедурата изисква: 

1. Въвеждане на име (Name) на новата променлива (TARGET VARIABLE); 2. Въвеждане на аритметичен или логически израз, на основата на който 

ще се образуват стойностите на новата променлива. Отварянето на основния диалогов прозорец става чрез меню TRANSFORM > 

COMPUTE. Името на нова променлива се въвежда в полето Target variable, а аритметичният израз в полето Numeric Expression ( Фигура  18). Списъците на променливите, функциите и бутоните с основните аритметични действия се из‐ползват за образуване на аритметичния израз. Съдържанието на конкретната аритметична или логическа операция, която образува стойностите на новата променлива може да бъде произволно. Съществено е обаче изследователят да има предварителна представа за стойностите на очакваният резултат. Тази представа дава възможност да се контролират получените стойности. В резул‐тат на технически грешки е възможно да се изчислят погрешни значения на но‐вата променлива, които, ако не се проверят могат да доведат до погрешни изво‐ди и заключения. 

 

Page 33: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

31 

Фигура  18 

 В приведения пример се образува нова променлива NewVar, чиито стой‐

ности се образуват като стойностите на променливата POL се умножат по 2. В синтактичен режим описаното по‐горе преобразование се задава в про‐

зорец SYNTAX чрез командата: COMPUTE NewVar =  POL*2. Задължителна особеност на командите в синтактичен режим е поставяне‐

то на точка ( . ) в края. Отсъствието на точка води до неизпълнение на команда‐та или други съобщения за грешка. 

Page 34: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

32 

Фигура  19 

  Процедурата COMPUTE дава големи възможности за преобразуването на 

данните. Примерни възможности за нейното използване са:  

COMPUTE TV = 0.  

Създава се нова променлива TV, чиито стойности за всички случаи са равни на 0.  

COMPUTE TV = D1.  

Създава се нова променлива TV, чиито стойности са равни на стойностите на променливата D1.  

COMPUTE TV = (D1/D2) * 0.162.  

Създава се нова променлива TV, чиито стойности са равни на стойностите на променливата D1 разделени на стойнос‐тите на променливата D2 умножени по 0.162.   

COMPUTE TV = (D1+D2+D3) / 3.  

Създава се нова променлива TV, чиито стойности са равни на сбора на стойностите на D1, D2 и D3 разделен на 3.  

  

3: COUNT 

Процедурата COUNT е подобна на COMPUTE с това, че създава нова про‐менлива. Особеното в нея е, че пресмятаните стойности са резултат от преброя‐ване (за всеки случай/респондент) на това колко пъти се среща дадена стойност (или група стойности) в група от променливи. 

Пример: В представеният по‐рано пример е налице информация за притежавани от 

респондентите уреди. Дадените отговори за 5 респондента (5 случая) са предс‐тавени в Таблица  4, където с „1” се обозначава притежание, а с „2” – непритежа‐ването на дадения уред. Променливите, които съответно регистрират притежа‐нието на отделните уреди са А1 (мобилен телефон), А2 (DVD), А3 (хладилник) и А4 (фризер).  

Page 35: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

33 

Таблица  4  

Променлива Етикет на променлива  

Респ 1  Респ 2  Респ 3  Респ 4  Респ 5 

А1  Мобилен телефон  1  1  2  1  2 А2  DVD  1  2  1  2  2 А2  Хладилник  2  1  1  1  1 А4  Фризер  1  1  2  2  1   Брой притежавани уреди  3  3  2  2  2   Стойност за респондента в 

новата променлива (изчис‐лена с COUNT) 

3  3  2  2  2 

 В предпоследния ред на таблицата по‐горе са дадени резултатите от преб‐

рояването на броя на притежаваните от респондентите домакински уреди, а в последния ред ‐ стойностите, които би имала създадената с процедурата COUNT променлива. COUNT „преброява” колко пъти се среща стойността „1” за всеки респондент в четири променливи (А1‐А4); за респондент 1 тази стойност се среща 3 пъти, за респондент 2 – 3 пъти, за респондент 3 – 2 пъти, за респондент 4 – 2 пъти и за респондент 5 – 2 пъти. Ако изпълним процедурата COUNT, върху тези данни резултатът би бил следният: 

 Фигура  20 

 В получената таблица (Фигура  20) се вижда че стойността „2” се среща 3 

пъти (т.е. трима респонденти имат по два уреда), а стойността „3” се среща 2 пъ‐ти (т.е. 2 респондента имат по 3 уреда). 

Page 36: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

34 

Конкретната реализация на процедурата COUNT чрез диалогов прозорец: TRANSFORM > COUNT. 

 Фигура  21 

 В полето TARGET VARIABLE се въвежда името на новата променлива, която 

ще бъде създадена. В случая това е променливата PRED. В полето TARGET LABEL се въвежда етикетът на новата променлива 

(pritezavani uredi). В полето VARIABLES от списъка с променливи се избират онези, за които 

ще бъде извършвано броенето на желаните стойности (A1, A2, A3, A4).  

Фигура  22 

 В подпрозорец DEFINE VALUES се въвеждат стойностите, които трябва да 

бъдат „преброени”. В конкретния случай това е стойност „1”. В подпрозорец IF може да бъде зададено допълнително условие за извър‐

шване на броенето: например броенето да се извърши само относно хора с вис‐

Page 37: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

35 

ше образование. В този случай в подпрозореца се посочва числовата стойност на категорията „висше образование” на съответната променлива. 

 

4:  IF 

Процедурата IF се изпълнява в само синтактичен режим и служи за осъ‐ществяване на по‐сложни преобразувания на една или повече променливи, свързани със задаването на повече от едно условие. Преобразуванията могат да включват серия от логически и аритметични действия. Реализацията на проце‐дурата изисква предварително да се разработи логическата (аритметичната) схема на преобразуването.  

Пример: Дадени са две променливи.  D1 – Пол, със стойности 1=мъж и 2=жена. D2 – Възраст в навършени години. Задачата е да се създаде нова променлива, която обединява променливите 

пол и възраст, като предварително променливата възраст да бъде рекодирана в следните категории (интервали): 1= от 15 до 30 год., 2 = от 31 до 60 год., 3 = над 61 год.  

Решение: Новата променлива ще има следните категории: 

Стойности на новата променлива 

 Комбинации от стойностите  на изходните  променливи 

1 = мъже на възраст от 15 до 30 год.  D1 =1  и  DD2 =1 2 = мъже на възраст от 31 до 60 год.  D1 =1  и  DD2 =2 3 = мъже на възраст над 61 год.  D1 =1  и  DD2 =3 4 = жени на възраст от 15 до 30 год.  D1 =2  и  DD2 =1 5 = жени на възраст от 31 до 60 год.  D1 =2  и  DD2 =2 6 = жени на възраст над 61 год.  D1 =2  и  DD2 =3 

 Осъществяването на гореописаното преобразование преминава през след‐

ните стъпки: 1. На изходните променливи (D1 и DD2) се правят едномерни разпределе‐

ния. Таблица  5: D1 Пол:

   Frequency  Percent  Valid Percent Cumulative Percent 

1  Мъж  415  41.5  41.5  41.5 2  Жена  585  58.5  58.5  100.0 

Valid 

Total  1000  100.0  100.0    

Page 38: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

36 

Таблица  6: DD2 Възраст в навършени години2

   Frequency  Percent  Valid Percent  Cumulative Percent          

15.00  5  .5  .5  1.716.00  8  .8  .8  2.517.00  6  .6  .6  3.118.00  10  1.0  1.0  4.119.00  9  .9  .9  5.020.00  7  .7  .7  5.721.00  17  1.7  1.7  7.422.00  11  1.1  1.1  8.523.00  9  .9  .9  9.424.00  11  1.1  1.1  10.525.00  11  1.1  1.1  11.626.00  12  1.2  1.2  12.827.00  13  1.3  1.3  14.128.00  6  .6  .6  14.729.00  15  1.5  1.5  16.230.00  9  .9  .9  17.131.00  6  .6  .6  17.732.00  10  1.0  1.0  18.733.00  19  1.9  1.9  20.634.00  14  1.4  1.4  22.035.00  23  2.3  2.3  24.336.00  14  1.4  1.4  25.737.00  17  1.7  1.7  27.438.00  23  2.3  2.3  29.739.00  8  .8  .8  30.5......       ......       81.00  2  .2  .2  99.182.00  1  .1  .1  99.283.00  3  .3  .3  99.584.00  4  .4  .4  99.985.00  1  .1  .1  100.0

  

Total  1000  100.0  100.0   

Променливата D1 (пол) не съдържа стойности, които да се нуждаят от ре‐

кодиране. Променливата DD2 (възраст) съдържа 12 стойности „0”,  т.е. за 12 рес‐пондента очевидно възрастта не е била регистрирана. За целите на преобразо‐ванието (а и по принцип) тези стойности би следвало да се рекодират като SYSTEM MISSING, тъй като са неизползваеми. 

2. Променливата DD2 се рекодира (RECODE INTO DIFFERENT VARIABLES) за да се получат описаните по‐горе 3 възрастови групи (нова променлива Х1). 

                                                        2 “Част от стойностите на таблицата (между 40.00 и 80.00) са изтрити с оглед пестенето на място. 

Page 39: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

37 

 Таблица  7: x1 Рекодирана възраст

   Frequency  Percent  Valid Percent Cumulative Percent 

1.00  15‐30  159  15.9  16.1  16.1 2.00  31‐60  528  52.8  53.4  69.5 3.00  61 +  301  30.1  30.5  100.0 

Valid 

Total  988  98.8  100.0    Missing  System  12  1.2      Total  1000  100.0      

3. Чрез COMPUTE се създава нова променлива (например Х2), която за 

всички случаи има стойност „0”. Тази стойност се избира, за да може след реали‐зация на процедурата IF непроменените стойности на нова променлива да оста‐нат нула. В конкретния случай при преобразуването непроменени ще останат стойностите за онези случаи, при които за коя да е от изходните променливи са налице липсващи стойности (USER MISSING или SYSTEM MISSING). 

4. Чрез процедурата IF се променят стойностите на новосъздадената (чрез COMPUTE) променлива. За целта в прозореца SYNTAX се записва следната поре‐дица от команди: Фигура  23 

  5. Прави се едномерно разпределение на Х2, за да се провери дали обеди‐

нението на D1 и Х2 отговаря на предварителните очаквания: например сумата на честотите за D1=1 (всички мъже) трябва да е равна на сумата на честотите за стойностите 1, 2 и 3 на Х2 (всички мъже). Респективно честотите на всички жени (D1 =2), трябва да е равна на сумата на честотите за стойностите 4, 5 и 6 на Х2 (Таблица  8). Проверката може да се направи и чрез двумерно разпределение на D1 и X1 (Таблица  9). 

Page 40: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

38 

Таблица  8: x2

   Frequency  Percent  Valid Percent Cumulative Percent 

.00  12  1.2  1.2  1.2 1.00  66  6.6  6.6  7.8 2.00  223  22.3  22.3  30.1 3.00  117  11.7  11.7  41.8 4.00  93  9.3  9.3  51.1 5.00  305  30.5  30.5  81.6 6.00  184  18.4  18.4  100.0 

Valid 

Total  1000  100.0  100.0    

Таблица  9: D1 Пол: * x1 Рекодирана възраст Crosstabulation Count

x1 Рекодирана възраст 1.00 15-30 2.00 31-60 3.00 61 + Total

1 Мъж 66 223 117 406 d1 Пол: 2 Жена 93 305 184 582

Total 159 528 301 988

Прегледът на резултатите в Таблица  8 показва, че нерекодирани са оста‐нали 12 стойности на х2. Това отговаря на броя на липсващите стойности на из‐ходната променлива възраст (DD2). 

Процедурата IF има широко приложение, тъй като позволява извършване‐то на преобразувания, които са ограничени единствено от въображението на изследователя. Най‐често тя се използва за логическо обединение на две или повече променливи. Подобно преобразуване най‐често има за цел да образува сложно‐съставни признаци. По този начин се изграждат типологии, които са ре‐зултат от обединението на няколко признака. 

Процедурата IF може да се използва и за чистене (редактиране) на данни. В този случай стойностите на дадена променлива се променят, при условие че стойностите на друга (други) променливи имат определени значения. Решение‐то на подобна задача изисква добра предварителна преценка на изходните дан‐ни. При големи масиви от данни възможностите за грешки в процеса на чистене са големи; непрецизният предварителен анализ най‐често води грешки. 

 

5: WEIGHT 

Процедурата WEIGHT се използва за включване на режим на претегляне на данните в даден масив (файл с данни). Това става като на някоя от променливи‐те във файла се придаде функцията на тегловна променлива. Включването на процедурата WEIGHT (weight on) задействува сложен статистико‐математически алгоритъм, който засяга изчисленията свързани с всички про‐менливи. Въздействието на претеглянето е в две главни посоки: 

1. Върху променливата, чиито стойности се коригират. Тук въздействието е „твърдо”: претегляната променлива се променя до пропорциите зададени от тегловната променлива. 

Page 41: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

39 

2. Върху всички останали променливи. Тук действието на тегловната про‐менлива е опосредено от силата на нейната връзка (корелация) с останалите променливи – колкото по‐силна е връзката, толкова по‐голямо е въздействието на претеглянето. 

Основната задача, която се решава при процедурата WEIGHT е свързана с конструирането на тегловната променлива. 

Пример: Дадено е следното разпределение на променливата Пол (D1), получено в 

резултат от представително емпирично изследване, което обхваща населението на България на възраст над 15 год. Таблица  10: d1 Пол:

Frequency Percent Valid Percent Cumulative

Percent 1 Мъж 415 41.5 41.5 41.5 2 Жена 585 58.5 58.5 100.0

Valid

Total 1000 100.0 100.0

На основата на данни от преброяването на населението е известно, че от‐носителният дял на жените при тази съвкупност е около 51%, а за мъжете – около 49%. От такава гледна точка, получените данни показват, че направената извадка е изкривена, тъй като наблюдаваният относителен дял на жените е 58.5%.  В този случай е необходимо да се създаде тегловна променлива, която би довела до корекция на наблюдаваното в извадката изкривяване и която ще промени съотношението мъже‐жени до 49:51. 

Тегловната променлива (W) ще съдържа 2 корекционни коефициента (по един за всяка от стойностите на променливата Пол), които ще намалят относи‐телният дял на жените (К2) и респ. ще увеличат относителният дял на мъжете (К1). 

K1 = 49/41.5 = 1.180722 K2 = 51/58.5 =  0.871794 Променливата W следва да приема някоя от стойностите на корекционния 

коефициент в зависимост от стойностите на променливата, по която искаме да претегляме данните, т.е. ако D1=1 то W=K1=1.180722, а ако D2=2, то W=K2= 0.871794.  

Създаването на променливата W и обвързването на нейните стойности със стойностите на променливата D1 може най‐удобно да се направи в синтактичен режим чрез следната поредица от команди: 

  

Page 42: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

40 

Фигура 24 

  Проверката на създадената тегловна променлива (W) може да се направи 

чрез едномерно разпределение, което показва какви стойности са присвоени на тегловните коефициенти. Двумерното разпределение на W и D1 показва обвър‐зването на тегловните коефициенти със стойностите на променливата D1.  Таблица  11: w Тегловна - пол-възраст

Frequency Percent Valid Percent Cumulative

Percent .87 585 58.5 58.5 58.5 1.18 415 41.5 41.5 100.0

Valid

Total 1000 100.0 100.0 Таблица  12: d1 Пол: * w Тегловна - пол-възраст Crosstabulation Count

w Тегловна - пол-възраст

.87 1.18 Total 1 Мъж 0 415 415d1 Пол: 2 Жена 585 0 585

Total 585 415 1000

Включването на функцията претегляне става по следния начин: 1. Влиза се в диалоговия прозорец: DATA > WEIGHT CASES; 2. Избира се режим Weight Cases By; 3. От списъка с променливи се избира тегловната променлива и с бутон „>„ 

се премества в поле „ frequency variable”. Включването на тегловна променлива води до изписване на съобщение Weight On в статусния ред (най‐долният) на SPSS.  

Page 43: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

41 

 Фигура  25 

 Ако изчислената тегловна променлива се „включи”, едномерното разпре‐

деление на D1 е следното:  Таблица  13: d1 Пол:

Frequency Percent Valid Percent Cumulative

Percent 1 Мъж 490 49.0 49.0 49.0 2 Жена 510 51.0 51.0 100.0

Valid

Total 1000 100.0 100.0

При извършване на пресмятания в SPSS може да бъде „включена” само ед‐на тегловна променлива. Ето защо, ако данните трябва да се претеглят по ня‐колко признака едновременно е необходимо да се образува съставна променли‐ва, която обединява всички значения на тези признаци. 

Друго важно условие за извършване на претеглянето е необходимостта да се разполага с данни за „истинските” значения на даден признак. При повечето изследвания подобни данни са налице от преброяването на населението за ос‐новните социално‐демографски признаци.  

Page 44: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

42 

 

6: SELECT CASES 

Процедурата SELECT CASES позволява да се извършват изчисления само върху част от даден масив данни (например мъжете или жените).  Процедурата се намира в меню DATA>SELECT CASES. Прилагането й изисква да се избере про‐менлива, чиито стойности ще бъдат използвани за разделяне на съвкупността. 

Пример: Като се използват данните за променливите Пол (D1) и Образование (D4), 

да се направи едномерно разпределение на образованието на жените.  Изходното разпределение на променливите D1 и D4 е следното: 

Фигура  26 

  При тази задача стойностите на променливата D1 (1=мъж и 2=жена) ще 

бъда използвани са разделяне на съвкупността. След разделяне на съвкупност‐та, работейки с данни, които отговарят на условието D1=2 (т.е. в масива данни ще са налице само данни за респондентите, които са жени) се прави едномерно разпределение на променливата D4.  Това разпределение ще показва образова‐телната структура на жените и ще съдържа общ брой случаи равен на броя на жените респонденти в масива с данни. 

Последователността на работа е следната: 

Page 45: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

43 

1.  В подпрозореца на меню DATA>SELECT CASES (Фигура  27)избираме оп‐цията If condition is satisfied. (Опцията All cases означава, че в изчисленията ще бъдат включени всички случаи). Фигура  27 

  2. В същия подпрозорец избираме между опциите Filtered или Deleted в по‐

лето Unselected Cases Are. Изборът на опцията Filtered означава (в случай че из‐бираме да работим само с респондентите от женски пол), че случаите на респон‐дентите от мъжки пол ще останат в работния файл, но само ще бъдат изключе‐ни от последващите изчисления. Последващото връщане към работа с целия ма‐сив данни става като отново се влезе в меню DATA>SELECT CASES и се избере опция All Cases.  

Изборът на опция Deleted води до трайно изтриване на данните за респон‐дентите‐мъже от масива с данни в работния файл. В този случай връщането към цели масив изисква да се зареди отново изходния файл с данни (FILE>OPEN>DATA). 

3. Дефинирането на условието за разделяне на масива с данни се прави с избор на бутон IF, като в съответният подпрозорец (Фигура  28) се избере филт‐риращата променлива и се зададе съответната стойност. В конкретния случай се избира D1, която следва да приеме стойност 2 (D1=2=жена), след което се избира бутон Continue. 

 

Page 46: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

44 

Фигура  28 

  4. В основния прозорец на процедурата ( Фигура  29) до бутона IF вече е за‐

писано въведеното условие (D1=2) и с бутон OK разделянето на масива може да бъде активирано. 

Активирането на процедурата SELECT CASES води до изобразяване на съ‐общение Filter On в статусния ред на DATA EDITOR>DATA VIEW. Текущият статус също се изобразява в основния прозорец на процедурата SELECT CASES под спи‐съка на променливите, където съобщенията могат да бъдат 1) Current status: Do not filter cases или 2) Current Status: Filter cases by values of filter_$. 

 Фигура  29 

  

Page 47: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

45 

 5. При включен филтър (D1=2), едномерните разпределения на променли‐

вите D1 и D4 изглеждат както следва: Фигура  30 

  

Получените две разпределения показват, че при изчисленията се работи само със съвкупността на жените. 

  *** 

Page 48: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

46 

   

ПРИЛОЖЕНИЕ 1: ОСНОВНИ МЕНЮТА (SPSS 13.0) 

Менютата на SPSS могат да се разделят на две групи.  Помощни (FILE, EDIT, UTILITIES, WINDOW, HELP), които съдържат команди 

и операции, свързани с обслужването на SPSS, четене и запис на файлове, прог‐рамни настройки и пр. Тяхното съдържание е подобно на повечето приложения, работещи под WINDOWS, но също така съдържа и някои особености, свързани с SPSS.  

Програмни – всички останали менюта (DATA, TRANSFORM, ANALYZE, GRAPHS). Те съдържат основните операции, свързани с преобразуването и обра‐ботката на данни. По принцип всеки елемент на тези менюта е свързан с опре‐делена процедура за анализ или модификация на данни и отваря диалогов про‐зорец, в който се задават основните параметри на съответната процедура. 

 

Меню FILE  

New  Отваря нов прозорец ‐ OUTPUT или SYNTAX. Става дума за отваряне на нов (празен) прозорец, а не за зареждане на файл който е бил създаден по‐рано.  Когато се използва опцията DATA се отваря нов файл с данни; в този слу‐чай е необходимо да се има предвид, че ако има вече зареден (отворен) файл с данни, той се замества от новия и ако е необходимо старите данни трябва да се запишат. При всяка сесия с SPSS може да има зареден само един файл с данни, върху който се извършват операциите; той се нарича активен файл (active data file). За другите два прозореца това не е валид‐но – могат да се отварят произволен брой прозорци OUTPUT или SYNTAX. 

Open  Това е основната команда, с която се отварят (зареждат) вече създадени файлове с данни (DATA: *.SAV), файлове с команди (SPSS Syntax: *.SPS), файлове с резултати от обработка на масиви с данни (SPSS Output: *.SPO) или файлове с графики (CHART: *.CHT).  След отварянето на файл съот‐ветният прозорец придобива името на файла. Другите две съществуващи опции в това подменю (Oracle, SQL Server) няма да бъдат разглеждани в настоящото изложение. 

Read ASCII Data   Close  Затваря активният в момента прозорец. Save Data Save SPSS Syntax Save SPSS Output  Save As 

SAVE записва данните от активния прозорец. Ако прозорецът е бил „пра‐зен” при отварянето (т.е. не е зареден вече съществуващ файл) SPSS изисква въвеждането на име като предлага описаните по‐горе разшире‐ния (в зависимост от това кой прозорец в момента е активен). В този смисъл, ако записваме новосъздаден файл, SAVE действува като SAVE AS Налице е съществена разлика между SAVE и SAVE AS по отношение на прозореца NEWDATA. Когато се съхранява новосъздаден файл (или съ‐ществуващ файл се записва с друго име) се отваря диалогов прозорец изискващ освен името да се избере и типът файл, който ще се запише. Възможностите в това отношение са следните: SPSS: формат на файл в SPSS 

Page 49: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

47 

SPSS/PC+: формат на файл в SPSS във версия за ДОС SPSS Portable: формат на файл в SPSS в т.нар. преносима версия (създава възможности за импортиране на файловете от други програми) Tab delimited: текстов файл в който данните за всяка променлива са раз‐делени от табулатор Fixed ASCII: текстов файл в който данните за всяка променлива се запис‐ват по редове на точно определена позиция Excel: файл в формат на Excel 1‐2‐3 Release 3.0/2.0/1.0 (Lotus): файл в формат на Lotus SYLK: файл в формат на SYLK dBASE IV/II/II: файл в формат на dBASE 

 Display Data Info  Команда, която извежда в прозорец OUTPUT основните параметри за да‐

ден файл с данни (виж таблица ??). Apply Data Dictionary 

Команда, която дава възможност да се използуват дефинициите на про‐менливите от друг файл. За да бъде изпълнена тази команда е необхо‐димо да има активен файл с данни. При изпълнение на командата дефи‐нициите на променливите от указания в диалоговия прозорец файл се копират върху активния файл.  NB: Ако в активния файл има въведени дефиниции, те се заместват от дефинициите на файла, който се използва за източник. Към активният файл се копират и тегловните променливи (ако има такива) на файла‐източник. 

Apply Chart Template 

Командата е аналогична на Apply Data Dictionary, но се отнася за наст‐ройките на графики, изготвени в SPSS 

Print Printer Setup 

Команда за печат и настройка на използвания принтер 

Stop SPSS Processor  Командата спира изпълнението на вече задействувани процеси на из‐числение. 

Exit  Изход от SPSS 

  Таблица 1: Пример за данни от изпълнението на командата  Display Data Info   File c:\spsswin\files\corall_i.sav   Created:  17 Apr 03  15:57:31 ‐ 224 variables and 13,351 cases   File Type:  SPSS Data File       N of Cases: 13351         Total # of Defined Variable Elements: 224   Data Are Not Weighted       Data Are Compressed         File Contains Case Data       Variable Information:     Name           Position   

T1  Номер на интервю    1       Format: F5     T2_1  Код на областта    2       Format: F2       Value  Label         1  Благоевград       2  Бургас       

Page 50: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

48 

  3  Варна         4  Велико Търново       5  Видин         6  Враца       A1A  Политическа нестабилност  3       Format: F1       Value  Label         0  Не         1  Да       A1B  Етнически проблеми    4       Format: F1       Value  Label         0  Не         1  Да       A1C  Корупцията      5       Format: F1       Value  Label         0  Не         1  Да       

 

Меню EDIT  

Undo Cut Copy 

 Имат същото действие като всички приложения, работещи под WINDOWS 

Copy Table   Copy Chart   Paste Clear Select All Search for Data Search for Text Replace Text 

  

Имат същото действие като всички приложения, работещи под WINDOWS 

Round  Функция, закръгляваща резултатите в прозореца OUTPUT. За да бъде използвана е необходимо съответните резултати да бъдат маркира‐ни, а в диалоговия прозорец да се укаже броят на знаците след десе‐тичната точка (NUMBER OF DECIMALS) до който следва са се извърши закръгляването. 

Preferences  Отваря прозорец, в който се извършват основните настройки на SPSS. 

 

Page 51: ОБРАБОТКА И АНАЛИЗ НА ДАННИ СЪС SPSS · 1 ВЪВЕДЕНИЕ Програмният продукт SPSS (Statistical Package for the Social Sciences) появя‐

49 

 

Меню UTILITIES  

Command Index  Функция, която извежда диалогов прозорец със списък на всички ко‐манди подредени в азбучен ред. Забележка: с посочените в списъка команди се работи в синтактичен режим. 

Fonts  Функция, която извежда диалогов прозорец с шрифтове и техните размери. Промяната на шрифта засяга онзи прозорец, който в момен‐та е активен. 

Variables  Функция, която извежда диалогов прозорец със списък на променли‐вите в активния файл. В лявата част на прозореца са изредени про‐менливите, а в дясната се появява описание за онази променлива, ко‐ято в момента е маркирана. 

File Info  Функция, която извежда в прозорец OUTPUT данни за активния файл: дължина, брой променливи и данни за всяка променлива. Забележка: функцията има същото действие като Display Data Info, но се изпъл‐нява по отношение на активния файл. 

Output Page Titles  Функция, която извежда диалогов прозорец, в който се въвежда заг‐лавие. Последното се появява в началото на всяка страница в прозо‐реца OUTPUT. Забележка: в настройките на SPSS се указва каква да е дължината на всяка OUTPUT страница. 

Define Sets  Функцията извежда диалогов прозорец, в който се дефинират групи променливи. Използува се за улеснение в работата, когато в активния файл има много променливи, а се работи само с някои от тях. Забе‐лежка: функцията е активна, когато активен прозорец е OUTPUT. 

Grid Lines  Функция, която визуализира или премахва „мрежата” от линии в про‐зореца NEWDATA. 

Value Labels  Функция, която избира един от двата възможни режима на изобразя‐ване на данните в прозореца NEWDATA: или се показват конкретно въведените стойности за всяка променлива или се показват етикети‐те на тези стойности (ако има въведени такива). 

Auto New Case  Когато е включена тази функция придвижването на курсова надолу по таблицата води до автоматичното „създаване” на нов случай. Ако не е включена, „създаването” на нов случай става с въвеждането на данни за него по променливи. 

Designate Window  Изпълнението на тази функция в прозорците OUTPUT или SYNTAX „насочва” резултатите или командите (когато се използва функцията PASTE) към активния в момента прозорец.