107
Негосударственное образовательное учреждение высшего профессионального образования Центросоюза Российской Федерации СИБИРСКИЙ УНИВЕРСИТЕТ ПОТРЕБИТЕЛЬСКОЙ КООПЕРАЦИИ ЗАБАЙКАЛЬСКИЙ ИНСТИТУТ ПРЕДПРИНИМАТЕЛЬСТВА А. Г. Калинин ОБРАБОТКА ДАННЫХ МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ Монография Чита 2015

ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

Негосударственное образовательное учреждение

высшего профессионального образования

Центросоюза Российской Федерации

СИБИРСКИЙ УНИВЕРСИТЕТ ПОТРЕБИТЕЛЬСКОЙ КООПЕРАЦИИ

ЗАБАЙКАЛЬСКИЙ ИНСТИТУТ ПРЕДПРИНИМАТЕЛЬСТВА

А. Г. Калинин

ОБРАБОТКА ДАННЫХ МЕТОДАМИ

МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Монография

Чита

2015

Page 2: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

2

УДК 311.2

ББК 22.172

К 35

Рецензент:

заведующий кафедрой высшей математики и прикладной ин-

форматики Забайкальского института железнодорожного транс-

порта – филиала Иркутского государственного университета путей

сообщения, кандидат физико-математических наук, доцент

Н. В. Пешков.

Калинин А. Г.

К 35 Обработка данных методами математической статистики:

монография / А. Г. Калинин. – Чита : ЗИП СибУПК, 2015. –

106 с.

ISBN 978-5-89807-182-0

Изложены теоретические основы обработки статистических

данных. Рассмотрены различные формы, типичные формулировки

тестовых заданий, даны рекомендации по их составлению. Приведён

обзор программных автоматизированных средств обработки данных.

Монография предназначена для преподавателей, аспирантов и

студентов, изучающих вопросы обработки статистических данных.

УДК 311.2

ББК 22.172

ISBN 978-5-89807-182-0 © Калинин А. Г., 2015

© Забайкальский иститут

предпринимательства

Сибирского университета

потребительской кооперации, 2015

Page 3: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

3

ОГЛАВЛЕНИЕ

Введение……………………………….….……………. 4

1. Данные ................................................................................... 5

2. Обработка данных ................................................................ 9

3. Статистика .......................................................................... 11

3.1. Развитие представлений о статистике .............................. 13

3.2. Краткая история статистических методов ....................... 15

3.3. Статистические методы ...................................................... 16

3.4. Классификация статистических методов ......................... 28

3.5. Прикладная статистика ...................................................... 28

3.6. Статистический анализ конкретных данных ................... 31

3.7. Перспективы развития ........................................................ 31

4. Интеллектуальный анализ данных ................................... 32

4.1. Задачи, решаемые ИАД ...................................................... 32

4.2. Алгоритмы обучения .......................................................... 33

4.3. Этапы обучения ................................................................... 33

5. Основы статистической обработки данных .................... 35

5.1. Расчёт показателей вариации ............................................ 35

5.2. Ряды Динамики. .................................................................. 42

5.3. Выборочное наблюдение .................................................. 52

5.4. Основы статистической обработки экспериментальных

данных ......................................................................................... 61

6. Краткий обзор программных средств для обработки

данных ......................................................................................... 90

6.1. Система SAS ....................................................................... 92

6.2. Пакет SPSS для Windows .................................................. 93

6.3. Универсальная статистическая система SYSTAT .......... 93

6.4. Пакет MINITAB ................................................................. 94

6.5. Пакет STATISTICA 6.0...................................................... 95

6.6. Российский статистический пакет STADIA ................... 96

6.7. STATGRAPHICS 5.1 for Windows .................................... 97

Заключение………….……...………………………. 98

Глоссарий…………………………………………… 99

Библиографический список………………… 104

Page 4: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

4

ВВЕДЕНИЕ

С незапамятных времен человечество осуществляло

учет многих сопутствующих его жизнедеятельности явлений

и предметов и связанные с ним вычисления. Люди получали

разносторонние, хотя и различающиеся полнотой на различ-

ных этапах общественного развития данные, учитывавшиеся

повседневно в процессе принятия хозяйственных решений. А

в обобщенном виде – и на государственном уровне при опре-

делении русла экономической и социальной политики и ха-

рактера внешнеполитической деятельности.

Всесторонний и глубокий анализ этой информации, так

называемых статистических данных, предполагает использо-

вание различных специальных методов для их обработки.

Обработка статистических данных уже давно применя-

ется в самых разнообразных видах человеческой деятельно-

сти. Трудно назвать ту сферу, в которой она бы не применя-

лась.

Использование возможностей современной вычисли-

тельной техники, оснащенной пакетами программ машинной

обработки статистической информации на ЭВМ, делает прак-

тически осуществимым оперативное решение задач изучения

взаимосвязей различных исследуемых параметров.

При машинной обработке исходной информации на

ЭВМ, оснащенных пакетами стандартных программ ведения

анализов, вычисление параметров применяемых математиче-

ских функций является быстро выполняемой счетной опера-

цией.

Некоторые теоретические основы обработки данных ос-

вящаются в предлагаемой монографии.

Page 5: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

5

1. ДАННЫЕ

В настоящее время учёные не пришли к единому мне-

нию о том, что такое информация, не дали однозначного оп-

ределения этому понятию, а вот в отношении к связанному с

информацией понятию «данные» имеется большая опреде-

лённость. Так, согласно известному интернет-ресурсу

wikipedia: д (калька от лат. data) это представле-

ние фактов и идей в формализованном виде, пригодном

для передачи и обработки в некотором информационном

процессе. Изначально, это данные величины, т.е. величины, за-

данные заранее вместе с условием задачи. Противополож-

ность им переменные величины. Данные это зарегистри-

рованные сигналы. Данные могут рассматриваться как запи-

санные наблюдения, которые не используются, а пока хра-

нятся.

Если данные ориентированы на их понимание челове-

ком непосредственно при их восприятии или после их неко-

торого преобразования, то они содержат в себе информацию.

Возможна ситуация, когда данные не содержат информацию,

на настоящее время доступную человеку. Человек способен

извлекать информацию не из всех доступных для него дан-

ных. Например, шифрование информации делает ее недос-

тупной для всех, кто не имеет ключа расшифровывания.

Шифротекст содержит информацию, но она недоступна.

Представление о данных может несколько меняться в

зависимости от предметной области. Так в информатике, с

точки зрения программиста, данные это часть программы,

совокупность значений определённых ячеек памяти, преобра-

зование которых осуществляет код. С точки зрения компиля-

тора, процессора, операционной системы это совокупность

ячеек памяти, обладающих определёнными свойствами (воз-

можность чтения и записи).

Контроль за доступом к данным в современных компь-

ютерах осуществляется аппаратно. В соответствии с принци-

пом фон Неймана одна и та же область памяти может высту-

Page 6: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

6

пать как в качестве данных, так и в качестве исполнимого ко-

да.

В информатике традиционно выделяют два типа данных

двоичные (бинарные) и текстовые. Двоичные данные обра-

батываются только специализированным программным обес-

печением, знающим их структуру, все остальные программы

передают данные без изменений. Текстовые данные воспри-

нимаются передающими системами как текст, записанный на

каком-либо языке. Для них может осуществляться перекоди-

ровка (из кодировки отправляющей системы, в кодировку

принимающей), заменяться символы переноса строки, изме-

няться максимальная длина строки, изменяться количество

пробелов в тексте.

Передача текстовых данных, как бинарных, приводит к

необходимости изменять кодировку в прикладном программ-

ном обеспечении (это умеет большинство прикладного ПО,

отображающего текст, получаемый из разных источников),

передача бинарных данных, как текстовых, может привести к

их необратимому повреждению.

В объектно-ориентированном программировании поня-

тие типа данных обобщается до класса, элементами которого

являются объекты. Данные объектов могут обрабатываться

функциями как класса, которому принадлежат сами, либо

функциями других объектов, имеющими для этого возмож-

ность. В языках разметки данные имеют различное отобра-

жение в зависимости от выбранного способа представления.

В отличие от операций (действие, процесс) по работе с дан-

ными (сказуемое с возможными его обстоятельствами и до-

полнениями), выражаются подлежащим (с возможными его

определениями).

Издавна в каждом государстве соответствующими орга-

нами власти собирались сведения о числе жителей по полу,

возрасту, занятости в различных сферах труда, наличии раз-

личных воинов, вооружения, денежных средств, орудий тру-

да, средств производства и т.д. Все эти и подобные им дан-

ные называются статистическими.

Под статистическими данными в этом случае понимают

совокупность количественных характеристик социально-

Page 7: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

7

экономических явлений и процессов, полученных в результа-

те статистического наблюдения, их обработки или соответст-

вующих расчетов.

С развитием государства и международных отношений

возникла необходимость анализа статистических данных, их

прогнозирования, обработки, оценки достоверности, осно-

ванных на их анализе выводов и т.п. К решению таких задач

стали привлекаться математики. Таким образом, в математи-

ке сформировалась новая область — математическая стати-

стика, изучающая общие закономерности статистических

данных или явлений и взаимосвязи между ними.

Сфера применения математической статистики распро-

странилась во многие науки и, в первую очередь, в экспери-

ментальные. Так появились экономическая статистика, меди-

цинская статистика, биологическая статистика, статистиче-

ская физика и т.д.

С появлением быстродействующих ЭВМ возможность

применения математической статистики в различных сферах

деятельности человека постоянно возрастает.

В настоящее время под термином «статистические дан-

ные» понимают все собранные сведения, которые в дальней-

шем подвергаются статистической обработке. В различной

литературе их еще называют: переменные, варианты, вели-

чины, даты и т.д. Все статистические данные можно разде-

лить на:

качественные, труднодоступные для измерения (имеет-

ся, не имеется; больше, меньше; сильно, слабо; крас-

ный, черный; мужской, женский и т.д.);

и количественные, которые можно измерить и пред-

ставить в виде числа общих мер (2 кг, 3 м, 10 раз, 15 с и

т.д.);

точные, величина или качество которых не вызывают

сомнений (в группе 6 человек, 5 столов, деревянный,

металлический, мужской, женский и т.д.),

и приближенные, величина или качество которых вы-

зывает сомнение (все измерения: рост 170 см, вес 56 кг,

результат бега на 100 м 10,3 с и т.д.);

Page 8: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

8

близкие понятия синий, голубой, мокрый, влажный и

т.д.);

определенные (детерминированные), причины появле-

ния, не появления или изменения которых известны (2

+ 3 = 5, подброшенный вверх камень обязательно будет

иметь вертикальную скорость, равную 0 и т.д.);

и случайные, которые могут появляться и не появлять-

ся или не все причины, изменения которых известны

(пойдет дождь или нет, родится девочка или мальчик,

команда выиграет или нет, в беге на 100 м 12,2 с,

принятая нагрузка вредна или нет).

Общее свойство, присущее нескольким статистическим

данным, называют их статистическим признаком.

Статистической совокупностью называют несколько

статистических данных, объединенных в группу хотя бы од-

ним статистическим признаком.

Число данных в статистической совокупности называют

ее объемом и обозначают n. Различают следующие совокуп-

ности:

бесконечные n (масса планет Вселенной, чис-

ло молекул и т.д.);

конечные n конечное число;

большие n > 30;

малые n 30;

генеральные содержащие все данные, обуслов-

ленные постановкой задачи;

выборочные части генеральных совокупностей.

Page 9: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

9

2. ОБРАБОТКА ДАННЫХ

На настоящий момент, по большему счёту, единствен-

ное известное человеку «устройство для обработки информа-

ции» это сам человек. Поэтому, то, что называют совре-

менными «информационными технологиями», сводится, по

большей части, к обработке данных с помощью различных

методов, включая применение современных компьютеров и

программ для них, а также методы создания и издания: книг,

фильмов, музыки, веб-сайтов, справочников, учебных посо-

бий и т.п.

Для повышения качества представления человеку дан-

ные преобразуются из одного вида в другой с помощью ме-

тодов обработки.

Типичные цели обработки данных, это:

собрать всю доступную информацию, представленную в

данных различной природы;

отделить существенную информацию, представленную

данными, от несущественной, для рассмотрения в дан-

ный момент;

представить существенную информацию в виде, наибо-

лее удобном для восприятия человеком.

Обработка данных включает операции:

ввод (сбор) данных — накопление данных с целью

обеспечения достаточной полноты для принятия реше-

ний:

o ввод данных в различные информационные систе-

мы:

автоматический ввод данных;

ручной ввод данных;

формализация данных приведение данных, посту-

пающих из разных источников, к одинаковой форме,

для повышения их доступности;

фильтрация данных это отсеивание «лишних» данных,

в которых нет необходимости для повышения достовер-

ности и адекватности;

Page 10: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

10

сортировка данных это упорядочивание данных по за-

данному признаку с целью удобства использования;

архивация это организация хранения данных в удоб-

ной и легкодоступной форме, в том числе:

o длительное хранение данных;

o надёжность хранения данных;

o учёт и инвентаризация данных;

защита данных включает меры, направленные на пре-

дотвращение утраты, воспроизведения и модификации

данных, контроль доступа к данным;

транспортировка данных прием и передача данных

между участниками информационного процесса;

преобразование данных это перевод данных из одной

формы в другую или из одной структуры в другую;

представление данны:

o текстовое представление данных;

o табличное представление данных;

o графическое представление данных;

o визуальное представление данных;

o форматы представления данных в различных ин-

формационных системах.

Page 11: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

11

3. СТАТИСТИКА

отрасль знаний, в которой излагают-

ся общие вопросы сбора, измерения и анализа массовых

статистических (количественных или качественных)

данных.

Слово «статистика» происходит от латинского status

состояние, положение вещей с точки зрения закона.

В настоящее время насчитывается около тысячи опре-

делений статистики. Дать определение статистики как науки

пытались философы, математики, экономисты, социологи,

государственные деятели и, конечно, сами статистики.

Первоначально оно употреблялось в значении «полити-

ческое состояние». В науку термин «статистика» ввел немец-

кий ученый Готфрид Ахенваль в 1746 году, предложив заме-

нить название курса «Государствоведение», преподававшего-

ся в университетах Германии, на «Статистику», положив, тем

самым, начало развитию статистики как науки и учебной

дисциплины. Несмотря на это, статистический учет велся на-

много раньше: проводились переписи населения в Древнем

Китае, осуществлялось сравнение военного потенциала госу-

дарств, велся учет имущества граждан в Древнем Риме и

пр.[1]

Оставаясь на протяжении многих лет «государствоведе-

нием», статистика постепенно отходила от описания досто-

примечательностей (их текстового изложения). Тем более,

что с развитием знаний вопросами государствоведения стали

заниматься многие науки.

Статистика - одна из общественных наук, имеющая це-

лью сбор, упорядочивание, анализ и сопоставление числово-

го представления фактов, относящихся к самым разнообраз-

ным массовым явлениям. Это, вместе с тем, учение о системе

показателей, т. е. количественных характеристик, дающих

всестороннее представление об общественных явлениях, о

национальном хозяйстве в целом и отдельных его отраслях.

Статистика - это эффективное орудие, инструмент по-

знания, используемый в естественных и общественных нау-

Page 12: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

12

ках для установления тех специфических закономерностей,

которые действуют в конкретных массовых явлениях, изу-

чаемых данной наукой.

Статистика это также одна из форм практической дея-

тельности людей, цель которой сбор, обработка и анализ мас-

совых данных о тех или иных явлениях. Когда мы говорим:

государственная и ведомственная статистика РФ, организа-

ция статистики в России, то имеем в виду особую форму

практической деятельности людей.

Статистикой называют также различного рода числовые

или, как часто говорят, цифровые данные, характеризующие

различные стороны жизни государства: политические отно-

шения, культуру, население, производство и т. д.

Статистика разрабатывает специальную методологию

исследования и обработки материалов: массовые статистиче-

ские наблюдения, метод группировок, средних величин, ин-

дексов, балансовый метод, метод графических изображений и

другие методы анализа статистических данных. Статистика

как наука включает разделы: теоретическая статистика (об-

щая теория статистики), прикладная статистика, математиче-

ская статистика, экономическая статистика, эконометрика,

правовая статистика, демография, медицинская статистика,

технометрика, хемометрика, биометрика, наукометрика,

иные отраслевые статистики и др.

В России формированием официальной статистической

информации занимается Федеральная служба государствен-

ной статистики (Росстат).

Статистикой называется также набор определенных ста-

тистических данных (статистика смертности, статистика по-

сещений сайта, …).

В математической статистике статистикой называют

измеримую функцию наблюдений.

Иногда слово «статистика» может употребляться одно-

временно в нескольких значениях. Известный английский

статистик У. Дж. Рейхман (р. 1920) заметил: «Мы живем в

век статистики. Едва ли не в каждом своем аспекте явления

природы, а также человеческая и прочая деятельность под-

даются сейчас измерению при помощи статистических пока-

Page 13: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

13

зателей» (Рейхман У. Дж. Применение статистики. - М.: Ста-

тистика, 1969. - С. 11).

Широко распространенное представление о вседоказан-

ности любого явления с помощью статистики, слишком пре-

увеличено. Однако несомненно и то, что статистические ме-

тоды могут ввести людей в заблуждение. Иногда одно и то

же явление даже квалифицированные специалисты, во всех

тонкостях знающие статистику, могут объяснить по-разному,

принять ложное утверждение и отвергнуть правильное.

Принятие утверждения как истинного в известной мере

зависит от субъективных особенностей исследователя. Сле-

довательно, выводы, которые делаются на основании стати-

стических данных, не всегда однозначны.

Сила статистики и в том, что она на основе анализа раз-

розненных, как бы пестрящих случайностями данных, помо-

гает исследователю проникнуть в существо изучаемых явле-

ний.

3.1. Развитие представлений о статистике

Первая опубликованная статистическая информация по-

является уже в «Книге чисел» в Ветхом Завете, в которой

рассказано о переписи военнообязанных, проведённой под

руководством Моисея и Аарона. Впервые термин «статисти-

ка» встречается в художественной литературе в «Гамлете»

Шекспира. Смысл этого слова у Шекспира знать, придвор-

ные. Оно происходит от латинского слова status, что в ориги-

нале означает «состояние» или «политическое состояние».

В течение следующих 400 лет термин «статистика» по-

нимали и понимают по-разному. Вначале под статистикой

понимали описание экономического и политического состоя-

ния государства или его части. Например, к 1792 г. относится

определение: «статистика описывает состояние государства в

настоящее время или в некоторый известный момент в про-

шлом». И в настоящее время деятельность государственных

статистических служб вполне укладывается в это определе-

ние.[2]

Page 14: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

14

Однако постепенно термин «статистика» стал использо-

ваться более широко. По Наполеону Бонапарту, «статистика

это бюджет вещей». Тем самым статистические методы

были признаны полезными не только для административного

управления, но и для применения на уровне отдельного

предприятия. Согласно формулировке 1833 г., «цель стати-

стики заключается в представлении фактов в наиболее сжа-

той форме».[2]

В ХХ в. статистику часто рассматривают, прежде всего,

как самостоятельную научную дисциплину. Статистика есть

совокупность методов и принципов, согласно которым про-

водится сбор, анализ, сравнение, представление и интерпре-

тация числовых данных. В 1954 г. академик АН УССР Б. В.

Гнеденко дал следующее определение: «Статистика состоит

из трёх разделов[3]:

сбор статистических сведений, то есть сведений, харак-

теризующих отдельные единицы каких-либо массовых

совокупностей;

статистическое исследование полученных данных, за-

ключающееся в выяснении тех закономерностей, кото-

рые могут быть установлены на основе данных массово-

го наблюдения;

разработка приёмов статистического наблюдения и ана-

лиза статистических данных. Последний раздел, собст-

венно, и составляет содержание математической стати-

стики».

Термин «статистика» употребляют ещё в двух смыслах.

Во-первых, в обиходе под «статистикой» часто понимают на-

бор количественных данных о каком-либо явлении или про-

цессе. Во-вторых, статистикой называют функцию от резуль-

татов наблюдений, используемую для оценивания характери-

стик и параметров распределений и проверки гипотез.

Page 15: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

15

3.2. Краткая история статистических методов

Часто слово «статистика» употребляется в качестве бо-

лее короткого эквивалента для слов «статистические мето-

ды». Статистические методы можно охарактеризовать как

методы, применяемые при сборе, представлении, анализе и

интерпретации данных. В качестве примера можно упомя-

нуть о методах, применяемых при сборе данных о совокуп-

ности студентов вузов, обработке этих данных, обобщении и

представлении в виде различных итоговых абсолютных, от-

носительных и средних показателей с помощью графиков,

таблиц.

Применение статистических методов особенно важно

там, где из больших массивов данных требуется выделить

полезную для нас информацию.

Типовые примеры раннего этапа применения статисти-

ческих методов описаны в Библии, в Ветхом Завете. Там, в

частности, приводится число воинов в различных племенах.

С математической точки зрения дело сводилось к подсчёту

числа попаданий значений наблюдаемых признаков в опре-

делённые градации.

Сразу после возникновения теории вероятностей (Пас-

каль, Ферма XVII век) вероятностные модели стали исполь-

зоваться при обработке статистических данных. Например,

изучалась частота рождения мальчиков и девочек, было уста-

новлено отличие вероятности рождения мальчика от 0.5, ана-

лизировались причины того, что в парижских приютах эта

вероятность не та, что в самом Париже, и т. д.

В 1794 г. (по другим данным в 1795 г.) К.Гаусс разра-

ботал метод наименьших квадратов, один из наиболее попу-

лярных ныне статистических методов, и применил его при

расчёте орбиты астероида Церера для борьбы с ошибками

астрономических наблюдений.[4]

В XIX веке заметный вклад в развитие практической

статистики внёс бельгиец Кетле, на основе анализа большого

числа реальных данных показавший устойчивость относи-

Page 16: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

16

тельных статистических показателей, таких, как доля само-

убийств среди всех смертей.[5]

Современный этап развития статистических методов

можно отсчитывать с 1900 г., когда англичанин К. Пирсон

основал журнал «Biometrika».

Первая треть ХХ в. прошла под знаком параметриче-

ской статистики. Изучались методы, основанные на анализе

данных из параметрических семейств распределений, описы-

ваемых кривыми семейства Пирсона. Наиболее популярным

было нормальное распределение. Для проверки гипотез ис-

пользовались критерии Пирсона, Стьюдента, Фишера. Были

предложены метод максимального правдоподобия, дисперси-

онный анализ, сформулированы основные идеи планирова-

ния эксперимента.

Разработанную в первой трети ХХ в. теорию анализа

данных называют параметрической статистикой, поскольку

её основной объект изучения — это выборки из распределе-

ний, описываемых одним или небольшим числом парамет-

ров. Наиболее общим является семейство кривых Пирсона,

задаваемых четырьмя параметрами. Как правило, нельзя ука-

зать каких-либо веских причин, по которым распределение

результатов конкретных наблюдений должно входить в то

или иное параметрическое семейство. Исключения хорошо

известны: если вероятностная модель предусматривает сум-

мирование независимых случайных величин, то сумму есте-

ственно описывать нормальным распределением; если же в

модели рассматривается произведение таких величин, то

итог, видимо, приближается логарифмически нормальным

распределением и т. д.

3.3. Статистические методы

методы анализа статистиче-

ских данных. Выделяют методы прикладной статистики, ко-

торые могут применяться во всех областях научных исследо-

ваний и любых отраслях народного хозяйства, и другие ста-

тистические методы, применимость которых ограничена той

или иной сферой. Имеются в виду такие методы, как стати-

Page 17: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

17

стический приемочный контроль, статистическое регулиро-

вание технологических процессов, надежность и испытания,

планирование экспериментов.

Существует две основных группы статистических мето-

дов: методы статистического наблюдения и методы обработ-

ки и анализа статистических данных.

Входящие в состав метода статистического наблюдения

отчётность, переписи и др. позволяют получить массовые и

надёжные материалы о различных социальных или экономи-

ческих явлениях. Группировки, балансовый метод, исчисле-

ние средних величин (метод средних), исчисление индексов

(индексный метод), графический метод и т.д. - являются спе-

цифическими для статистики методами обработки данных.

Большое значение для обработки результатов наблюде-

ния во многих областях имеет метод теории вероятности и

метод математической статистики. Эти методы применяются

для изменения ошибки выборки, анализа связи между факто-

рами и оценки надёжности результатов. В процессе статисти-

ческого исследования, статистические методы применяются

комплексно.

Различные специфические методы исследования, взаи-

мосвязанные между собой, образуют в своей совокупности

статистическую методологию. Важнейшими составными

элементами статистической методологии являются:

массовое наблюдение;

группировки, применение обобщающих (сводных) ха-

рактеристик;

анализ и обобщение статистических фактов и обнару-

жение закономерностей в изучаемых явлениях.

Статистическое исследование всегда начинается с под-

готовки по организации этого исследования. Работы по орга-

низации делятся на самостоятельные этапы или стадии:

статистическое наблюдение;

сводка и обработка материалов;

анализ данных.

Page 18: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

18

На первом этапе происходит сбор массовых статистиче-

ских данных с помощью первичного учёта и систематической

регистрации.

Первичный статистический учет является научной, спе-

циально организованной регистрацией признаков каждой

единицы совокупности и записью их в определенных доку-

ментах.

К статистическим данным, пригодным для обобщения,

предъявляется ряд требований:

данные должны быть максимально полными, но не от-

рывочными, случайно выхваченными;

данные должны быть абсолютно достоверными и точ-

ными;

данные должны соответствовать принципу единообра-

зия, сопоставимости;

данные должны соответствовать принципу своевремен-

ности (сбор должен быть организован только в строго

определенное время);

данные должны быть представлены так же в срочном

порядке.

Объектом статистического наблюдения называется та

совокупность, о которой должны быть собраны необходимые

сведения. Объектом наблюдения может быть, например:

совокупность фермерских хозяйств республики (или же

какого-либо района);

совокупность ВУЗ-ов;

совокупность промышленных предприятий и т.д.

Единицей наблюдения называют тот составной элемент

объекта наблюдения, который является носителем признаков,

подлежащих регистрации. В одном каком-либо наблюдении

может быть не одна, а несколько единиц наблюдения. Так,

при переписи населения, например, единицей наблюдения

может быть или человек (житель), или семья, или то и дру-

гое.

Единицы наблюдения, как и объект в целом, обладают,

как правило, множеством различных признаков. Все их

Page 19: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

19

учесть невозможно. Поэтому необходимо определить, какие

признаки следует регистрировать в процессе наблюдения.

Перечень признаков, регистрируемых в процессе на-

блюдения, называют программой статистического наблюде-

ния. Наряду с составлением перечня признаков, включаемых

в программу наблюдения, важное значение имеет также точ-

ное, ясное и исчерпывающее определение каждого признака.

Точная и исчерпывающая формулировка вопросов про-

граммы необходима для того, чтобы обеспечить одинаковое

их понимание всеми участвующими в наблюдении лицами. В

этих целях часто в формулировку вопросов включается так

называемый подсказ, т.е. варианты возможных ответов.

Статистическое наблюдение может производиться в

двух основных формах: в форме отчетности и в форме специ-

ально организованных статистических обследований.

Специальные статистические обследования освещают

моменты, не охватываемые статистической отчетностью, и

служат средством для проверки и анализа материалов этой

отчетности, дают дополнительный материал как для нацио-

нально-хозяйственного прогнозирования и оперативных ме-

роприятий, так и для познания закономерностей развития

экономики. Для изучения особенностей и закономерностей

общественных явлений применяются различные виды и спо-

собы сбора статистических сведений.

В зависимости от задач исследования и конкретных ус-

ловий статистическое наблюдение может быть единовремен-

ным или текущим.

Единовременное наблюдение – запись признаков еди-

ниц наблюдения, приуроченная к данному «критическому

моменту» времени. Единовременное наблюдение или учет

состояния проводится через некоторые периоды времени и

охватывает длительно существующую совокупность. Такое

наблюдение проводится для определения численности, со-

става и качественных особенностей совокупности.

Программа сбора сведений в этом случае должна быть

в основном аналогичной содержанию предшествующих еди-

новременных наблюдений.

Page 20: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

20

Текущее наблюдение или текущий учет ведется для оп-

ределения измерений состояния явления. Единицы наблюде-

ния и их признаки регистрируются в момент возникновения

или же в ближайший после этого момент времени.

Материалы единовременного и текущего наблюдений

взаимно дополняют друг друга; создается возможность полу-

чения данных на любой момент времени или за любой пери-

од времени.

Сплошное наблюдение - учет всех без исключения еди-

ниц в пределах данной совокупности, например, перепись

всех видов оборудования или материалов в данном предпри-

ятии. Материалы сплошного наблюдения позволяют выде-

лить в составе изучаемой массы единицы качественно одно-

родной группы и определить по каждой группе средние ве-

личины по наиболее существенным признакам.

Единовременное и текущее наблюдения осуществляют-

ся в форме сплошного наблюдения, если необходимо полу-

чить сведения об объеме изучаемых явлений. Организация

сплошного наблюдения не всегда возможна и целесообразна,

особенно для контроля за качеством продукции. В этом слу-

чае сплошное наблюдение приводит к исключению из сферы

практического использования массы продукции предпри-

ятий. Поэтому необходимо осуществлять несплошное (час-

тичное) наблюдение - учитывать только часть единиц сово-

купности, по которой составляют представление о характер-

ных особенностях изучаемого явления в целом.

Несплошное наблюдение имеет определенные преиму-

щества по сравнению со сплошным наблюдением:

требуется значительно меньше затрат труда и средств, в

связи с уменьшением числа обследуемых единиц;

данные могут быть собраны в более короткие сроки и по

более широкой программе, чтобы в заданных пределах

всесторонне раскрыть особенности изучаемой совокуп-

ности и провести более глубокое научное исследование;

данные несплошного наблюдения привлекаются для

контроля материалов сплошного наблюдения;

Page 21: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

21

несплошное наблюдение должно быть репрезентатив-

ным (представительным).

Обследуемые единицы отбираются так, чтобы, опираясь

на полученные по этим единицам данные, составить пра-

вильное представление о явлении в целом. Поэтому одной из

существенных особенностей несплошного наблюдения явля-

ется организация отбора единиц обследуемой совокупности

способами: основного массива, монографическим, анкетным

и выборочным наблюдением.

Способ основного массива предусматривает отбор еди-

ниц совокупности, преобладающих по изучаемому признаку.

Данный способ не обеспечивает отбора единиц, которые

представляли бы все части совокупности.

Монографическое наблюдение – детальное описание

небольшого числа единиц совокупности.

Типическая монография как один из способов изучения

особенностей единиц совокупности предусматривает отбор

из состава всей совокупности качественно однородных еди-

ниц одного типа. Собираются сведения по 1 3 единицам с

индивидуальными значениями признака, близкими к типич-

ным значениям признака в группе. К числу недостатков ти-

пической монографии относится субъективный выбор еди-

ниц наблюдения, когда руководствуются только общим

представлением об их характерных особенностях. Кроме то-

го, число отобранных единиц невелико и не соответствует

численности самой группы, и полученные данные не позво-

ляют изучить распределение единиц (состав, долю) в преде-

лах отдельной группы.

Большая уверенность в репрезентативности данных, по-

лученных типической монографией, достигается, если выбор

единиц основан на данных ранее выполненных сплошных

наблюдений.

Анкетный способ предусматривает раздачу анкет (ино-

гда анкеты публикуют) всем единицам совокупности для

специальных обследований, например, с целью изучения ре-

гулярности доставки почтовой корреспонденции, мнений по

отдельным вопросам. Анкеты заполняются добровольно, и

поэтому не всегда обеспечивается репрезентативность вы-

Page 22: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

22

борки. Программа анкетного обследования содержит узкий

круг вопросов, ответы на которые часто дают только заинте-

ресованные лица.

Большое распространение получает метод интервью,

когда опрос ведется путем личного общения по специально

разработанной программе. Такой метод широко применяется

в социологических исследованиях.

Наиболее совершенным с научной точки зрения видом

несплошного наблюдения является выборочное наблюдение.

Выборочное наблюдение представляет собой такой вид ста-

тистического наблюдения, при котором обследованию под-

вергается некоторая часть единиц изучаемой совокупности,

отобранная в определенном строго научном порядке, с целью

последущей характеристики всей совокупности.

Сплошное и несплошное статистическое наблюдение

осуществляется различными способами: непосредственным

наблюдением, опросом и документированной записью.

Источником сведений служит опрос. По способу реги-

страции фактов опрос имеет следующие разновидности:

экспедиционный способ;

саморегистрация;

корреспондентский способ;

документированная запись.

Экспедиционный способ предусматривает сбор сведе-

ний на месте возникновения факта. Специальный регистра-

тор производит опрос и сам записывает ответ. Этот способ

обеспечивает точную информацию, но требует значительных

затрат времени, труда и средств.

Саморегистрация осуществляется с участием специаль-

ного регистратора на месте сбора сведений. Регистратор

только разъясняет порядок ответов на поставленные вопросы

в бланке, а ответы даются обычно представителями органи-

заций и предприятий. Этот способ требует значительных за-

трат времени и средств, а также привлечения высококвали-

фицированных статистических работников.

Корреспондентский способ предполагает рассылку ста-

тистическими и другими органами управления специально

Page 23: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

23

разработанных бланков и инструкций по их заполнению хо-

зяйствующим субъектам или специально выделенным лицам

корреспондентам для изучения определенного вопроса.

Сведения поступают в установленные сроки по почте, теле-

графом или доставляются нарочным. Способ не требует осо-

бых затрат, но качество информации зависит от уровня зна-

ний и степени подготовки корреспондентов.

Документированная запись - основная форма статисти-

ческого наблюдения является основным источником расчета

статистических показателей.

Собранные в процессе статистического наблюдения

данные о величине признака единиц в изучаемой совокупно-

сти должны быть обработаны так, чтобы получился точный и

обстоятельный ответ на все вопросы, поставленные с целью

исследования.

Качество исходного статистического материала предо-

пределяет качество обобщающих показателей, полученных в

результате статистической обработки (статистической свод-

ки).

Даже при достаточно совершенной организации стати-

стического наблюдения могут встречаться в полученной ста-

тистической информации отдельные ошибки или погрешно-

сти, которые следует устранить, чтобы получить доброкаче-

ственный исходный статистический материал.

Ошибки статистического наблюдения расхождение

действительных значений признаков единиц наблюдения с их

величиной, зарегистрированной в процессе сбора сведений.

Ошибки статистического наблюдения разнообразны по про-

исхождению и характеру. Они могут заключаться в неполном

охвате подлежащих регистрации единиц, в пропуске записи

или не ясной записи данных по отдельным единицам наблю-

дения и в неправильной записи отдельных ответов (несоот-

ветствие их действительным фактам).

Ошибки статистического наблюдения возникают часто

в связи с отсутствием твердых знаний и навыков у регистра-

торов, описками и т.п. В некоторых случаях встречаются и

преднамеренные ошибки, которые скрывают или искажают

Page 24: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

24

факты; в таких случаях привлекают к ответственности лиц,

занятых проведением статистического наблюдения.

Ошибки статистического наблюдения разделяются на

категории в зависимости от источника происхождения и зна-

чения ошибок. По источнику происхождения различают

ошибки непреднамеренные и преднамеренные, а по значению

случайные и систематические.

Случайными ошибками считаются такие погрешности в

записи данных по отдельным единицам, в отношении кото-

рых предполагают, что они могут с одинаковой вероятностью

исказить результаты статистического наблюдения в противо-

положные стороны. К ошибкам такого вида относятся не-

преднамеренные ошибки – как следствие описок или недос-

таточно ясного понимания регистратором сущности регист-

рируемых признаков. Случайные ошибки при статистиче-

ском наблюдении массы единиц не оказывают существенно-

го влияния на конечные результаты обследования: в процессе

статистической сводки собранных данных они обычно взаи-

мопогашаются.

Систематические ошибки искажают сведения по от-

дельным единицам наблюдения в одном направлении (пре-

увеличивают или преуменьшают). К систематическим ошиб-

кам относятся: пропуски единиц наблюдения, ошибки, воз-

никающие в силу неисправности измерительных приборов, а

иногда и стремления отдельных лиц округлять величины при

устном опросе. Например, при недокументированном сборе

сведений возможны округления возраста, стажа работы, за-

работной платы.

Все систематические ошибки являются преднамерен-

ными ошибками и не погашаются в процессе статистической

сводки.

К ошибкам статистического наблюдения относятся

ошибки, возникающие в процессе организации выборочного

наблюдения, называемые ошибками представительства или

репрезентативности. Основное значение по недопущению

ошибок такого рода имеет правильная организация статисти-

ческого наблюдения: разработка плана статистического на-

Page 25: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

25

блюдения, бланков и инструкций по их заполнению, подбор

регистраторов и т.п.

Чтобы устранить обнаруженные ошибки в материалах

статистического наблюдения, производится контроль соб-

ранных данных первичного учета. Контроль материалов уче-

та, а также записей в статистической отчетности осуществля-

ется в двух направлениях: счётный и логический контроль.

Счетный или арифметический контроль исполняется с

целью проверки именно счетной согласованности данных,

помещенных в формулярах статистического наблюдения, а

также правильности подсчета итогов.

Логический контроль ведется для проверки правильно-

сти самого содержания сведений, собранных по каждой еди-

нице наблюдения. Логический контроль осуществляется раз-

личными способами:

сравниваются ответы на различные вопросы одного и

того же формуляра;

например, сопоставляются в бланке переписи населения

сведения о профессии, возрасте, семейном положении;

сопоставляются записи, относящиеся к отчетному пе-

риоду, с аналогичными записями предшествующих пе-

риодов или же с плановыми данными отчетного перио-

да;

сравниваются фактические данные статистического на-

блюдения с разработанными нормативами: затрат вре-

мени, удельного расхода материалов и др.;

сопоставляются данные проведенных статистических

наблюдений с результатами специальных наблюдений

выборочного характера, в силу своих особенностей по-

зволяющие получить более полные данные по отобран-

ной массе единиц.

В результате первой стадии статистического исследова-

ния – статистического наблюдения, получают сведения о

каждой единице совокупности.

Задача второй стадии статистического исследования со-

стоит в том, чтобы упорядочить и обобщить первичный ма-

териал, свести его в группы и на этой основе дать обобщен-

Page 26: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

26

ную характеристику совокупности. Этот этап в статистике

называется сводкой. Различают простую сводку (подсчет

только общих итогов) и статистическую группировку.

Статистическая группировка сводится к расчленению

совокупности на группы по существенному для единиц сово-

купности признаку. Структурные группировки имеют боль-

шое практическое значение для изучения структуры одно-

типных явлений. Значение такого рода группировок заключа-

ется в том, что с их помощью могут быть выявлены неис-

пользованные резервы производства, например в области

улучшения использования основных фондов, повышения

производительности труда, улучшения качества продукции и

т.д. Группировки, которые применяются для исследования

взаимосвязи между явлениями, называются аналитическими.

Используя аналитические группировки, прежде всего,

определяют факторные и результативные признаки изучае-

мых явлений. Факторные – это признаки, оказывающие

влияние на другие, связанные с ними признаки. Результатив-

ные – это признаки, которые изменяются под влиянием фак-

торных. Чтобы исследовать взаимосвязь между отобранными

признаками с помощью метода аналитических группировок,

необходимо произвести группировку единиц совокупности

по факторному признаку и по каждой группе вычислить

среднее значение результативного признака, вариация кото-

рого от группы к группе под влиянием группировочного при-

знака будет указывать на наличие или отсутствие взаимосвя-

зи.

Группировка позволяет получить такие результаты, по

которым можно выявить состав совокупности, характерные

черты и свойства типичных явлений, обнаружить закономер-

ности и взаимосвязи.

Первым и наиболее простым способом обобщения ста-

тистических данных являются ряды распределения.

Статистическим рядом распределения называют чис-

ленное распределение единиц совокупности по изучаемому

признаку. В зависимости от признака ряды могут быть ва-

риационные (количественные) и атрибутивные.

Page 27: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

27

Вариационные ряды могут быть дискретными или ин-

тервальными. Дискретный ряд распределения это ряд, в ко-

тором численное распределение признака выражено одним

конечным числом. Интервальный ряд распределения это

ряд, в котором значения признака заданы в виде интервала.

При построении интервальных рядов распределения необхо-

димо определить, какое число групп следует образовать и ка-

кие взять интервалы (равные, неравные, закрытые, откры-

тые). Эти вопросы решаются на основе экономического ана-

лиза сущности изучаемых явлений, поставленной цели и ха-

рактера изменений признака. Интервалы не должны быть

слишком широкими и слишком узкими, т.к. это приведёт к

искажению естественной картины данных.

На каждой стадии статистического исследования прово-

дится проверка достоверности статистических данных. В

процессе анализа обычно совершается дополнительная обра-

ботка материалов (перегруппировка, дополнительное исчис-

ление и т.д.). Проводится сравнение данных для разных пе-

риодов времени, для различных объектов, устанавливаются

причины явлений, даётся общее описание фактов и объясне-

ние закономерностям, выделяемым с помощью предшест-

вующих методов.

Тем самым, статистический анализ – это завершающее

звено статистического исследования. Результаты анализа ис-

пользуются при разработке вопросов экономической теории,

прогнозировании и организации работы предприятий. От

правильности выводов и прогнозов зависит дальнейший ус-

пех деятельности фирмы, правильность решений и так далее.

Так, например, верно проведённый анализ, дающий

точную и достоверную информацию о состоянии рынка ус-

луг в сфере туризма и рекреации, может быть использован

туристическими фирмами для разработки новых турпродук-

тов или турпакетов, удовлетворяющих спрос потенциальных

потребителей и выгодных самим фирмам, поставщикам услуг

и работникам (занятым в данной сфере).

Page 28: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

28

3.4. Классификация статистических методов

Статистические методы анализа данных применяются

практически во всех областях деятельности человека. Их ис-

пользуют всегда, когда необходимо получить и обосновать

какие-либо суждения о группе (объектов или субъектов) с

некоторой внутренней неоднородностью.

Целесообразно выделить три вида научной и приклад-

ной деятельности в области статистических методов анализа

данных (по степени специфичности методов, сопряженной с

погруженностью в конкретные проблемы):

разработка и исследование методов общего назначения,

без учета специфики области применения;

разработка и исследование статистических моделей ре-

альных явлений и процессов в соответствии с потребно-

стями той или иной области деятельности;

применение статистических методов и моделей для ста-

тистического анализа конкретных данных.

3.5. Прикладная статистика

Прикладная статистика это наука о том, как обрабаты-

вать данные произвольной природы. Математической осно-

вой прикладной статистики и статистических методов анали-

за является теория вероятностей и математическая статисти-

ка.

Описание вида данных и механизма их порождения

начало любого статистического исследования. Для описания

данных применяют как детерминированные, так и вероятно-

стные методы. С помощью детерминированных методов

можно проанализировать только те данные, которые имеются

в распоряжении исследователя. Например, с их помощью по-

лучены таблицы, рассчитанные органами официальной госу-

дарственной статистики, на основе представленных предпри-

ятиями и организациями статистических отчетов. Перенести

полученные результаты на более широкую совокупность, ис-

пользовать их для предсказания и управления можно лишь на

Page 29: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

29

основе вероятностно-статистического моделирования. По-

этому в математическую статистику часто включают лишь

методы, опирающиеся на теорию вероятностей.

В простейшей ситуации статистические данные это

значения некоторого признака, свойственного изучаемым

объектам. Значения могут быть количественными или пред-

ставлять собой указание на категорию, к которой можно от-

нести объект. Во втором случае говорят о качественном при-

знаке.

При измерении по нескольким количественным или ка-

чественным признакам в качестве статистических данных об

объекте получаем вектор. Его можно рассматривать как но-

вый вид данных. В таком случае выборка состоит из набора

векторов. Если часть координат числа, а часть качествен-

ные (категоризованные) данные, то говорим о векторе разно-

типных данных.

Одним элементом выборки, то есть одним измерением,

может быть и функция в целом. Например, описывающая ди-

намику показателя, то есть его изменение во времени, элек-

трокардиограмма больного или амплитуда биений вала дви-

гателя. Или временной ряд, описывающий динамику показа-

телей определенной фирмы. Тогда выборка состоит из набора

функций.

Элементами выборки могут быть и иные математиче-

ские объекты. Например, бинарные отношения. Так, при оп-

росах экспертов часто используют упорядочения (ранжиров-

ки) объектов экспертизы образцов продукции, инвестици-

онных проектов, вариантов управленческих решений. В зави-

симости от регламента экспертного исследования элемента-

ми выборки могут быть различные виды бинарных отноше-

ний (упорядочения, разбиения, толерантности), множества,

нечеткие множества и т. д.

Итак, математическая природа элементов выборки в

различных задачах прикладной статистики может быть самой

разной. Однако можно выделить два класса статистических

данных: числовые и нечисловые. Соответственно прикладная

Page 30: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

30

статистика разбивается на две части числовую статистику и

нечисловую статистику.

Числовые статистические данные это числа, вектора,

функции. Их можно складывать, умножать на коэффициенты.

Поэтому в числовой статистике большое значение имеют

разнообразные суммы. Математический аппарат анализа

сумм случайных элементов выборки это (классические) за-

коны больших чисел и центральные предельные теоремы.

Нечисловые статистические данные это категоризо-

ванные данные, вектора разнотипных признаков, бинарные

отношения, множества, нечеткие множества и др. Их нельзя

складывать и умножать на коэффициенты. Поэтому не имеет

смысла говорить о суммах нечисловых статистических дан-

ных. Они являются элементами нечисловых математических

пространств (множеств). Математический аппарат анализа

нечисловых статистических данных основан на использова-

нии расстояний между элементами (а также мер близости,

показателей различия) в таких пространствах. С помощью

расстояний определяются эмпирические и теоретические

средние, доказываются законы больших чисел, строятся не-

параметрические оценки плотности распределения вероятно-

стей, решаются задачи диагностики и кластерного анализа, и

т. д. [2].

В прикладных исследованиях используют статистиче-

ские данные различных видов. Это связано, в частности, со

способами их получения. Например, если испытания некото-

рых технических устройств продолжаются до определенного

момента времени, то получаем так называемые цензуриро-

ванные данные, состоящие из набора чисел продолжитель-

ности работы ряда устройств до отказа и информации о том,

что остальные устройства продолжали работать в момент

окончания испытания. Цензурированные данные часто ис-

пользуются при оценке и контроле надежности технических

устройств.

Page 31: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

31

3.6. Статистический анализ конкретных данных

Применение статистических методов и моделей для ста-

тистического анализа конкретных данных тесно привязано к

проблемам соответствующей области. Результаты третьего из

выделенных видов научной и прикладной деятельности на-

ходятся на стыке дисциплин. Их можно рассматривать как

примеры практического применения статистических методов.

Но не меньше оснований относить их к соответствующей об-

ласти деятельности человека.

3.7. Перспективы развития

Теория статистических методов нацелена на решение

реальных задач. Поэтому в ней постоянно возникают новые

постановки математических задач анализа статистических

данных, развиваются и обосновываются новые методы.

Обоснование часто проводится математическими средствами,

то есть путем доказательства теорем. Большую роль играет

методологическая составляющая как именно ставить зада-

чи, какие предположения принять с целью дальнейшего ма-

тематического изучения. Велика роль современных инфор-

мационных технологий, в частности, компьютерного экспе-

римента.

Актуальной является задача анализа истории статисти-

ческих методов с целью выявления тенденций развития и

применения их для прогнозирования.

Page 32: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

32

4. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Интеллектуальный анализ данных (англ. Data Mining) -

это процесс обнаружения в сырых данных ранее неизвест-

ных, нетривиальных, практически полезных и доступных ин-

терпретации знаний, необходимых для принятия решений в

различных сферах человеческой деятельности [1] . Подразде-

ляется на задачи классификации, моделирования и прогнози-

рования и другие.

Английский термин «Data Mining» не имеет однознач-

ного перевода на русский язык (добыча данных, вскрытие

данных, информационная проходка, извлечение дан-

ных/информации) поэтому в большинстве случаев использу-

ется в оригинале. Наиболее удачным непрямым переводом

считается термин «интеллектуальный анализ данных» (ИАД).

Методы Data Mining разделяются на статистические

(дескриптивный анализ, корреляционный и регрессионный

анализ, факторный анализ, дисперсионный анализ, компо-

нентный анализ, дискриминантный анализ, анализ времен-

ных рядов) и кибернетические (искусственные нейронные се-

ти, эволюционное программирование, генетические алгорит-

мы, ассоциативная память, нечеткая логика, деревья реше-

ний, системы обработки экспертных знаний).

Визуальные инструменты Data Mining позволяют про-

водить анализ данных предметными специалистами (анали-

тиками), не владеющими соответствующими математиче-

скими знаниями.

4.1. Задачи, решаемые ИАД

Классификация отнесение входного вектора (объекта,

события, наблюдения) к одному из заранее известных

классов.

Кластеризация разделение множества входных векто-

ров на группы (кластеры) по степени «похожести» друг

на друга.

Page 33: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

33

Сокращение описания для визуализации данных, ла-

конизма моделей, упрощения счета и интерпретации,

сжатия объемов собираемой и хранимой информации.

Ассоциация поиск повторяющихся образцов. Напри-

мер, поиск «устойчивых связей в корзине покупателя»

(англ. market basket analysis) вместе с пивом часто по-

купают орешки.

Прогнозирование.

Анализ отклонений например, выявление нетипичной

сетевой активности позволяет обнаружить вредоносные

программы.

Визуализация.

В литературе можно встретить еще ряд классов задач.

Базовыми задачами являются первые три. Остальные задачи

сводятся к ним тем или иным способом.

4.2. Алгоритмы обучения

Для задач классификации характерно «обучение с учи-

телем», при котором построение (обучение) модели произво-

дится по выборке содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется

«обучение без учителя», при котором построение модели

производится по выборке, в которой нет выходного парамет-

ра. Значение выходного параметра («относится к кластеру

…», «похож на вектор …») подбирается автоматически в

процессе обучения.

Для задач сокращения описания характерно отсутствие

разделения на входные и выходные векторы. Начиная с клас-

сических работ К. Пирсона по методу главных компонент,

основное внимание здесь уделяется аппроксимации данных.

4.3. Этапы обучения

Можно выделить типичный ряд этапов решения задач

методами ИАД:

1. Формирование гипотезы;

Page 34: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

34

2. Сбор данных;

3. Подготовка данных (фильтрация);

4. Выбор модели;

5. Подбор параметров модели и алгоритма обучения;

6. Обучение модели (автоматический поиск остальных па-

раметров модели);

7. Анализ качества обучения, если неудовлетворительный

переход на п. 5 или п. 4;

8. Анализ выявленных закономерностей, если неудовле-

творительный переход на п. 1, 4 или 5.

Page 35: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

35

5. ОСНОВЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ

ДАННЫХ

5.1. Расчёт показателей вариации

Вариация является одной из важнейших категорий,

применяемых в статистической науке. Явления, подвержен-

ные вариации лежат в области исследования статистической

науки, в то время как явления неизменные, статичные, посто-

янные в статистике не рассматриваются. Вариация - это при-

нятие единицами совокупности или их группами различных,

отличающихся друг от друга, значений признака. Вариация

является результатом воздействия на единицы совокупности

множества факторов.

Синонимами термина «вариация» являются понятия

«изменение», «изменчивость», «вариативность». Необходи-

мость в измерении вариации возникает из-за того, что в сред-

ней величине не проявляется степень колеблемости отдель-

ных значений признаков (вариант) вокруг среднего уровня. В

зависимости от однородности в совокупности, степень ко-

леблемости может быть большой или маленькой.

Вариацией называется изменчивость только тех явле-

ний, на которые воздействуют внешние факторы и причины.

Тогда как о явлениях, изменяющихся в силу своей внутрен-

ней природы нельзя говорить, что они подвержены вариации.

Например, рост человека, меняющийся в течение жизни.

Различие индивидуальных значений признака внутри

изучаемой совокупности в статистике называется вариацией

признака. Она возникает в результате того, что его индивиду-

альные значения складываются под совокупным влиянием

разнообразных факторов, которые по-разному сочетаются в

каждом отдельном случае.

Средняя величина это абстрактная, обобщающая ха-

рактеристика признака изучаемой совокупности, но она не

показывает строения совокупности, которое весьма сущест-

венно для ее познания. Средняя величина не дает представ-

ления о том, как отдельные значения изучаемого признака

Page 36: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

36

группируются вокруг средней, сосредоточены ли они вблизи

или значительно отклоняются от нее. В некоторых случаях

отдельные значения признака близко примыкают к средней

арифметической и мало от нее отличаются. В таких случаях

средняя хорошо представляет всю совокупность. В других,

наоборот, отдельные значения совокупности далеко отстают

от средней, и средняя плохо представляет всю совокупность.

Колеблемость отдельных значений характеризуют пока-

затели вариации. Термин «вариация» произошел от латин-

ского variation «изменение, колеблемость, различие». Од-

нако не всякие различия принято называть вариацией. Под

вариацией в статистике понимают такие количественные из-

менения величины исследуемого признака в пределах одно-

родной совокупности, которые обусловлены перекрещиваю-

щимся влиянием действия различных факторов.

Различают вариацию признака: случайную и системати-

ческую. Анализ систематической вариации позволяет оце-

нить степень зависимости изменений в изучаемом признаке

от определяющих ее факторов. Например, изучая силу и ха-

рактер вариации в выделяемой совокупности, можно оце-

нить, насколько однородной является данная совокупность в

количественном, а иногда и качественном отношении, а, сле-

довательно, насколько характерной является исчисленная

средняя величина.

Степень близости данных отдельных единиц хi к сред-

ней измеряется рядом абсолютных, средних и относительных

показателей.

Абсолютные и средние показатели вариации и способы их

расчета

Для характеристики совокупностей и исчисленных

величин важно знать, какая вариация изучаемого признака

скрывается за средним. Для характеристики колеблемости

признака используется ряд показателей. Наиболее простой из

них - размах вариации.

Размах вариации это разность между наибольшим

( ) и наименьшим ( ) значениями вариантов. xmak xmin

Page 37: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

37

Достоинством этого показателя является простота рас-

чёта. Точнее характеризует вариацию признака показатель,

основанный на учёте всех значений признака. К таким пока-

зателям относится среднее линейное отклонение, дисперсия и

среднее квадратическое отклонение, представляющие собой

среднюю арифметическую из отклонений индивидуальных

значений признака от средней арифметической.

Чтобы дать обобщающую характеристику распределе-

нию отклонений, исчисляют среднее линейное отклонение d,

которое учитывает различие всех единиц изучаемой сово-

купности.

Среднее линейное отклонение определяется как средняя

арифметическая из отклонений индивидуальных значений от

средней, без учета знака этих отклонений:

.

Порядок расчета среднего линейного отклонения сле-

дующий:

1) по значениям признака исчисляется средняя арифметиче-

ская:

;

2) определяются отклонения каждой варианты от средней: x xi ;

3) рассчитывается сумма абсолютных величин отклонений:

;

4) сумма абсолютных величин отклонений делится на число

значений:

.

Если данные наблюдения представлены в виде дискрет-

ного ряда распределения с частотами, среднее линейное от-

клонение исчисляется по формуле средней арифметической

взвешенной:

R x xmak min

dx x

n

x x x x x x

n

n/ / / / / / ... / /1 2

xx

n

xi

/ /x xi

/ /x x

n

i

Page 38: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

38

Порядок расчета среднего линейного отклонения взве-

шенного следующий:

1) вычисляется средняя арифметическая взвешенная:

;

2) определяются абсолютные отклонения вариант от средней:

/ /;

3) полученные отклонения умножаются на частоты ;

4) находится сумма взвешенных отклонений без учета знака:

;

5) сумма взвешенных отклонений делится на сумму частот:

.

Расчет дисперсии и среднего квадратического отклонения

по индивидуальным данным и в рядах распределения

Основными обобщающими показателями вариации в

статистике являются дисперсии и среднее квадратическое от-

клонение.

Дисперсия - это средняя арифметическая квадратов от-

клонений каждого значения признака от общей средней.

Дисперсия обычно называется средним квадратом отклоне-

ний и обозначается . В зависимости от исходных данных

дисперсия может вычисляться по средней арифметической

простой или взвешенной:

– дисперсия невзвешенная (простая);

– дисперсия взвешенная.

dx x n

n

x x n x x n x x n

n n n

i i

i

n n

n

/ / / / / / ... / /

...

1 1 2 2

1 2

xn

n

x xi

/ /x x ni i

/ /x x ni i

/ /x x n

n

i i

S 2

Sx x

n

i2

2( )

Sx x n

n

i i

i

2

2( )

Page 39: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

39

Среднее квадратическое отклонение представляет собой

корень квадратный из дисперсии и обозначается S:

– среднее квадратическое отклонение невзве-

шенное;

– среднее квадратическое отклонение взве-

шенное.

Среднее квадратическое отклонение - это обобщающая

характеристика абсолютных размеров вариации признака в

совокупности. Выражается оно в тех же единицах измерения,

что и признак (в метрах, тоннах, процентах, гектарах и т.д.).

Среднее квадратическое отклонение является мерилом

надежности средней. Чем меньше среднее квадратическое

отклонение, тем лучше средняя арифметическая отражает со-

бой всю представляемую совокупность.

Вычислению среднего квадратического отклонения

предшествует расчет дисперсии.

Порядок расчета дисперсии взвешенной:

1) определяют среднюю арифметическую взвешенную

;

2) определяют отклонения вариант от средней ;

3) возводят в квадрат отклонение каждой варианты от сред-

ней ;

4) умножают квадраты отклонений на веса (частоты)

5) суммируют полученные произведения

;

6) полученную сумму делят на сумму весов

Sx x

n

i( )2

Sx x n

n

i i

i

( )2

xn

n

x xi

x xi

2

x x ni i

2

x x ni i

2

Page 40: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

40

.

Расчет дисперсии по индивидуальным данным и в рядах

распределения. по формуле

Техника вычисления дисперсии сложна, а при больших

значениях вариант и частот может быть громоздкой. Расчеты

можно упростить, используя свойства дисперсии.

Свойства дисперсии

Уменьшение или увеличение весов (частот) варьирую-

щего признака в определенное число раз дисперсии не изме-

няет.

Уменьшение или увеличение каждого значения призна-

ка на одну и ту же постоянную величину А дисперсии не из-

меняет.

Уменьшение или увеличение каждого значения призна-

ка в какое-то число раз к соответственно уменьшает или уве-

личивает дисперсию в раз, а среднее квадратическое от-

клонение в к раз.

Дисперсия признака относительно произвольной вели-

чины всегда больше дисперсии относительно средней ариф-

метической на квадрат разности между средней и произволь-

ной величиной: . Если А равна нулю, то прихо-

дим к следующему равенству: , т.е. дисперсия при-

знака равна разности между средним квадратом значений

признака и квадратом средней.

Каждое свойство при расчете дисперсии может быть

применено самостоятельно или в сочетании с другими.

Порядок расчета дисперсии простой:

1) определяют среднюю арифметическую ;

x x n

n

i i

i

2

S x x2 2 2

k 2

S S x AA

2 2 2( )

S x x2 2 2

xx

n

Page 41: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

41

2) возводят в квадрат среднюю арифметическую ;

3) возводят в квадрат каждую варианту ряда ;

4) находят сумму квадратов вариант ;

5) делят сумму квадратов вариант на их число, т.е. определя-

ют средний квадрат ;

6) определяют разность между средним квадратом признака

и квадратом средней .

Расчет дисперсии в интервальном ряду распределения.

Порядок расчета дисперсии взвешенной (по формуле

):

1) определяют среднюю арифметическую ;

2) возводят в квадрат полученную среднюю ;

3) возводят в квадрат каждую варианту ряда ;

4) умножают квадраты вариант на частоты ;

5) суммируют полученные произведения ;

6) делят полученную сумму на сумму весов и получают

средний квадрат признака ;

7) определяют разность между средним значением квадратов

и квадратом средней арифметической, т.е. дисперсию

.

Показатели относительного рассеивания

Для характеристики меры колеблемости изучаемого

признака исчисляются показатели колеблемости в относи-

тельных величинах. Они позволяют сравнивать характер

рассеивания в различных распределениях (различные едини-

цы наблюдения одного и того же признака в двух совокупно-

xx

n

2

2

xi

2

xi

2

xx

n

i2

2

x x2 2

S x x2 2 2

xxn

n

x2

xi

2

x ni i

2

x ni i

2

xx n

n

i i

i

2

2

S x x2 2 2

Page 42: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

42

стях, при различных значениях средних, при сравнении раз-

ноименных совокупностей).

Расчет показателей меры относительного рассеивания

осуществляют как отношение абсолютного показателя рас-

сеивания к средней арифметической, умножаемое на 100%.

1. Коэффициент осцилляции отражает относительную ко-

леблемость крайних значений признака вокруг средней:

2. Относительное линейное отклонение характеризует долю

усредненного значения абсолютных отклонений от средней

величины:

3. Коэффициент вариации:

Учитывая, что среднеквадратическое отклонение дает

обобщающую характеристику колеблемости всех вариантов

совокупности, коэффициент вариации является наиболее

распространенным показателем колеблемости, используемым

для оценки типичности средних величин. При этом исходят

из того, что если V больше 40 %, то это говорит о большой

колеблемости признака в изучаемой совокупности.

5.2. Ряды Динамики

Установление вида ряда динамики

Основная цель статистического изучения динамики дея-

тельности состоит в выявлении и измерении закономерно-

стей и их развития во времени. Это достигается посредством

построения и анализа статистических рядов динамики.

Рядами динамики называются статистические данные,

отображающие развитие изучаемого явления во времени. В

каждом ряду динамики имеются два основных элемента: по-

казатель времени t; соответствующие им уровни развития

изучаемого явления у.

KR

xo *100%

Kd

xo *100%

VS

x*100%

Page 43: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

43

В качестве показаний времени в рядах динамики высту-

пают либо определенные даты (моменты) времени, либо от-

дельные периоды (годы, кварталы, месяцы, сутки).

Уровни рядов динамики отображают количественную

оценку (меру) развития во времени изучаемого явления. Они

могут выражаться абсолютными, относительными или сред-

ними величинами.

В зависимости от характера изучаемого явления уровни

рядов динамики могут относиться или к определенным датам

(моментам) времени, или к отдельным периодам. В соответ-

ствии с этим, ряды динамики подразделяются на моментные

и интервальные.

Моментные ряды динамики отображают состояние изу-

чаемых явлений на определенные даты (моменты) времени.

Примером моментного ряда динамики является сле-

дующая информация о списочной численности работников

фирмы N в 2009 г.:

Дата 1.01 1.04 1.07 1.10 1.01

Год 2009 2009 2009. 2009 2014

Число

работников, чел.

192 190 195 198 200

Особенностью моментного ряда динамики является то,

что в его уровни могут входить одни и те же единицы изу-

чаемой совокупности. Так, основная часть персонала фирмы

N, составляющая списочную численность на 1.01.2009 г. и

продолжающая работать в течение данного года, отображена

в уровнях последующих периодов. Поэтому при суммирова-

нии уровней моментного ряда динамики может возникнуть

повторный счет.

Интервальные ряды динамики отображают итоги разви-

тия (функционирования) изучаемых явлений за отдельные

периоды (интервалы) времени.

Примером интервального ряда динамики могут служить

данные о розничном товарообороте магазина в 2005-2009 гг.:

Page 44: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

44

Год 2005 2006 2007 2008 2009

Объем розничного

товарооборота, тыс.

руб.

885,7 932,6 980,1 1028,7 1088,4

Особенностью интервального ряда динамики является

то, что каждый его уровень складывается из данных за более

короткие интервалы времени. Например, суммируя товаро-

оборот за первые три месяца года, получают его объем за I

квартал, а сумма товарооборота четырех кварталов дает объ-

ем товарооборота за год и т.д.

Ряды динамики могут быть полными и неполными.

Полный ряд ряд динамики, в котором одноименные

моменты времени или периоды времени строго следуют один

за другим в календарном порядке или равноотстоят друг от

друга.

Неполный ряд динамики ряд, в котором уровни за-

фиксированы в неравноотстоящие моменты или периоды

времени.

Пример.

Численность населения СССР характеризуется данными пе-

реписей, млн. чел.:

1939 1959 1970 1979 неполный моментный ряд

170,6 208,8 241,7 262, 4 абсолютных величин

Приведение рядов динамики в сопоставимый вид

Ряды динамики, изучающие изменение статистического

показателя, могут охватывать значительный период времени,

на протяжении которого могут происходить события, нару-

шающие сопоставимость отдельных уровней ряда динамики

(изменение методологии учета, изменение цен и т.д.).

Для того, чтобы анализ ряда был объективен, необходи-

мо учитывать события, приводящие к несопоставимости

уровней ряда и использовать приемы обработки рядов для

приведения их в сопоставимый вид.

Page 45: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

45

Наиболее характерные случаи несопоставимости уров-

ней ряда динамики:

Территориальные изменения объекта исследования, к

которому относится изучаемый показатель (изменение гра-

ниц городского района, пересмотр административного деле-

ния области и т.д.).

Разновеликие интервалы времени, к которым относится

показатель. Так, например, в феврале – 28 дней, в марте – 31

день, анализируя изменения показателя по месяцам, необхо-

димо учитывать разницу в количестве дней.

Изменение даты учета. Например, численность поголо-

вья скота в разные годы могла определяться по состоянию на

1 января или на 1 октября, что в данном случае приводит к

несопоставимости.

Изменение методологии учета или расчета показателя.

Изменение цен.

Изменение единиц измерения.

Определение среднего уровня ряда динамики

В качестве обобщенной характеристики уровней ряда

динамики служит средний уровень ряда динамики . В зави-

симости от типа ряда динамики используются различные

расчетные формулы.

Интервальный ряд абсолютных величин с равными пе-

риодами (интервалами времени):

Моментный ряд с равными интервалами между датами:

Моментный ряд с неравными интервалами между дата-

ми:

y

yy

n

i

y

y y y y

n

n n

1

2

1

2

1

1 2 1...

yy t

t

i i

i

Page 46: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

46

где - уровни ряда, сохраняющиеся без изменения на про-

тяжении интервала времени .

Показатели изменения уровней ряда динамики

Одним из важнейших направлений анализа рядов дина-

мики является изучение особенностей развития явления за

отдельные периоды времени.

С этой целью для динамических рядов рассчитывают

ряд показателей:

К темпы роста;

абсолютные приросты;

темпы прироста.

Темп роста относительный показатель, получающийся

в результате деления двух уровней одного ряда друг на друга.

Темпы роста могут рассчитываться как цепные, когда каж-

дый уровень ряда сопоставляется с предшествующим ему

уровнем: , либо как базисные, когда все уровни ряда

сопоставляются с одним и тем же уровнем , выбранным за

базу сравнения: .

Темпы роста могут быть представлены в виде коэффи-

циентов либо в виде процентов.

Абсолютный прирост разность между двумя уровнями

ряда динамики, имеет ту же размерность, что и уровни само-

го ряда динамики. Абсолютные приросты могут быть цепны-

ми и базисными, в зависимости от способа выбора базы для

сравнения:

цепной абсолютный прирост ;

базисный абсолютный прирост .

Для относительной оценки абсолютных приростов рас-

считываются показатели темпов прироста.

Темп прироста относительный показатель, показы-

вающий на сколько процентов один уровень ряда динамики

yi

ti

y

K

Ky

y

i

i

ö

1

y0

Ky

y

0

y y yi iö 1

y y yiá 0

Page 47: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

47

больше (или меньше) другого, принимаемого за базу для

сравнения.

Базисные темпы прироста: .

Цепные темпы прироста: .

и абсолютный базисный или цепной прирост;

уровень ряда динамики, выбранный за базу для опреде-

ления базисных абсолютных приростов;

уровень ряда динамики, выбранный за базу для опре-

деления i-го цепного абсолютного прироста.

Существует связь между темпами роста и прироста:

К = К - 1 или К = К - 100 % (если темпы роста определе-

ны в процентах).

Если разделить абсолютный прирост (цепной) на темп

прироста (цепной) за соответствующий период, получим по-

казатель, называемый - абсолютное значение одного процен-

та прироста: .

Определение среднего абсолютного прироста, средних

темпов роста и прироста

По показателям изменения уровней ряда динамики (аб-

солютные приросты, темпы роста и прироста), полученным в

результате анализа исходного ряда, могут быть рассчитаны

обобщающие показатели в виде средних величин - средний

абсолютный прирост, средний темп роста, средний темп при-

роста.

Средний абсолютный прирост может быть получен по

одной из формул:

или ,

где n число уровней ряда динамики;

первый уровень ряда динамики;

последний уровень ряда динамики;

Ky

á

0

Ky

y

ö

i

ö

1

yáyö

y0

yi 1

Ay

K

ö

ö

yy

n

цi yy y

nn 1

1

y1

yn

Page 48: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

48

цепные абсолютные приросты.

Средний темп роста можно определить, пользуясь формула-

ми:

где n число рассчитанных цепных или базисных темпов

роста;

уровень ряда, принятый за базу для сравнения;

последний уровень ряда;

цепные темпы роста (в коэффициентах);

первый базисный темп роста;

последний базисный темп роста.

Между темпами прироста и темпами роста К суще-

ствует соотношение = К 1, аналогичное соотношение

верно и для средних величин.

Определение в рядах динамики общей тенденции развития

Определение уровней ряда динамики на протяжении

длительного периода времени обусловлено действием ряда

факторов, которые неоднородны по силе и направлению воз-

действия, оказываемого на изучаемое явление.

Рассматривая динамические ряды, пытаются разделить

эти факторы на постоянно действующие и оказывающие оп-

ределяющее воздействие на уровни ряда, формирующие ос-

новную тенденцию развития и случайные факторы, приво-

дящие к кратковременным изменениям уровней ряда дина-

мики.

Наиболее важна при анализе ряда динамики его основ-

ная тенденция развития, но часто по одному лишь внешнему

yцi

K K K Kц ц nцn

1 2* *...*

Ky

y

nn

0

KK

K

б

n

1

y0

yn

K iц

K iб

K nб

K

K

Page 49: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

49

виду ряда динамики ее установить невозможно, поэтому ис-

пользуют специальные методы обработки, позволяющие по-

казать основную тенденцию ряда. Методы обработки исполь-

зуются как простые, так и достаточно сложные. Простейший

способ обработки ряда динамики, применяемый с целью ус-

тановления закономерностей развития - метод укрупнения

интервалов.

Суть метода в том, чтобы от интервалов или периодов

времени, для которых определены исходные уровни ряда ди-

намики, перейти к более продолжительным периодам време-

ни и посмотреть, как уровни ряда изменяются в этом случае.

Другой способ определения тенденции в ряду динамики

метод скользящих средних. Суть метода заключается в том,

что фактические уровни ряда заменяются средними уровня-

ми, вычисленными по определённому правилу, например:

исходные или фактические уровни ряда

динамики заменяются средними уровнями:

...

...

...

В результате получается сглаженный ряд, состоящий из

скользящих пятизвенных средних уровней .

Между расположением уровней и устанавливается со-

ответствие:

y y y y y yn1 2 3 4 5, , , , ,...,

yy y y y y

1

1 2 3 4 5

5

yy y y y y

2

2 3 4 5 6

5

yy y y y y

3

3 4 5 6 7

5

yy y y y y

n

n n n n n

2

4 3 2 1

5

y y y y y yn1 2 3 4 5 2, , , , ,...,

yi yi

y y y y y y y y yn n n n1 2 3 4 5 3 2 1, , , , ,..., , , ,

Page 50: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

50

— — — — ,

сглаженный ряд короче исходного на число уровней , где

k число уровней, выбранных для определения средних

уровней ряда.

Сглаживание методом скользящих средних можно про-

изводить по четырём, пяти или другому числу уровней ряда,

используя соответствующие формулы для усреднения исход-

ных уровней.

Полученные при этом средние уровни называются че-

тырёхзвенными скользящими средними, пятизвенными

скользящими средними и т.д.

При сглаживании ряда динамики по чётному числу

уровней выполняется дополнительная операция, называемая

центрированием, поскольку, при вычислении скользящего

среднего, например по четырём уровням, от-

носится к временной точке между моментами времени, когда

были зафиксированы фактические уровни и .

Схема вычислений и расположений уровней сглаженно-

го ряда становится сложнее:

... — исходные уровни;

— — ... — сглаженные уровни;

— — ... — центрированные сглаженные уровни;

.

Метод скользящих средних не позволяет получить чис-

ленные оценки для выражения основной тенденции в ряду

динамики, давая лишь наглядное графическое представление.

Наиболее совершенным способом определения тенден-

ции развития в ряду динамики является метод аналитическо-

го выравнивания. При этом методе исходные уровни ряда

динамики заменяются теоретическими или расчетными ,

которые представляют собой некоторую достаточно простую

y y y y yn n1 2 3 3 2, , ,..., ,

k 1

2

yy y y y

11 2 3 4

4

y2 y3

y y y y y y1 2 3 4 5 6, , , , ,

y y y1 2 3, ,

y yц ц1 2,

yy y

ц11 2

2y

y yц2

2 3

2

y i y i

Page 51: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

51

математическую функцию времени, выражающую общую

тенденцию развития ряда динамики. Чаще всего в качестве

такой функции выбирают прямую, параболу, экспоненту и

др.

Например, ,

где коэффициенты, определяемые в методе аналитиче-

ского выравнивания;

моменты времени, для которых были получены исход-

ные и соответствующие теоретические уровни ряда динами-

ки, образующие прямую, определяемую коэффициентами

.

Расчет коэффициентов ведется на основе метода наи-

меньших квадратов:

Если вместо подставить (или соответствующее

выражение для других математических функций), получим:

Это функция двух переменных (все и известны),

которая при определенных достигает минимума. Из это-

го выражения на основе знаний, полученных в курсе высшей

математики об экстремуме функций n переменных, получают

значения коэффициентов .

Для прямой:

y a a ti i0 1

a a0 1,

ti

a a0 1,

a a0 1,

( ) miny yi i

i

n2

1

yi a a ti0 1

( ) mina a t yi i

i

n

0 1

2

1

a a0 1, ti yi

a a0 1,

a a0 1,

ay t t y t

n t t t

i i i i i

i i i

0

2

2

Page 52: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

52

где n число моментов времени, для которых были получены

исходные уровни ряда .

Если вместо абсолютного времени выбрать условное

время таким образом, чтобы , то записанные выраже-

ния для определения упрощаются:

5.3. Выборочное наблюдение

Статистическое исследование может осуществляться по

данным несплошного наблюдения, основная цель которого

состоит в получении характеристик изучаемой совокупности

по обследованной ее части. Одним из наиболее распростра-

ненных в статистике методов, применяющих несплошное на-

блюдение, является выборочный метод.

Под выборочным понимается метод статистического

исследования, при котором обобщающие показатели изучае-

мой совокупности устанавливаются по некоторой ее части на

основе положений случайного отбора.

При выборочном методе обследованию подвергается

сравнительно небольшая часть всей изучаемой совокупности

(обычно до 5 - 10%, реже до 15 - 25%). При этом подлежащая

изучению статистическая совокупность, из которой произво-

дится отбор части единиц, называется генеральной совокуп-

ностью. Отобранная из генеральной совокупности некоторая

часть единиц, подвергающаяся обследованию, называется

выборочной совокупностью или просто выборкой.

Значение выборочного метода состоит том, что при ми-

нимальной численности обследуемых единиц проведение ис-

следования осуществляется в более короткие сроки и с ми-

нимальными затратами труда и средств. Это повышает опе-

an y t t y

n t t t

i i i i

i i i

1 2

yi

ti

ti 0

a a0 1,

ay

n

i

0a

t y

t

i i

i

1 2

Page 53: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

53

ративность статистической информации, уменьшает ошибки

регистрации.

В проведении ряда исследований выборочный метод яв-

ляется единственно возможным, например, при контроле ка-

чества продукции (товара), если проверка сопровождается

уничтожением или разложением на составные части обсле-

дуемых образцов (определение сахаристости фруктов, клей-

ковины печеного хлеба, установление носкости обуви, проч-

ности тканей на разрыв и т.д.).

Проведение исследования социально-экономических

явлений выборочным методом складывается из ряда после-

довательных этапов:

1) обоснование (в соответствии с задачами исследова-

ния) целесообразности применения выборочного метода;

2) составление программы проведения статистического

исследования выборочным методом;

3) решение организационных вопросов сбора и обработ-

ки исходной информации;

4) установление доли выборки, т.е. части подлежащих

обследованию единиц генеральной совокупности;

5) обоснование способов формирования выборочной со-

вокупности;

6) осуществление отбора единиц из генеральной сово-

купности для их обследования;

7) фиксация в отобранных единицах (пробах) изучаемых

признаков;

8) статистическая обработка полученной в выборке ин-

формации с определением обобщающих характеристик изу-

чаемых признаков;

9) определение количественной оценки ошибки выбор-

ки;

10) распространение обобщающих выборочных харак-

теристик на генеральную совокупность.

В генеральной совокупности доля единиц, обладающих

изучаемым признаком, называется генеральной долей (обо-

значается р), а средняя величина изучаемого варьирующего

признака - генеральной средней (обозначается ). x

Page 54: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

54

В выборочной совокупности долю изучаемого признака

называют выборочной долей, или частостью (обозначается

), а среднюю величину в выборке выборочной средней

(обозначается ).

Ошибка выборки это объективно возникающее расхо-

ждение между характеристиками выборки и генеральной со-

вокупности. Она зависит от ряда факторов: степени вариации

изучаемого признака, численности выборки, методом отбора

единиц в выборочную совокупность, принятого уровня дос-

товерности результата исследования.

Определение ошибки выборочной средней

При случайном повторном отборе средняя ошибка вы-

борочной средней рассчитывается по формуле:

,

где средняя ошибка выборочной средней;

дисперсия выборочной совокупности;

n численность выборки.

При бесповторном отборе она рассчитывается по фор-

муле:

,

где N численность генеральной совокупности.

Определение ошибки выборочной доли

При повторном отборе средняя ошибка выборочной до-

ли рассчитывается по формуле:

,

s

n

2

s2

s

n

n

N

2

1

1

n

Page 55: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

55

где выборочная доля единиц, обладающих изучаемым

признаком;

число единиц, обладающих изучаемым признаком;

численность выборки.

При бесповторном способе отбора средняя ошибка вы-

борочной доли определяется по формулам:

Предельная ошибка выборки связана со средней

ошибкой выборки отношением:

t * .

При этом t как коэффициент кратности средней ошибки

выборки зависит от значения вероятности Р, с которой гаран-

тируется величина предельной ошибки выборки.

Предельная ошибка выборки при бесповторном отборе

определяется по следующим формулам:

,

.

Предельная ошибка выборки при повторном отборе оп-

ределяется по формуле:

,

.

m

n

m

n

11

n

n

N

tn

n

N

11

x

xts

n

n

N

2

1

tn

1

xxt

s

n

2

Page 56: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

56

Малая выборка

При контроле качества товаров в экономических иссле-

дованиях эксперимент может проводиться на основе малой

выборки.

Под малой выборкой понимается несплошное статисти-

ческое обследование, при котором выборочная совокупность

образуется из сравнительно небольшого числа единиц гене-

ральной совокупности. Объем малой выборки обычно не

превышает 30 единиц и может доходить до 4 - 5 единиц.

Средняя ошибка малой выборки вычисляется по

формуле:

,

где дисперсия малой выборки.

При определении дисперсии число степеней свободы

равно n-1:

.

Предельная ошибка малой выборки определяется

по формуле

При этом значение коэффициента доверия t зависит не

только от заданной доверительной вероятности, но и от чис-

ленности единиц выборки n. Для отдельных значений t и n

доверительная вероятность малой выборки определяется по

специальным таблицам Стьюдента, в которых даны распре-

деления стандартизированных отклонений:

.

Способы распространения характеристик выборки на ге-

неральную совокупность

Выборочный метод чаще всего применяется для полу-

чения характеристик генеральной совокупности по соответ-

M B.

M BM Bs

n.

.

2

sM B.

2

s2

sx x

nM B

i

.

( ~)2

2

1

M B.

M B M Bt. .

tx x

sM B

~

.

Page 57: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

57

ствующим показателям выборки. В зависимости от целей ис-

следований это осуществляется или прямым пересчётом по-

казателей выборки для генеральной совокупности, или по-

средством расчёта поправочных коэффициентов.

Способ прямого пересчёта. Он состоит в том, что пока-

затели выборочной доли или средней распространяется

на генеральную совокупность с учётом ошибки выборки.

Так, в торговле определяется количество поступивших в

партии товара нестандартных изделий. Для этого (с учётом

принятой степени вероятности) показатели доли нестандарт-

ных изделий в выборке умножаются на численность изделий

во всей партии товара.

Способ поправочных коэффициентов. Применяется в

случаях, когда целью выборочного метода является уточне-

ние результатов сплошного учета.

В статистической практике этот способ используется

при уточнении данных ежегодных переписей скота, находя-

щегося у населения. Для этого после обобщения данных

сплошного учета практикуется 10%-ное выборочное обсле-

дование с определением так называемого «процента недоуче-

та».

Так, например, если в хозяйствах населения поселка по

данным 10%-ной выборки было зарегистрировано 52 головы

скота, а по данным сплошного учета в этом массиве значится

50 голов, то коэффициент недоучета составляет 4%

[(2*50):100]. С учетом полученного коэффициента вносится

поправка в общую численность скота, находящегося у насе-

ления данного поселка.

Способы отбора единиц из генеральной совокупности

В статистике применяются различные способы форми-

рования выборочных совокупностей, что обусловливается

задачами исследования и зависит от специфики объекта изу-

чения.

Основным условием проведения выборочного обследо-

вания является предупреждение возникновения систематиче-

~x

Page 58: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

58

ских ошибок, возникающих вследствие нарушения принципа

равных возможностей попадания в выборку каждой единицы

генеральной совокупности. Предупреждение систематиче-

ских ошибок достигается в результате применения научно

обоснованных способов формирования выборочной совокуп-

ности.

Существуют следующие способы отбора единиц из ге-

неральной совокупности:

1) индивидуальный отбор в выборку отбираются от-

дельные единицы;

2) групповой отбор в выборку попадают качественно

однородные группы или серии изучаемых единиц;

3) комбинированный отбор это комбинация индиви-

дуального и группового отбора.

Способы отбора определяются правилами формирова-

ния выборочной совокупности.

Выборка может быть:

собственно-случайная;

механическая;

типическая;

серийная;

комбинированная.

Собственно-случайная выборка состоит в том, что вы-

борочная совокупность образуется в результате случайного

(непреднамеренного) отбора отдельных единиц из генераль-

ной совокупности. При этом количество отобранных в выбо-

рочную совокупность единиц обычно определяется исходя из

принятой доли выборки.

Доля выборки есть отношение числа единиц выбороч-

ной совокупности n к численности единиц генеральной сово-

купности N, т.е.

.

Так, при 5%-ной выборке из партии товара в 2 000 ед.

численность выборки n составляет 100 ед. (5*2000:100), а при

20%-ной выборке она составит 400 ед. (20*2000:100) и т.д.

Kn

NB

Page 59: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

59

Механическая выборка состоит в том, что отбор единиц

в выборочную совокупность производится из генеральной

совокупности, разбитой на равные интервалы (группы). При

этом размер интервала в генеральной совокупности равен об-

ратной величине доли выборки.

Так, при 2%-ной выборке отбирается каждая 50-я еди-

ница (1:0,02), при 5%-ной выборке каждая 20-я единица

(1:0,05) и т.д.

Таким образом, в соответствии с принятой долей отбо-

ра, генеральная совокупность как бы механически разбивает-

ся на равновеликие группы. Из каждой группы в выборку от-

бирается лишь одна единица.

Важной особенностью механической выборки является

то, что формирование выборочной совокупности можно осу-

ществить, не прибегая к составлению списков. На практике

часто используют тот порядок, в котором фактически разме-

щаются единицы генеральной совокупности. Например, по-

следовательность выхода готовых изделий с конвейера или

поточной линии, порядок размещения единиц партии товара

при хранении, транспортировке, реализации и т.д.

Типическая выборка. При типической выборке гене-

ральная совокупность вначале расчленяется на однородные

типические группы. Затем из каждой типической группы

собственно-случайной или механической выборкой произво-

дится индивидуальный отбор единиц в выборочную сово-

купность.

Типическая выборка обычно применяется при изучении

сложных статистических совокупностей. Например, при вы-

борочном обследовании производительности труда работни-

ков торговли, состоящих из отдельных групп по квалифика-

ции.

Важной особенностью типической выборки является то,

что она дает более точные результаты по сравнению с други-

ми способами отбора единиц в выборочную совокупность.

Для определения средней ошибки типической выборки

используются формулы:

повторный отбор

Page 60: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

60

,

бесповторный отбор

,

Дисперсия определяется по следующим формулам:

,

Серийная выборка. При серийной выборке генеральную

совокупность делят на одинаковые по объему группы - серии.

В выборочную совокупность отбираются серии. Внутри се-

рий производится сплошное наблюдение единиц, попавших в

серию.

При бесповторном отборе серий средняя ошибка выбо-

рочной серии определяется по формуле:

,

где межсерийная дисперсия средних;

R число серий в генеральной совокупности;

r число отобранных серий.

В статистике различают одноступенчатые и многосту-

пенчатые способы отбора единиц в выборочную совокуп-

ность.

При одноступенчатой выборке каждая отобранная еди-

ница сразу же подвергается изучению по заданному призна-

ку. Так обстоит дело при собственно-случайной и серийной

выборке.

При многоступенчатой выборке производят подбор из

генеральной совокупности отдельных групп, а из групп вы-

бираются отдельные единицы. Так производится типическая

( )1

n

s

nx 2

( )11

n

n

N

s

n

n

Nx2

1

sn

n

i i i

i

2

1s

s n

n

i i

i

2

2

d

r

r

R

2

1

d 2

Page 61: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

61

выборка с механическим способом отбора единиц в выбо-

рочную совокупность.

Комбинированная выборка может быть двухступенча-

той. При этом генеральная совокупность сначала разбивается

на группы. Затем производят отбор групп, а внутри послед-

них осуществляется отбор отдельных единиц.

5.4. Основы статистической обработки эксперимен-

тальных данных

В теории вероятностей предполагается, что вероятности

наступления отдельных событий известны. Считаются из-

вестными законы распределения случайных величин или их

числовые характеристики. Как правило, на практике вероят-

ности наступления событий, законы распределения случай-

ных величин или параметры этих законов распределения не-

известны. Для их определения (оценивания) необходимо

производить эксперимент, специальные испытания.

При обработке эксперимента статистическими метода-

ми основные понятия теории вероятностей выступают как

некоторые модели реальных закономерностей.

Основой статистических методов являются эксперимен-

тальные данные, часто называемые статистическими данны-

ми.

Одним из основных методов статистического наблюде-

ния является выборочный метод.

Генеральная и выборочная совокупность

Пусть для исследования закономерностей случайного

явления произведено n опытов, в результате которых получен

ряд наблюдений x1, x2, ..., xn. Требуется обработать этот ряд

статистически. Для этого надо вначале построить математи-

ческую модель ряда наблюдений, т.е. указать, какие величи-

ны случайны, какие не случайны, какие зависимы, какие не

зависимы и т.д.

Page 62: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

62

Ставится задача оценить функцию распределения F(x)

исследуемой СВ X (статистической выборки), т.е. построить

уточненную вероятностную модель ряда наблюдений x1, x2,

..., xn, которая бы отражала в себе основные статистические

особенности этого ряда.

Наиболее точные сведения о случайной величине X

можно получить, производя максимально возможное количе-

ство измерений этой случайной величины.

Определение 1. Генеральной совокупностью называ-

ется совокупность всех мыслимых наблюдений, которые

могли бы быть сделаны при данном реальном комплексе

условий измерений. Число членов, входящих в генеральную

совокупность, называют объемом генеральной совокупно-

сти.

Определение 2. Выборочной совокупностью или про-

сто выборкой объема n называется совокупность n объ-

ектов, отобранных из исследуемой генеральной совокупно-

сти. Определение 3. Метод, состоящий в том, что на ос-

новании характеристик и свойств выборки х1, х2, ..., хn де-

лаются заключения о числовых характеристиках и законе

распределения СВ Х, называется выборочным методом. Для того чтобы сведения о законах распределения СВ Х

были объективны, необходимо, чтобы выборка была репре-

зентативной, т.е. представительной. Существуют специаль-

ные методы для этого.

Статистический закон распределения случайной

величины. Статистический ряд

Предположим, что изучается дискретная или непрерыв-

ная случайная величина, закон распределения которой неиз-

вестен. Для оценки закона распределения этой случайной ве-

личины и его числовых характеристик производится ряд не-

зависимых измерений x1, x2, ..., xn.Статистический материал

представляют в виде таблицы, состоящей из двух строк, в

первой из которых даны номера измерений, а во второй – ре-

зультаты измерений.

Page 63: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

63

i – номер измерения 1 2 ....

xi – результат измерений x1 х2 .... хn

Такую таблицу называют простым статистическим рядом.

Для того чтобы правильно оценить закон распределе-

ния СВ Х, производят группировку данных. Если X – дис-

кретная СВ, то наблюденные значения располагаются в по-

рядке возрастания и подсчитываются частоты mi или часто-

сти mi/n появления одинаковых значений СВ Х. В результате

получаем сгруппированные статистические ряды:

хi x1 х2 .... хk

mi m1 m2 .... mk

к

Контроль: mi = n .

i = 1

хi х1 х2 ...... хn

mi/n m1/n m2/n ...... mk/n

k

Контроль: mi/n = 1.

i =1

Если изучается непрерывная случайная величина, то

группировка заключается в разбиении интервала наблюден-

ных значений случайной величины на k частичных интерва-

лов равной длины [x0; x1 [, [x1; x2 [, [x2; x3 [, ...... [xk-1;xk] и под-

счете частоты или частости mi/n попадания наблюденных

значений в частичные интервалы. Количество интервалов

выбирается произвольно, обычно не меньше 5 и не больше

15.

В результате составляется интервальный статистиче-

ский ряд следующего вида:

СВХ [x0; x1 [ [x1; x2 [ .... [xk-1;xk]

mi/n m1/n m2/n .... mk/n

k

Контроль: mi/n = 1.

Page 64: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

64

i = 1

Определение. Перечень наблюденных значений СВ Х (или

интервалов наблюденных значений) и соответствующих

им частостей mi/n называется статистическим законом

распределения случайной величины.

Статистические законы позволяют визуально произве-

сти оценку закона распределения исследуемой случайной ве-

личины.

Эмпирическая функция распределения

Эмпирической функцией распределения случайной ве-

личины X называют функцию F*(x), определяющую для каж-

дого значения x частость события (X < x):

F*(x) = nx/n;

где nx – число хi, меньших x; n – объем выборки.

Из теоремы Бернулли следует, что при достаточно

большом объеме выборки функции F*(x) и F(x) = P(X < x) ма-

ло отличаются друг от друга.

Эмпирическая функция распределения обладает всеми

свойствами интегральной функции распределения:

1) значения эмпирической функции F*(x) принадлежат от-

резку [0, 1];

2) F*(x) – неубывающая функция;

3) если х1 – наименьшее, а xn наибольшее наблюденное

значение, то F*(x) = 0 при х < x1 и F*(x) = 1 при x > x1. Основное значение эмпирической функции распределения

состоит в том, что она используется в качестве оценки функ-ции распределения

F(x) = P(X < x).

Пример. Построить F*(x) по статистическому распределе-нию СВ Х: xi 2 3 5 mi/n 0.75 0.20 0.05

Page 65: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

65

Решение. Относительная частота события (Х < x) равна

F*(x). Следовательно,

195.075.0

0

)(* xF при

.5

;53

;32

;2

x

x

x

x

График F*(x) изображен на рис. 1.

Для наглядности, сгруппированные статистические ря-

ды изображают в виде графиков и диаграмм. Наиболее рас-

пространенными графиками являются полигон и гистограм-

ма. Полигон применяется для изображения как дискретных,

так и интервальных статистических рядов, гистограмма для

изображения только интервальных рядов.

Рис. 1 График эмпирической функции распределения

Пример. Результаты исследования прочности 200 об-

разцов бетона на сжатие представлены в виде интервального

статистического ряда.

интервалы прочности

кг/см2

частоты

mi

частости

mi/n

190 – 200

200 – 210

210 – 220

220 – 230

230 – 240

240 – 250

10

26

56

64

30

14

0.05

0.13

0.28

0.32

0.15

0.07

Page 66: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

66

n = mi = 200, mi/n = 1.

i

i

На рисунке 2 представлена гистограмма. На оси абсцисс

откладываются частичные интервалы наблюденных значений

случайной величины Х, на каждом из которых строим пря-

моугольник, площадь которого равна частости данного час-

тичного интервала. Высота элементарного прямоугольника

частостей равна mi/nh, где h – длина интервала.

Если на гистограмме частостей соединить середины

верхних сторон прямоугольников, то полученная замкнутая

ломаная линия образует полигон распределения частостей.

Рис. 2 Гистограмма

Основные законы распределения случайных величин,

используемых в математической статистике

Нормальное распределение

Нормальная модель распределения вероятностей играет

исключительно важную роль в теории вероятностей и мате-

матической статистике. Главная особенность нормального

распределения состоит в том, что оно является предельным, к

Page 67: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

67

которому приближаются другие распределения при соблю-

дении некоторых условий.

Нормальные распределения часто встречаются на прак-

тике в самых различных областях. Принято считать, что все

ошибки измерений, вес деталей, размер деталей, дальность

полета артиллерийского снаряда и многие другие случайные

величины имеют нормальное распределение.

Нормальное распределение задается функцией плотно-

сти вероятности:

2

2

2

)(

2

1)(

ax

exf , (1)

где а – математическое ожидание случайной величины Х ,

т.е. М (Х) = а;

среднее квадратичное отклонение СВ Х, т.е. )(XD

(D (X) – дисперсия случайной величины).

Из формулы (5.1) видно, что нормальная модель зависит

от двух параметров а и , поэтому ее называют двухпарамет-

рической моделью распределения.

Если случайная величина Х имеет нормальное распре-

деление с параметрами M(X) = a и )(XD , то этот факт

кратко записывают с помощью символичной записи: СВ

Х N (a, ).

График функции плотности вероятности называют нор-

мальной кривой или кривой Гаусса. Эта кривая изображена

на рисунке 3.

Page 68: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

68

Рис. 3 Кривая Гаусса

1) f(x) определена при всех х R.

2) Кривая нормального распределения симметрична относи-

тельно прямой х = а.

3) Кривая Гаусса имеет максимум в точке х = а:

2

1)(af .

4) Кривая Гаусса имеет две точки перегиба:

x1 = a - и x2 = a + .

5) Площадь, заключенная между кривой Гаусса и осью абс-

цисс, равна 1; между осью абсцисс, кривой Гаусса и прямыми

а 2 равна 0,95.

6) При увеличении (уменьшении) параметра максимальная

ордината уменьшается (увеличивается), см. рис. 4. Другими

словами, параметр характеризует форму кривой, при неиз-

менном положении центра кривой; так как площадь под кри-

вой Гаусса всегда равна 1 )1)(( dxxf , то, если увеличивает-

Page 69: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

69

ся, то кривая становится плоско - вершинной, уменьшается

– кривая Гаусса вытягивается вверх. Параметр иногда на-

зывают параметром масштаба.

7) Если изменять математическое ожидании а при неизмен-

ном , то кривая Гаусса будет смещаться вдоль оси абсцисс,

т.е. параметр а = М (Х) характеризует положение кривой при

неизменной форме. Иногда параметр a называют параметром

сдвига (см. рис. 5) .

Рис. 4 Кривая Гаусса при изменении параметра

Рис.5 Сдвиг кривой Гаусса

Page 70: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

70

Если СВ Х N (a, ), то случайная величина ax

U

имеет нормальное распределение с параметром 0)(UM и

(U) = 1, т.е. U N (0,1). Поэтому случайную величину ax

U

называют нормированной или стандартизованной нормаль-

ной величиной. Плотность распределения вероятностей нор-

мированной случайной величины U имеет вид:

2

2

π2

1)(

u

euf . (2)

Функция распределения СВ Х N (a, ) имеет следующий

вид: x x ax

dxedxxfxF2

2

2

)(

2

1)()( . (3)

Функция распределения нормализованной случайной вели-

чины

dteuUPuF

ut

2

2

2

1)()( .

Для облегчения вычисления вероятности попадания СВ Х N

(a, ) в интервал ] , [ вводится нормированная функция Ла-

пласа:

duex

x u

0

2

2

2

2)(

Тогда

))()((2

1)()()()(

aaxPFFxP

Используя нормированную функцию Лапласа, можно запи-

сать функцию распределения СВ Х N (a, ) в виде:

)(2

1

2

1)(

axxF

Page 71: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

71

Таблица 1

Плотность вероятностей нормированного нормального рас-

пределения: )1,0(Nu .2

1)( 2

2u

euf

U 0 1 2 3 4 5 6 7 8 9

0 0,4 3989 3989 3988 3986 3984 3982 3980 3977 3973

0,1 3970 3965 3961 3956 3951 3945 3939 3932 3925 3918

0,2 3910 3902 3894 3885 3876 3867 3857 3847 3836 3825

0,3 3814 3802 3790 3778 3765 3752 3739 3726 3712 3697

0,4 3683 3668 3653 3637 3621 3605 3589 3572 3555 3538

0,5 3521 3503 3485 3467 3448 3429 3410 3391 3372 3352

0,6 3332 3312 3292 3271 3251 3230 3209 3187 3166 3144

0,7 3123 3101 3079 3056 3034 3011 2989 2966 2943 2920

0,8 2897 2874 2850 2827 2803 2780 2756 2732 2709 2685

0,9 2661 2637 2613 2589 2565 2541 2516 2492 2468 2444

1 0,24 2396 2371 2347 2323 2299 2275 2251 2227 2203

1,1 2179 2155 2131 2107 2083 2059 2036 2012 1989 1965

1,2 1942 1919 1895 1872 1849 1826 1804 1781 1758 1736

1,3 1714 1691 1669 1647 1626 1604 1582 1561 1539 1518

1,4 1497 1476 1456 1435 1415 1394 1374 1354 1334 1315

1,5 1295 1276 1257 1238 1219 1200 1182 1163 1145 1127

1,6 1109 1092 1074 1057 1040 1023 1006 989 973 957

1,7 940 925 909 893 878 863 848 833 818 804

1,8 790 775 761 748 734 721 707 694 681 669

1,9 656 644 632 620 608 596 584 573 562 551

2 0,05 529 519 508 498 488 478 468 459 449

2,1 440 431 422 413 404 396 387 379 371 363

2,2 355 347 339 332 325 317 310 303 297 290

2,3 283 277 270 264 258 252 246 241 235 229

2,4 224 219 213 203 203 198 194 189 184 180

2,5 175 181 167 158 158 154 151 147 143 139

2,6 136 132 129 122 122 119 116 113 110 107

2,7 104 101 99 96 93 91 88 86 84 81

2,8 79 77 75 71 71 69 67 65 63 61

2,9 60 58 56 53 53 51 50 48 47 46

Page 72: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

72

Продолж. табл.1

U 0 1 2 3 4 5 6 7 8 9

3 0 43 42 40 39 38 37 36 35 34

3,1 33 32 31 30 29 28 27 26 25 25

3,2 24 23 22 22 21 20 20 19 18 18

3,3 17 17 16 16 15 15 14 14 13 13

3,4 12 12 12 11 11 10 10 10 9 9

3,5 9 8 8 8 8 7 7 7 7 6

3,6 6 6 6 5 5 5 5 5 5 4

3,7 4 4 4 4 4 4 3 3 3 3

3,8 3 3 3 3 3 2 2 2 2 2

3,9 2 2 2 2 2 2 2 2 1 1

Таблица 2

Нормальное распределение. Значение функции:

).(2

2)(

0

2

2

ii

u x

i uuPdxeui

Цел

ые

и д

есяти

чн

ые-

до

ли

ui

Сотые доли ui

0 1 2 3 4 5 6 7 8 9

0 0 0,01 0,02 0,02 0,03 0,4 0,05 0,06 0,06 0,07

0,1 797 876 955 1034 1113 1192 1271 1350 1428 1507

0,2 1585 1663 1741 1819 1897 1974 2051 2128 2205 2282

0,3 2358 2434 2510 2586 2661 2737 2812 2886 2960 3035

0,4 3108 3182 3255 3328 3401 3473 3545 3616 3688 3759

0,5 3829 3899 3969 4039 4108 4177 4245 4313 4381 4448

0,6 4515 4581 4647 4713 4778 4843 4907 4971 5035 5098

0,7 5161 5223 5285 5346 5407 5467 5527 5587 5646 5705

0,8 5763 5821 5878 5935 5991 6047 6102 6157 6211 6265

0,9 6319 6372 6424 6476 6528 6579 6629 6679 6729 6778

Page 73: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

73

Продолж. табл. 2

Ц

елы

е и

дес

яти

ч-

ны

едо

ли

ui

Сотые доли ui

0 1 2 3 4 5 6 7 8 9

1 0,68 0,69 0,69 0,7 0,7 0,71 0,71 0,72 0,72 0,72

1,1 7287 7330 7373 7415 7457 7499 7540 7580 7620 7660

1,2 7699 7737 7775 7813 7850 7887 7923 7959 7994 8029

1,3 8064 8098 8132 8165 8198 8230 8262 8293 8324 8355

1,4 8385 8415 8444 8473 8501 8529 8557 8584 8611 8638

1,5 8664 8690 8715 8740 8764 8789 8812 8836 8859 8882

1,6 8904 8926 8948 8969 8990 9011 9031 9051 9070 9090

1,7 9109 9127 9146 9164 9181 9199 9216 9233 9249 9265

1,8 9281 9297 9312 9327 9342 9357 9371 9385 9399 9412

1,9 9426 9439 9451 9464 9476 9488 9500 9512 9523 9534

2 0,95 0,96 0,96 0,96 0,96 0,96 0,96 0,96 0,96 0,96

2,1 9643 9651 9660 9668 9676 9684 9692 9700 9707 9715

2,2 9722 9729 9736 9743 9749 9756 9762 9768 9774 9780

2,3 9786 9791 9797 9802 9807 9812 9817 9822 9827 9832

2,4 9836 9841 9845 9849 9853 9857 9861 9865 9869 9872

2,5 9876 9879 9883 9886 9889 9892 9895 9898 9901 9904

2,6 9907 9910 9912 9915 9917 9920 9922 9924 9926 9928

2,7 9931 9933 9935 9937 9939 9940 9942 9944 9946 9947

2,8 9949 9951 9952 9953 9955 9956 9958 9959 9960 9961

2,9 9963 9964 9965 9966 9967 9968 9969 9970 9971 9972

3 1 1 1 1 1 1 1 1 1 1

3,1 9981 9981 9984 9983 9983 9984 9984 9985 9985 9986

3,2 9986 9987 9987 9988 9988 9989 9989 9989 9990 9990

3,3 9990 9991 9991 9991 9992 9992 9992 9992 9993 9993

3,4 9993 9994 9994 9994 9994 9994 9995 9995 9995 9995

3,5 9995 9996 9996 9996 9996 9996 9996 9996 9997 9997

3,6 9997 9997 9997 9997 9997 9997 9998 9998 9998 9998

3,7 9998 9998 9998 9998 9998 9998 9998 9998 9998 9998

Page 74: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

74

Продолж. табл.2

Ц

елы

е и

дес

яти

ч-

ны

едо

ли

ui

Сотые доли ui

0 1 2 3 4 5 6 7 8 9

3,8 9999 9999 9999 9999 9999 9999 9999 9999 9999 9999

3,9 9999 9999 9999 9999 9999 9999 9999 9999 9999 9999

4 1 9999 9999 9999 9999 9999 9999 9999 9999 9999

4,5 1 - - - - - - - - -

5 1 - - - - - - - - -

Распределение 2 (хи – квадрат)

Рассмотрим случайную величину Y, распределенную по

нормальному закону

Y N (a, ). Тогда случайная величина 2aYU распреде-

лена по нормальному закону с параметрами M (U) = 0 и (U)

= 1, т.е. U N (0, 1).

Квадрат такой стандартизованной случайной величины

22 χ)(

aYU

называется случайной величиной 2 (хи – квадрат) с одной

степенью свободы.

Рассмотрим n независимых случайных величин Y1, Y2,

..., Yn, распределенных по нормальному закону с M (Yi) = ai и

средними квадратическими отклонениями i, ni ,1 .

Образуем для каждой из этих случайных величин стандарти-

зованную случайную величину

i

ii

i

aYU , ni ,1 .

Page 75: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

75

Сумма квадратов стандартизованных переменных

22

2

222

1

1122

2

2

1

2 )(...)()(...n

nn

n

aYaYaYUUU называется

случайной величиной 2 с = n степенями свободы.

Плотность распределения СВ 2 имеет вид:

2

χ1

2

ν

2

2

ν

2

2

)χ(

)2

ν(Γ2

1

,0

)χ( ef, если

2 0.

Итак, распределение 2 зависит от одного параметра - чис-

ла степеней свободы.

Функция распределения 2 имеет вид:

)χ()χ(

)2

ν(Γ2

1

,0

)χχ()χ( 22

χ

0

12

ν

2

2

ν

2

0

22

22

dePF, если

2 0.

На рис. 6 и 7 изображены графики плотности вероятно-

сти и функции 2 – распределения.

В практике, как правило, используются не f (2) и F(

2), а

квантили 2 – распределения

2

, . Квантилем2

, , отвечающим за-

данному уровню вероятности , называется такое значение 2

=2

, , при котором

2,

)()()( 222

,

2 dfP .

Нахождение квантиля, с геометрической точки зрения, за-

ключается в том, чтобы выбрать такое значение 2 =

2

, , при

Page 76: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

76

котором площадь заштрихованной криволинейной трапеции

(см. рис 6) была бы равна .

Рис. 6 График плотности вероятности

Таблица 3

.2- распределение. Значения квантилей

2, в зависимости

от числа степеней свободы и вероятности .

0,40 0,30 0,20 0,10 0,050 0,025 0,010 0,005 0,001 0,0005

1 0,33 0,73 1,38 3,078 6,31 12,7 31,8 63,7 318 636,6

2 0,29 0,62 1,06 1,886 2,92 4,3 6,97 9,93 22,3 31,6

3 0,28 0,58 0,98 1,638 2,35 3,18 4,54 5,84 10,2 12,94

4 0,27 0,57 0,94 1,533 2,13 2,78 3,75 4,6 7,17 8,61

5 0,27 0,56 0,92 1,476 2,02 2,57 3,37 5,03 5,89 6,859

6 0,27 0,55 0,91 1,44 1,94 2,45 3,14 3,71 5,21 5,959

7 0,26 0,55 0,9 1,415 1,9 2,37 3 3,5 4,79 5,405

8 0,26 0,55 0,89 1,397 1,86 2,31 2,9 3,36 4,5 5,041

Page 77: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

77

Продолж. табл.3

0,40 0,30 0,20 0,10 0,050 0,025 0,010 0,005 0,001 0,0005

9 0,26 0,54 0,88 1,383 1,83 2,26 2,82 3,25 4,3 4,781

10 0,26 0,54 0,88 1,372 1,81 2,23 2,76 3,17 4,14 4,587

11 0,26 0,54 0,88 1,363 1,8 2,2 2,72 3,11 4,03 4,437

12 0,26 0,54 0,87 1,356 1,78 2,18 2,68 3,06 3,93 4,318

13 0,26 0,54 0,87 1,35 1,77 2,16 2,65 3,01 3,85 4,221

14 0,26 0,54 0,87 1,345 1,76 2,15 2,62 3,98 3,79 4,14

15 0,26 0,54 0,87 1,341 1,75 2,13 2,6 2,95 3,73 4,073

16 0,26 0,54 0,87 1,337 1,75 2,12 2,58 2,92 3,69 4,015

17 0,26 0,53 0,86 1,333 1,74 2,11 2,57 2,9 3,65 3,965

18 0,26 0,53 0,86 1,33 1,73 2,1 2,55 2,88 3,61 3,922

19 0,26 0,53 0,86 1,328 1,73 2,09 2,54 2,86 3,6 3,883

20 0,26 0,53 0,86 1,325 1,73 2,09 2,53 2,85 3,55 3,85

21 0,26 0,53 0,86 1,323 1,72 2,08 2,52 2,83 3,53 3,819

22 0,26 0,53 0,86 1,132 1,72 2,07 2,51 2,82 3,51 3,792

23 0,26 0,53 0,86 1,319 1,71 2,07 2,5 2,81 3,49 3,767

Распределение Стьюдента

Распределение Стьюдента (t – распределение) имеет

важное значение при статистических вычислениях, связан-

ных с нормальным законом, а именно тогда, когда среднее

квадратическое отклонение неизвестно и подлежит опреде-

лению по опытным данным.

Page 78: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

78

Рис. 7 График функции

2 – распределения.

Пусть Y,Y1, Y2, ..., Yn – независимые случайные величи-

ны, имеющие нормальное распределение с параметрами M

(Y) = M (Yi) = 0 и Y = Yi = 1, ni ,1 .

Случайная величина

2

1

2 11n

n

i

in

Y

Yn

Yt

, (4)

являющаяся функцией нормально распределенных случай-

ных величин, называется безразмерной дробью Стьюдента.

Плотность распределения случайной величины t имеет

вид:

2

12

)1(

)2

(

)2

1(

),()(t

tStf , t (5),

где - число слагаемых в подкоренном выражении дроби

Стьюдента, т.е. = n. такое обозначение числа степеней сво-

боды общепринято в математической статистике.

Из формулы (5) видно, что распределение СВ t зависит

только от одного параметра – числа степеней свободы , рав-

Page 79: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

79

ного числу слагаемых в подкоренном выражении дроби

Стьюдента (4).

Известно, что математическое ожидание и дисперсия

СВ t соответственно равны

0)(tM ; 2

)(tD ; )2( .

На рис. 8 изображен график плотности распределения

Стьюдента при различных степенях свободы. Замечаем, что

при увеличении числа степеней свободы он приближается к

кривой Гаусса.

Рис. 8 График плотности распределения Стьюдента при различ-

ных степенях свободы

В статистических расчетах используются квантили t –

распределения ;

2

t . Значения квантилей находятся из реше-

ния уравнения:

;2

)(2)(;

2 t

dttfttP.

С геометрической точки зрения, нахождение квантилей ;

2

t

заключается в том выборе значения t = ;

2

t , при котором

Page 80: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

80

суммарная площадь заштрихованных на рис. 9 криволиней-

ных трапеций была бы равна .

Рис. 9 Нахождение квантилей

Точечные оценки параметров нормального распределе-

ния

Пусть СВ Х имеет нормальное распределение: Х N (a,

). Параметры а, нормального распределения, как правило,

неизвестны. С целью их определения производится экспери-

мент, в результате которого фиксируется n значений случай-

ной величины Х: х1, х2, ..., хn.

Результаты измерения х1, х2, ..., хn рассматривают как

выборку объема n из бесконечной генеральной совокупности.

На основании этой выборки необходимо «оценить» (найти

приближенные значения) двух параметров – математического

ожидания а и среднего квадратического отклонения .

Вообще говоря, по результатам выборки, какого бы

большого размера она ни была, нельзя определить точные

значения неизвестных параметров а и , но можно найти их

приближенные значения ,a , которые называются оценками.

Page 81: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

81

Для нахождения приближенных значений ,a , неизвест-

ных параметров а и нормального закона будем рассматри-

вать функции вида:

),...,,( 21 nxxxaa , ),...,,( 21 nxxx , которые называются выбо-

рочными функциями или статистиками.

Задача оценки неизвестных параметров а и сводится к

нахождению таких статистик ),...,,( 21 nxxxaa , ),...,,( 21 nxxx ,

которые могут быть использованы для приближенного опре-

деления значений неизвестных параметров а и .

Оценки параметров подразделяются на точечные и ин-

тервальные. Точечная оценка параметра (где под будем

понимать либо а, либо ) определяется одним числом ).,...,,( 21 nxxx

Интервальной оценкой называют оценку, которая опре-

деляется двумя числами 1 и 2 - концами интервала, накры-

вающего оцениваемый параметр .

Можно показать, что если СВ Х N (a, ), то точечные

оценки неизвестных параметров a и находятся по форму-

лам:

;1

)(_

1

xxn

xMan

i

i (6),

;1

)(1

2_

n

xx

S

n

i

i

(7).

Эти оценки обладают свойствами несмещенности, со-

стоятельности и эффективности.

Интервальные оценки параметров нормального

распределения

Пусть Х N (a, ), причем а и неизвестны. Для нахож-

дения точечных оценок а и из генеральной совокупности

извлечена выборка объемом n. Пусть на основании этой вы-

борки найдены точечные несмещенные оценки неизвестных

параметров а и по формулам (6) и (7).

Page 82: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

82

Точечные оценки, найденные по выборке объемом n, не

позволяют непосредственно ответить на вопрос, какую

ошибку мы допускаем, принимая вместо точного значения

неизвестного параметра а или его приближенные значения

,a .

Поэтому во многих случаях выгоднее пользоваться ин-

тервальной оценкой, основанной на определении некоторого

интервала, внутри которого с определенной вероятностью

находится неизвестное значение параметра а (или ).

Пусть найденная по результатам выборки объема n ста-

тистическая характеристика ),...,,( 21 nxxx является точеч-

ной оценкой неизвестного параметра . Чем меньше разность

, тем лучше качество оценки, тем она точнее. Таким об-

разом, положительное число характеризует точность оцен-

ки

. (8)

Однако статистический метод не позволяет категориче-

ски утверждать, что оценка удовлетворяет неравенству (8) в

смысле математического анализа. Можно только говорить о

вероятности (1- ), с которой это неравенство выполняется.

Доверительной вероятностью оценки называют вероят-

ность (1- ) выполнения неравенства . Обычно довери-

тельная вероятность оценки задается заранее. Наиболее часто

полагают (1- ) = 0,95; 0,99; 0,9973. Доверительная вероят-

ность точечной оценки показывает, что при извлечении вы-

борки объема n из одной и той же генеральной совокупности

в (1- ) 100% случаях параметр будет накрываться данным

интервалом.

Пусть вероятность того, что равна (1- )

1)(P . (9)

Преобразуем формулу (7.2)

1)(P . (10)

Page 83: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

83

Последняя формула показывает, что неизвестный параметр

заключен внутри интервала , . Этот интервал на-

зывается доверительным.

Итак, доверительный интервал , накрывает

неизвестный параметр с заданной надежностью (1- ).

В практических приложениях важную роль играет дли-

на доверительного интервала. Чем меньше длина довери-

тельного интервала , , тем точнее оценка.

Из формулы (5.10) длина доверительного интервала

равна 2 . Из этой формулы видно, что длина доверительного

интервала 2 определяется двумя величинами: доверитель-

ной вероятностью (1- ) и объемом выборки n. Таким обра-

зом, , (1- ) и n тесно взаимосвязаны и, задавая определен-

ные значения двум из них, можно определить величину

третьей.

Если известно, то доверительный интервал, накры-

вающий неизвестное математическое ожидание с заданной

доверительной вероятностью (1- ), имеет следующий вид:

nuxa

nux

2

_

2

_

, (11)

где _

x - средняя арифметическая результатов измерений; n

iix

nx

1

_ 1

n – объем выборки;

2

u квантиль нормированного нормального распределения,

определяемый по доверительной вероятности (1- );

nu

2

точность (предельная погрешность) точечной оцен-

ки математического ожидания.

Для наиболее употребительных значений доверительной

вероятности (1- ) квантили стандартизованного нормального

распределения приведены в сокращенной таблице:

Page 84: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

84

(1- ) 2

u

0,90

0,95

0,99

0,9973

0,999

1,64

1,96

2,58

3,00

3,37

Анализируя формулу доверительного интервала, зада-

ваемого системой неравенств (5.11), можно заметить, что:

а) увеличение объема выборки n приводит к уменьше-

нию длины доверительного интервала;

б) увеличение доверительной вероятности (1- ) приво-

дит к увеличению длины доверительного интервала, т.е. к

уменьшению точности n

u2

αε ;

в) если задать точность и доверительную вероятность

(1- ), то из соотношения n

u2

αε можно найти минимальный

объем выборки, который обеспечивает заданную точность.

Если же неизвестно, тогда доверительный интервал,

накрывающий неизвестное математическое ожидание а СВ

Х N (a, ), имеет следующий вид:

n

Stxa

n

Stx

nn 1;2

_

1;2

_

, (12)

где 1;

2n

t - квантиль распределения Стьюдента, определяемый

по таблицам по заданной доверительной вероятности P = (1-

) и числу степеней свободы = n-1 (n – объем выборки);

Sx,_

- точечные несмещенные оценки параметров нормального

распределения;

Page 85: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

85

n

St

n 1;2

- предельная погрешность точечного оценивания

математического ожидания СВ Х N (a, ) при неизвестном

обладает теми же свойствами, что и при известном .

Доверительный интервал для среднего квадратического

отклонения задается системой неравенств

2

1;2

1

2

1;2

11

nn

nS

nS , (13)

где 2

1;2

n; 2

1;2

1 n- квантили

2 распределения, определенные по

таблице распределения 2 по заданной доверительной веро-

ятности (1- ) и числу степеней свободы = n-1.

Значение величин 2

1;2

1

1

n

2

1;2

1

2

1

n

nприведены в

таблице 5.

Таблица 4

Распределения Стьюдента

Значения t , удовлетворяют условию

.),()(

,

,

t

dttSttP

Значения квантилей t , в зависимости от числа степеней

свободы и вероятности .

α

0,4 0,3 0,2 0,1 0,05 0,025 0,01 0,005 0,001

1 0,325 0,727 1,376 3,078 6,314 12,71 31,82 63,66 318,3

2 0,289 0,617 1,061 1,886 2,92 4,303 6,965 9,925 22,33

3 0,277 0,584 0,978 1,638 2,353 3,182 4,541 5,841 10,22

4 0,271 0,569 0,941 1,533 2,132 2,776 3,747 4,604 7,173

Page 86: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

86

Продолж. табл. 4

0,4 0,3 0,2 0,1 0,05 0,025 0,01 0,005 0,001

5 0,267 0,559 0,92 1,476 2,015 2,571 3,365 5,032 5,893

6 0,265 0,553 0,906 1,44 1,943 2,447 3,143 3,707 5,208

7 0,263 0,549 0,896 1,415 1,895 2,365 2,998 3,499 4,785

8 0,262 0,546 0,889 1,397 1,86 2,306 2,896 3,355 4,501

9 0,261 0,543 0,883 1,383 1,833 2,262 2,821 3,25 4,297

10 0,26 0,542 0,879 1,372 1,812 2,228 2,764 3,169 4,144

11 0,26 0,54 0,876 1,363 1,796 2,201 2,718 3,106 4,025

12 0,259 0,539 0,873 1,356 1,782 2,179 2,681 3,055 3,93

13 0,259 0,538 0,87 1,35 1,771 2,16 2,65 3,012 3,852

14 0,258 0,537 0,868 1,345 1,761 2,145 2,624 3,977 3,787

15 0,258 0,536 0,866 1,341 1,753 2,131 2,602 2,947 3,733

16 0,258 0,535 0,865 1,337 1,746 2,12 2,583 2,921 3,686

17 0,257 0,534 0,863 1,333 1,74 2,11 2,567 2,898 3,646

18 0,257 0,534 0,862 1,33 1,734 2,101 2,552 2,878 3,611

19 0,257 0,533 0,861 1,328 1,729 2,093 2,539 2,861 3,597

20 0,257 0,533 0,86 1,325 1,725 2,086 2,528 2,845 3,552

21 0,257 0,533 0,859 1,323 1,721 2,08 2,518 2,831 3,527

22 0,256 0,532 0,858 1,1321 1,717 2,074 2,508 2,819 3,505

23 0,256 0,532 0,858 1,319 1,714 2,069 2,5 2,807 3,485

24 0,256 0,531 0,857 1,318 1,711 2,064 2,492 2,797 3,467

25 0,256 0,531 0,856 1,316 1,708 2,06 2,485 2,787 3,45

26 0,256 0,531 0,856 1,315 1,706 2,056 2,479 2,779 3,435

27 0,256 0,531 0,855 1,314 1,703 2,052 2,473 2,771 3,421

28 0,256 0,53 0,855 1,313 1,701 2,048 2,467 2,763 3,408

29 0,256 0,53 0,854 1,311 1,699 2,045 2,462 2,756 3,396

30 0,256 0,53 0,854 1,31 1,697 2,042 2,457 2,75 3,385

40 0,256 0,529 0,851 1,303 1,684 2,021 2,423 2,704 3,307

50 0,255 0,528 0,849 1,298 1,676 2,009 2,403 2,678 3,262

60 0,255 0,527 0,848 1,296 1,671 2 2,39 2,66 3,232

80 0,254 0,527 0,846 1,292 1,664 1,99 2,374 2,639 3,195

100 0,254 0,526 0,846 1,29 1,66 1,984 2,365 2,622 3,174

200 0,254 0,525 0,843 1,286 1,653 1,972 2,345 2,601 3,131

500 0,253 0,525 0,842 1,283 1,648 1,965 2,334 2,586 3,106

0,253 0,524 0,842 1,282 1,645 1,96 2,326 2,576 3,09

Page 87: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

87

Таблица 5

Доверительные интервалы для . Нижние 1 и верхние 2 гра-

ницы доверительного интервала.

ss 21 ))(1

1(

1

2n

i

i xxn

s

P

0,99 0,98 0,95 0,9

1 0,356 159 0,388 79,8 0,446 31,9 0,51 15,9

2 0,434 14,1 0,466 9,97 0,521 6,28 0,578 4,4

3 0,483 6,47 0,514 5,11 0,566 3,73 0,62 2,92

4 0,519 4,39 0,549 3,67 0,599 2,87 0,649 2,37

5 0,546 3,48 0,576 3 0,624 2,45 0,672 2,09

6 0,569 2,98 0,597 2,62 0,644 2,202 0,69 1,916

7 0,588 2,66 0,616 2,377 0,661 2,035 0,705 1,797

8 0,604 2,44 0,631 2,205 0,675 1,916 0,718 1,711

9 0,618 2,277 0,644 2,076 0,688 1,826 0,729 1,645

10 0,63 2,154 0,656 1,977 0,699 1,755 0,739 1,593

11 0,641 2,056 0,667 1,898 0,708 1,698 0,748 1,55

12 0,651 1,976 0,677 1,833 0,717 1,651 0,755 1,515

13 0,66 1,91 0,685 1,779 0,725 1,611 0,762 1,485

14 0,669 1,854 0,693 1,733 0,732 1,577 0,769 1,46

15 0,676 1,806 0,7 1,694 0,739 1,548 0,775 1,437

16 0,683 1,764 0,707 1,659 0,745 1,522 0,78 1,418

17 0,69 1,727 0,713 1,629 0,75 1,499 0,785 1,4

18 0,696 1,695 0,719 1,602 0,756 1,479 0,79 1,385

19 0,702 1,666 0,725 1,578 0,76 1,46 0,794 1,37

20 0,707 1,64 0,73 1,556 0,765 1,444 0,798 1,358

21 0,712 1,617 0,734 1,536 0,769 1,429 0,802 1,346

22 0,717 1,595 0,739 1,519 0,773 1,416 0,805 1,335

23 0,722 1,576 0,743 1,502 0,777 1,402 0,809 1,326

24 0,726 1,558 0,747 1,487 0,781 1,391 0,812 1,316

25 0,73 1,541 0,751 1,473 0,784 1,38 0,815 1,308

26 0,734 1,526 0,755 1,46 0,788 1,371 0,818 1,3

27 0,737 1,512 0,758 1,448 0,791 1,361 0,82 1,293

Page 88: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

88

Продолж. табл. 5

P

0.99 0.98 0.95 0.90

28 0,741 1,499 0,762 1,436 0,794 1,352 0,823 1,286

29 0,744 1,487 0,765 1,426 0,796 1,344 0,825 1,279

30 0,748 1,475 0,768 1,417 0,799 1,337 0,828 1,274

40 0,774 1,39 0,792 1,344 0,821 1,279 0,847 1,228

50 0,793 1,336 0,81 1,297 0,837 1,243 0,861 1,199

60 0,808 1,299 0,824 1,265 0,849 1,217 871 1,179

70 0,82 1,272 0,835 1,241 0,858 1,198 0,879 1,163

80 0,829 1,25 0,844 1,222 0,866 1,183 0,886 1,151

90 0,838 1,233 0,852 1,207 0,873 1,171 0,892 1,141

100 0,845 1,219 0,858 1,195 0,878 1,161 0,897 1,133

200 0,887 1,15 0,897 1,13 0,912 1,11 0,925 1,09

Критерий согласия 2

Предположим, что по виду гистограммы или полигона

частостей или из каких-либо других соображений удается

выдвинуть гипотезу о множестве функций определенного

вида (нормальных, показательных, биномиальных и т. п.), к

которому может принадлежать функция распределения ис-

следуемой СВ Х. Критерий 2 Пирсона позволяет произво-

дить проверку согласия эмпирической функции распреде-

ления F*(x) с гипотетической функцией распределения F(x).

Для этого придерживаются следующей последовательно-

сти действий:

1) на основании гипотетической функции F(x) вычисляют ве-

роятность попадания СВ Х в частичные интервалы ii xx ,1 :

)()( 11 iixii xFxFxXxPp ; i =1, 2, ..., k;

2) умножая полученные вероятности pi на объем выборки n,

получают теоретические частоты npi частичных интервалов

ii xx ,1 ,т.е. частоты, которые следует ожидать, если гипотеза

справедлива;

3) вычисляют выборочную статистику (критерий) 2:

Page 89: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

89

2набл. =

k

i i

ii

np

npm

1

2)(.

Можно показать, что если гипотеза верна, то при n

распределение выборочной статистики, независимо от вида

функции F(x), стремится к распределению 2 с = k-r-1 сте-

пенями свободы ( k – число частичных интервалов, r - число

параметров гипотетической функции F(x), оцениваемых по

данным выборки).

Критерий 2 сконструирован таким образом, что чем

ближе к нулю наблюдаемое значение критерия 2, тем веро-

ятнее, что гипотеза справедлива. Поэтому для проведения

гипотезы применяется критерий 2 с правосторонней крити-

ческой областью. Необходимо найти по таблицам квантилей 2 – распределения по заданному уровню значимости и

числу степеней свободы = k-r-1 критическое значение 2

, ,

удовлетворяющее условию αχχ 2

ν,α

2p .

Если 2набл.

2, , то считается, что гипотетическая

функция F(x) не согласуется с результатами эксперимента.

Если 2набл.

2, , то считается, что гипотетическая функция

F(x) согласуется с результатами эксперимента.

Замечание. При применении критерия 2 необходимо,

чтобы в каждом частичном интервале было не менее 5 эле-

ментов. Если число элементов (частота) меньше 5, то реко-

мендуется объединять такие частичные интервалы с сосед-

ними.

Page 90: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

90

6. КРАТКИЙ ОБЗОР ПРОГРАММНЫХ СРЕДСТВ

ДЛЯ ОБРАБОТКИ ДАННЫХ

Для успешного и прибыльного функционирования в ус-

ловиях рынка и жесткой конкуренции фирмы, банки, страхо-

вые компании и т.д. нуждаются в тщательном анализе

имеющейся информации о создании продукции, её сбыте,

эксплуатации, а также анализ информации о конкурентах и т.

п. и получении из нее надежных и обоснованных выводов.

Поэтому потребность в средствах статистического анализа

данных очень велика.

Именно этот факт и послужил причиной для развития

рынка статистических программ, на котором предлагаются

множество разнообразных программ. Различные по объему и

качеству реализованной статистики, области возможного

применения, пользовательскому интерфейсу, цене, требова-

ниям к оборудованию и т.п., они отражают многообразие по-

требностей обработки данных в различных областях челове-

ческой деятельности.

Компьютерные системы для анализа данных - пакеты

статистических программ - считаются наукоемкими про-

граммными продуктами, но, пожалуй, наиболее широко при-

меняются в практической и исследовательской работе в са-

мых разнообразных областях.

На сегодняшний день информационный рынок насчи-

тывает около тысячи (или даже более) пакетов, решающих

задачи статистического анализа данных.

Большую часть статистических пакетов можно разбить

на две группы – это статистические пакеты общего назначе-

ния и специализированные программные продукты.

Универсальные пакеты, при отсутствии прямой ориен-

тации на специфическую предметную область, предлагают

широкий диапазон статистических методов. Они характери-

зуются понятным, дружественным интерфейсом. Из зару-

бежных универсальных пакетов наиболее распространены,

SAS, SPSS, MINITAB, Statgraphics, Statistica.

Page 91: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

91

Специализированные пакеты, как правило, реализуют

несколько статистических методов или методы, применяемые

в конкретной предметной области. Чаще всего это системы,

ориентированные на анализ временных рядов, корреляцион-

но-регресионный, факторный или кластерный анализ. При-

менять такие пакеты целесообразно в тех случаях, когда тре-

буется систематически решать задачи из этой области, для

которой предназначен специализированный пакет, а возмож-

ностей пакетов общего назначения недостаточно.

Из российских пакетов более известны STADIA, Олимп,

Класс-Мастер, КВАЗАР, Статистик-Консультант; американ-

ские пакеты – ODA, WinSTAT, Statit и т.д.

Статистический пакет в идеале должен удовлетворять

определенным требованиям:

модульность;

ассистирование при выборе способа обработки данных;

использование простого проблемно-ориентированного

языка для формулировки задания пользователя;

автоматическая организация процесса обработки дан-

ных и связей с модулями пакета;

ведение банка данных пользователя и составление отче-

та о результатах проделанного анализа;

диалоговый режим работы пользователя с пакетом;

совместимость с другим программным обеспечением.

Существующая классификация статистических пакетов

предлагает делить их на четыре группы:

интегрированные методо-ориентированные пакеты об-

щего назначения;

специализированные методо-ориентированные пакеты;

предметно- (или проблемно-) ориентированные пакеты;

обучающие программы.

Ввиду того, что в настоящее время стали очень попу-

лярны статистические методы обработки данных, соответст-

вующие средства стали включаться в табличные процессоры

общего назначения (например, в Еxcеl, Lоtus 1-2-3 и т.д.), а

также в некоторые базы данных.

Page 92: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

92

Рассмотрим пакеты первых двух групп, поскольку

именно они обслуживают весьма широкий спектр приклад-

ных задач.

6.1. Система SAS

Упоминание об использовании системы SAS занимает

одно из ведущих мест в публикациях, посвященных стати-

стическим исследованиям.

Система SAS известна с 1976 г. и способна работать под

управлением практически любой операционной системы

(ОС). Установка SAS на компьютер приводит к инсталляции

своей собственной операционной системы, которая, однако,

способна обмениваться данными из приложений, работаю-

щих под управлением других ОС.

SAS включает свыше 20 различных программных про-

дуктов, объединенных друг с другом «средствами доставки

информации» (Information Delivery System или IDS, так что

весь пакет иногда обозначается как SAS/IDS). Под понятием

IDS подразумевается, что пользователю SAS достаточно по-

ставить на свой компьютер кроме ОС систему SAS и этим

ограничиться для 100% информатизации деятельности (все

остальные функции типа задач, решаемых на основе Excel,

Word, любой из СУБД и др. полностью возьмет на себя

SAS/IDS).

Традиционно сложилось, что основными отечественны-

ми пользователями системы являются предприятия ВПК,

крупные бизнесмены (некоторые банки, включая Центро-

банк, биржи, торговые фирмы), некоторые атомные станции,

крупнейшие медицинские и геофизические центры, крупные

государственные структуры.

Основным достоинством SAS является непревзойденная

мощность по набору статистических алгоритмов среди уни-

версальных пакетов. Кроме того, SAS предоставляет пользо-

вателю возможность подключения собственных оригиналь-

ных алгоритмов. Использованием SAS возможно решить

практически любые задачи как систематизации данных, так и

практически любого вида статистического анализа. Однако

Page 93: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

93

высокая стоимость системы и малая распространенность ее в

России делает ее малоизвестной среди отечественных спе-

циалистов.

6.2. Пакет SPSS для Windows

Пакет SPSS предназначен, в первую очередь, для стати-

стиков-профессионалов. Он включает развитый аппарат ста-

тистического анализа, соизмеримый по мощности с SAS.

Программу SPSS для Windows считают в настоящее

время одним из лидеров среди универсальных статистиче-

ских пакетов. Скрипты на языке SPSS научиться самостоя-

тельно писать способен даже специалист без начального про-

граммистского образования.

SPSS имеет удобные графические средства (более 50

типов диаграмм), а также развитые средства подготовки от-

четов. Аналитические параметры отображаются на экране в

виде простых и понятных меню и диалоговых окон. Контек-

стно-ориентированная справочная система содержит пошаго-

вые инструкции для наиболее важных операций.

В литературных источниках, упоминания об использо-

вании SPSS встречаются практически наравне с упомина-

ниями о SAS.

6.3. Универсальная статистическая система SYSTAT

Универсальная статистическая система SYSTAT разра-

ботана одноименной фирмой, которая с сентября 1994 г. по-

глощена корпорацией SPSS. Главное достоинство пакета -

исключительно широкий диапазон и глубина проработки

функционального наполнения. Здесь есть широкие возмож-

ности и для слабо подготовленного в статистике пользовате-

ля и для достаточно искушенного статистика.

Для исследователя этот программный продукт пред-

ставляет интерес благодаря наличию алгоритмов анализа

шкал опросников, таких, как анализ внутреннего постоянст-

ва, многомерное шкалирование, классический и логит-анализ

пунктов шкалы.

Page 94: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

94

6.4. Пакет MINITAB

Пакет MINITAB развивается более 20 лет и широко из-

вестен в США, где он является одним из основных учебных

пакетов. Пакет также работает на компьютерах Macintosh.

MINITAB хорошо продуман по разделу описательной

(дескриптивной) статистики, хорошо сконструирован и

управляется с помощью удобного меню, или, по желанию

пользователя, через команды, составлять которые помогают

диалоговые окна пакета. Часто используемые команды мож-

но запускать по их первой букве. Общее число команд пре-

вышает 200. Можно составлять специальные макросы для

выполнения последовательностей команд.

Импорт/экспорт данных из других Windows-

приложений делается через стандартный буфер обмена.

В пакете имеются разнообразные возможности по

управлению данными. Пользователь Minitab при исследова-

нии может легко и быстро решать практически все типовые

задачи, в основном из области получения описательных ста-

тистик и сравнения групповых средних, анализа временных

рядов.

Если на этапе создания и валидации опросника исследо-

вания требуется применение методов многомерной статисти-

ки, то Minitab позволяет находить главные компоненты или

же проводить стандартный линейный или даже квадратич-

ный дискриминантный анализ, использовать алгоритмы фак-

торного и кластерного анализа.

Кроме того, Minitab позволяет получать множество хо-

роших и сложных полноцветных графиков. В плане характе-

ристики мощности Minitab достаточно силен и разнообразен,

поэтому говорят, что первые четыре буквы пакета скорее на-

до поменять на Maxi.

Page 95: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

95

6.5. Пакет STATISTICA 6.0

Пакет Statistica 6.0 не стоит использовать пользователю-

новичку в статистике, так как он предполагает владение ста-

тистической терминологией. Тем не менее, на отечественном

рынке этот пакет пользуется популярностью благодаря высо-

кой активности фирмы-разработчика Statsoft и дилера в Рос-

сии - Softline, способствующих популяризации пакета (см.

сайт www.statsoft.ru).

Ряд авторов считает, что пакет Statistica является хоро-

шо сбалансированным по соотношению "мощ-

ность/удобство". Наличие достаточно широкого спектра

функциональных алгоритмов делает его достаточно привле-

кательным для статистиков-профессионалов. В частности, он

включает в себя ряд непараметрических методов анализа, ме-

тоды многомерного анализа: дискриминантного, факторного

кластерного, логлинейного и др.

Statistica 6.0 предоставляет возможности анализа шкал и

пунктов, а также обладает развитым блоком анализа мощно-

сти и необходимого количества наблюдений.

Средства манипулирования исходными данными в па-

кете Statistica хорошо развиты. Данные относительно легко

отредактировать, можно создавать новые переменные ("при-

знаки"), выбирать отдельные наблюдения или "вырезать"

подмножество данных по строкам и/или по столбцам табли-

цы "объект-признак".

Благодаря обширной панели инструментов, для выпол-

нения большинства манипуляций достаточно несколько

щелчков мышки, так как почти для всех функций пакета

здесь имеются пиктограммы.

Сильной стороной пакета является графика и средства

редактирования графических материалов. В пакете представ-

лены сотни типов графиков 2D или 3D, матрицы и пикто-

граммы. Предоставляется возможность разработки собствен-

ного дизайна графика.

Средства управления графиками позволяют работать

одновременно с несколькими графиками, изменять размеры

сложных объектов, добавлять художественную перспективу

Page 96: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

96

и ряд специальных эффектов, разбивку страниц и быструю

перерисовку. Например, 3D-графики можно вращать, накла-

дывать друг на друга, сжимать или увеличивать.

Передовая анимационная техника позволяет увидеть на

графиках, какие точки изменились под влиянием изменений в

одной из переменных.

6.6. Российский статистический пакет STADIA

Пакет STADIA разработан ведущими специалистами

Московского государственного университета им. М. В. Ло-

моносова (главный разработчик - А. П. Кулаичев) совместно

с НПО "Информатика и компьютеры". Первая версия пакета

была создана в конце 70-х гг. для БЭСМ-6. С тех пор пакет

постоянно модифицировался, пополняя свои функциональ-

ные и сервисные возможности.

Пакет STADIA является единственным российским ста-

тистическим пакетом, представленном на рынке, который

можно отнести к классу универсальных пакетов, то есть в

нем представлены все самые распространенные методы ста-

тистического анализа данных от описательной статистики и

проверки различных гипотез до анализа временных рядов и

контроля качества, а также многомерных (факторный, кла-

стерный, дискриминантный анализ, шкалирование) и непа-

раметрических методов анализа.

Таким образом, пакет подходит для решения практиче-

ски всех задач, встречающихся в статистическом исследова-

нии.

Пакет STADIA, в отличие от SAS и SPSS, не поддержи-

вает обработку миллионов наблюдений, но прекрасно справ-

ляется с данными выборочных обследований нескольких со-

тен или тысяч респондентов. Пакет ориентирован на кон-

кретные статистические расчеты и построение сопутствую-

щих графиков во всех областях прикладной статистики,

снабжая пользователя попутно всей необходимой информа-

цией о работе статистических процедур.

Page 97: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

97

В настоящее время пакет используется в учебном про-

цессе и научно-практической работе более чем в 150 универ-

ситетах России.

Пакет STADIA простой в освоении и очень мощный ин-

струмент статистического анализа данных ограниченных

объемов. Он учитывает уровень статистической подготовки

российского пользователя, позволяет быстро найти необхо-

димый метод обработки данных, представить результаты

анализа в табличной и графической формах и продолжить их

оформление в других средствах среды Windows (текстовых и

графических редакторах).

6.7. STATGRAPHICS for Windows

STATGRAPHICS включает более 250 статистических

процедур, применяющихся в бизнесе, экономике, маркетинге,

медицине, биологии, социологии, психологии, на производ-

стве и в других областях.

Каждой группе процедур соответствует собственное

меню. Результаты представляются в табличной форме или на

удобных для восприятия графиках.

Уникальной особенностью STATGRAPHICS является

процедура регрессионного анализа, где представлено сравне-

ние полученной регрессионной зависимости с альтернатив-

ными моделями. При исследовании статистических связей

между различными показателями, этот модуль может ока-

заться неоценимым.

Модуль Statistical Advisor, кратко поясняющий суть лю-

бого проведенного анализа, оказывает помощь в интерпрета-

ции результатов.

Таким образом, STATGRAPHICS является достаточно

полезным программным продуктом, доступным как для на-

чинающего исследователя, так и для совершенствующегося

эксперта.

Page 98: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

98

ЗАКЛЮЧЕНИЕ

Рассмотрев основные методы статистических расчетов,

становится отчетливо видно, что такая наука, как статистика,

оказывает незаменимую помощь в решении государствен-

ных, экономических, социологических вопросов и во многом

способствует развитию данных наук и сфер деятельности.

Учитывая тот факт, что влияние статистики распростра-

няется на управленческую и экономическую деятельность

предприятий и фирм, можно заключить, что эта наука очень

важна для функционирования, роста и успешности предпри-

ятий.

Правильно проведённый сбор, анализ данных и стати-

стические расчёты позволяют обеспечить заинтересованные

структуры и общественность информацией о развитии эко-

номики, о направлении её развития, показать эффективность

использования ресурсов, учесть занятость населения и его

трудоспособность, определить темпы роста цен и влияние

торговли на сам рынок или отдельно взятую сферу.

Page 99: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

99

ГЛОССАРИЙ

Данные

англ.Data

Данные - сведения:

- полученные путем измерения, наблюдения, логических или

арифметических операций; и

- представленные в форме, пригодной для постоянного хра-

нения, передачи и (автоматизированной) обработки.

Актуализация данных

Актуализация данных - приведение данных в соответствие с

состоянием отображаемых объектов предметной области.

Актуализация реализуется посредством операций добавле-

ния, исключения и редактирования записей.

Архив

англ.Archive

Архив - в информатике - организованная совокупность ин-

формационных массивов или программ, длительно хранимых

на внешних машиночитаемых носителях с целью обеспече-

ния возможности их дальнейшего использования.

Атрибут данных

англ.Data attribute

Атрибут данных - параметр данных, относящийся к их струк-

турным свойствам, используемый для указания контекста

данных или придания им смыслового значения.

Аутентичность

англ.Authenticity

Аутентичность - в обработке данных - свойство данных быть

подлинными, означающее, что

- данные были созданы законными участниками информаци-

онного процесса; и

- данные не подвергались случайным или преднамеренным

искажениям.

Page 100: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

100

База данных (БД)

англ.Database; Data base (DB)

фр.Base de donnees

База данных - совокупность связанных данных, организован-

ных по определенным правилам, предусматривающим общие

принципы описания, хранения и манипулирования, незави-

симая от прикладных программ. База данных является ин-

формационной моделью предметной области. Обращение к

базам данных осуществляется с помощью системы управле-

ния базами данных (СУБД).

Графическая информация

Графическая информация - сведения или данные, представ-

ленные в виде схем, эскизов, изображений, графиков, диа-

грамм, символов.

Интерпретация данных

Интерпретация данных - совокупность предположений о ха-

рактере данных, полученных в результате измерения и под-

лежащих анализу.

Информационные ресурсы

англ.Information resources

фр.Ressources d'information

Информационные ресурсы - в широком смысле - совокуп-

ность данных, организованных для эффективного получения

достоверной информации.

Информационные ресурсы - по законодательству РФ - от-

дельные документы и отдельные массивы документов, доку-

менты и массивы документов в информационных системах:

библиотеках, архивах, фондах, банках данных, других видах

информационных систем.

Информация

англ.Information

Информация - по законодательству РФ - сведения о лицах,

предметах, фактах, событиях, явлениях и процессах незави-

симо от формы их представления.

Page 101: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

101

Информация уменьшает степень неопределенности, неполно-

ту знаний о лицах, предметах, событиях и т.д.

Метаданные

англ.Metadata

Метаданные - данные о данных: каталоги, справочники, рее-

стры, базы метаданных, содержащие сведения о составе дан-

ных, содержании, статусе, происхождении, местонахожде-

нии, качестве, форматах и формах представления, условиях

доступа, приобретения и использования, авторских, имуще-

ственных и смежных с ними правах на данные и др.

Обработка данных

англ.Data processing; Performing data

Обработка данных - процесс выполнения последовательности

операций над данными. Обработка данных может осуществ-

ляться в интерактивном и фоновом режимах.

Передача данных

англ.Data communications

Передача данных - в широком смысле - процесс передачи

данных по каналу связи от источника к приемнику. Различа-

ют синхронную и асинхронную передачу данных.

Программное обеспечение (ПО)

англ.Software

Программное обеспечение - комплекс программ:

- обеспечивающих обработку или передачу данных;

- предназначенных для многократного использования и при-

менения разными пользователями.

По видам выполняемых функций программное обеспечение

подразделяется на системное, прикладное и инструменталь-

ное.

Программное обеспечение - согласно ГОСТ 19781-90 - сово-

купность программ системы обработки информации и про-

граммных документов, необходимых для их эксплуатации.

Page 102: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

102

Пространственные данные

син.Географические данные

англ.Spatial data; Geographic data; Geographical data; Geospatial

data; Georeferenced data

Пространственные данные - цифровые данные о пространст-

венных объектах, включающие сведения об их местоположе-

нии и свойствах, пространственных и непространственных

атрибутах.

Секретность данных

англ.Secrecy

Секретность данных - свойство данных быть известными и

доступными только тому кругу субъектов, для которого они

предназначены.

Система счисления

Система счисления - способ отображения чисел и правила

действий над ними. Различают позиционные и непозицион-

ные системы счисления.

Сообщение

Сообщение - в теории коммуникации - предназначенные для

передачи: высказывание, текст, изображения, физический

предмет или поступок. Сообщения состоят из словесных или

невербальных знаков.

Социальные данные

англ.Social data

Социальные данные - данные о социальных фактах, получен-

ные в результате социологического исследования.

Статистические данные

син.Статистика

англ.Statistics

От итал.Stato - государство

Статистические данные - совокупность упорядоченных,

классифицированных данных о некотором массовом явлении

или процессе.

Page 103: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

103

Структура данных

англ.Data structure

Структура данных - организационная схема записи или мас-

сива, в соответствии с которой упорядочены данные, с тем,

чтобы их можно было интерпретировать и выполнять над

ними определенные операции.

Текст

англ.Text

от лат.Textus - соединение

Текст - последовательность графических или звуковых язы-

ковых знаков, ограниченная единым назначением.

Управление данными

англ.Data management

Управление данными - процесс, связанный с накоплением,

организацией, запоминанием, обновлением, хранением дан-

ных и поиском информации.

Page 104: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

104

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Никитина, Е.П. Коллекция определений термина «ста-

тистика» [Текст] / В.Д. Фрейдлина, А.В. Ярхо. – М.:

МГУ, 1972.

2. Гнеденко, Б.В. Очерк по истории теории вероятностей

[Текст] / Б.В. Гнеденко. – М.: УРСС, 2001.

3. Клейн, Ф. Лекции о развитии математики в XIX столе-

тии [Текст] / Ф. Клейн.– М.,Л.: Объединенное научно-

техническое издательство НКТП СССР, 1937.

4. Плошко, Б.Г. История статистики [Текст]: учебное по-

собие / Б.Г. Плошко, И.И. Елисеева. – М.: Финансы и

статистика, 1990.

5. Орлов, А. И. Прикладная статистика [Текст] : учебник /

А. И. Орлов. – М.: Экзамен, 2006. – 671 с.

6. Норман, Д. Прикладной регрессионный анализ. Множе-

ственная регрессия = Applied Regression Analysis [Текст]

/ Д. Норман, Г. Смит. – М.: «Диалектика», 2007. — С.

912. — ISBN 0-471-17082-8.

7. Орлов, А. И. О развитии прикладной статистики.

[Текст] / А. И Орлов // Современные проблемы кибер-

нетики (прикладная статистика). – М.: Знание, 1981, с.3-

14.

8. Орлов, А. И. Эконометрика [Текст] : учебник / А. И.

Орлов. – М.: Экзамен, 2004. – 576 с.

9. Орлов А. И. О перестройке статистической науки и её

применений [Текст] / А. И Орлов // Вестник статистики.

– 1990. – № 1. – С.65 – 71.

10. Кендалл, М. Теория распределений [Текст] / М. Кен-

далл, А. Стьюарт. – М.: Наука, 1966. – 566 с.

11. Кендалл, М. Статистические выводы и связи [Текст] /

М. Кендалл, А. Стьюарт. – М.: Наука, 1973. – 899 с.

12. Кендалл, М. Многомерный статистический анализ и

временные ряды [Текст] / М. Кендалл, А. Стьюарт. –

М.: Наука, 1976. – 736 с.

13. Орлов, А. И. Прикладная статистика [Текст] : учебник /

А. И. Орлов. – М.: Экзамен, 2006.– 672 с.

Page 105: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

105

14. Орлов, А. И. Теория принятия решений [Текст] : учеб-

ник / А. И. Орлов. – М.: Экзамен, 2006.– 576 с.

15. Налимов, В. В. Наукометрия. Изучение развития науки

как информационного процесса. [Текст] / В. В. Нали-

мов, З. М. Мульченко.– М.: Наука, 1969. – 192 с.

16. Паклин, Н.Б.,Бизнес-аналитика: от данных к знаниям

[Текст] / Н.Б. Паклин, В.И. Орешков.– СПб: Изд. Питер,

2009. – 624 с.

17. Айвазян, С.А. Прикладная статистика. Классификация и

снижение размерности [Текст] / С.А. Айвазян, В.М.

Бухштабер, Е.С. Енюков, Л.Д. Мешалкин.– М.: Финан-

сы и статистика, 1989. – 608 с.

18. Дюк, В. Data Mining: учебный курс [Текст] / В. Дюк, А.

Самойленко. – СПб: Питер, 2001. – 368 с.

19. Чистяков, В. П. Курс теории вероятности [Текст] / В. П.

Чистяков. – М.: Наука, 1987.

20. Елесеева, М.А. Общая теория статистики [Текст] / М.А.

Елесеева. – М.: Статистика, 1988. – С.59-62.

21. Айвазян, С.А. «Программное обеспечение персональ-

ных ЭВМ по статистическому анализу данных [Текст] /

С.А. Айвазян // Компьютер и экономика: экономические

проблемы компьютеризации общества. – М.: Наука,

1998. –С.91-107.

22. Мир ПК [Электронный ресурс] : журнал.–1997 №8 –

http://osp.irtel.ru/pcworld/1997/08/index.htm

23. Wikipedia [Электронный ресурс] –

http://ru.wikipedia.org/wiki/Данные

24. Glossary [Электронный ресурс] http://www.glossary.ru

25. http://chaliev.narod.ru/statistics/lection1-predmet-i-metod-

statistiki.html

26. http://comp5.ru/Raznoe/Statistica/Stat1.php

27. http://www.statsoft.ru/home/news/news008.htm

28. http://www.exponenta.ru

29. http://statsoft.msu.ru

30. http://www.spss.ru

31. http://www.statgraphics.com

32. Экономическая статистика [Текст] / учебник/ под ред.

Ю. Н. Иванова.– М.: Инфра-М, 2001.

Page 106: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

106

Учебно-теоретическое издание

Калинин Александр Григорьевич

ОБРАБОТКА ДАННЫХ МЕТОДАМИ

МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

МОНОГРАФИЯ

В АВТОРСКОЙ РЕДАКЦИИ

Подписано в печать 26.01.2015

Бумага Business Xerox. Гарнитура Times New Roman.

Формат 60 84 1/16.Усл. печ. л. 6,7 . Тираж 500 экз. Заказ №.9841

Отпечатано в типографии Забайкальского института предпринимательства

Сибирского университета потребительской кооперации

672086, г. Чита, ул. Ленинградская, 16.

Page 107: ОБРАБОТКА ДАННЫХ МЕТОДАМИ …zip.sibupk.su/upload/medialibrary/monografii/2014...данных или явлений и взаимосвязи между ними

107