23
ОПИСОВА СТАТИСТИКА В R Бахрушин Володимир Євгенович, професор, д.ф.-м.н. [email protected]

Описова статистика в R

Embed Size (px)

Citation preview

ОПИСОВА СТАТИСТИКА В R

Бахрушин Володимир Євгенович,

професор, д.ф.-м.н[email protected]

Основні показники описової статистики

До основних показників описової статистики належать:

Показники центру розподілу;Показники розкиду даних стосовно центру – дисперсія,

стандартне (середньоквадратичне) відхилення, середнє відхилення, середня різниця Джині, інтерквартильний розкид, розмах;

Моменти вищих порядків – коефіцієнт асиметрії, коефіцієнт ексцесу;

Коефіцієнт варіації.

Деякі показники центру розподілу

Центр розподілу

Середнє гармонічне

Середнє геометричне

Середнє арифметичне

Математичне сподіванняМода

Медіана

Центр розмаху Середнє

квадратичне

Середнє арифметичнеxm = mean(x)

xm = sum(x)/n1

/n

ii

x x n=

= ∑

Середнє геометричне

g = prod(x^(1/length(x)))g = prod(x)^(1/length(x))g = exp(mean(log(x)))

( ) 1/11 1

1exp log

n n nn

ni i i

ii i

g x x xn == =

= = = ÷ ∑∏ ∏

library(“psych“); geometric.mean(x)

Середнє гармонічне

h = length(x)/sum(1/x)library(“psych“); harmonic.mean(x)

Медіана та мода

mode <- function(x) { d <- density(x) d$x[which.max(d$y)]}mode(x)

median(x)

med <- function(x) {p = round(length(x)/2)if (p == length(x)/2){(sort(x)[p]+sort(x)[p+1])/2}else{sort(x)[p+1]}}med(x)

Mode <- function(x) { ux <- unique(x) ux[which.max(tabulate(match(x, ux)))]}Mode(x)

http://stackoverflow.com/questions/2547402/standard-library-function-in-r-for-finding-the-mode

Медіана та мода

Показники розкиду даних

інтерквартильний розмах -IQR(x)

медіанне абсолютне відхилення – mad(x)

var(x)

Var <- function(x) {n = length(x)sum((x - mean(x))^2)/(n - 1)}

sd(x)

SD <- function(x) {n = length(x)sqrt(sum((x - mean(x))^2)/(n - 1))}SD(x)

Середнє абсолютне відхилення:

MDev <- function(x) {n = length(x)sum(abs(x - mean(x)))/n}

Показники розкиду даних

Асиметрія та ексцес

Ex <- function(x) {n = length(x)n*(n+1)/(n-1)/(n-2)/(n-

3)*sum(((x - mean(x))/sd(x))^4) - 3*((n-1)^2)/(n-2)/(n-3)

}Ex(x)

As <- function(x) {n = length(x)n/(n-1)/(n-2)*sum(((x -

mean(x))/sd(x))^3) }As(x)

library(moments)skewness(x)

library(moments)kurtosis(x)

Асиметрія та ексцес

Моменти вищих порядків – коефіцієт асиметрії, коефіцієнт ексцеса

Деякі засоби графічного зображення розподілу

До основних засобів графічного зображення розподілу належать:

Гістограми абсолютних та відносних частот;Діаграми розкиду (ящик з вусами);Емпірична функція розподілу;Емпірична функція щільності розподілу;ОгівиОдновимірні діаграми розсіювання.

Гістограми

hist(x)

probability

freq

breaksx

plot

labels

rightinclude.lowest

Гістограми

Аргумент breaks вказує спосіб формування інтервалів гістограми. Його можна задавати так:

вектор точок, що відокремлюють інтервали один від одного;

функція, яка розраховує вектор таких точок;число, що задає кількість інтервалів;рядок символів, який вказує алгоритм розрахунку

кількості інтервалів;функція, що розраховує кількість інтервалів.

Гістограми

k_int = round(1 + 1.44*log(length(dat)))

hist(dat, breaks = seq(dat_min, dat_max, len = k_int + 1), main = "Гістограма розподілу результатів абітурієнтів", xlab = "Бал ЗНО", ylab = "Частка абітурієнтів", col = "coral", border = "brown", col.main = "blue", freq = FALSE, cex.main = 1.5)

Емпірична функція розподілу

Емпірична функція розподілу є аналогом теоретичної функції розподілу і зі збільшенням обсягу вибірки наближається до останньої.

Емпірична і теоретична функції розподілу мають такі властивості:

1 2,x x X∀ ∈ ( ) ( )1 2 1 2 x x F x F x< ⇒ ≤

( )0 1F x≤ ≤

Емпірична функція розподілу

Для розрахунку значень емпіричної функції розподілу елементи вибірки треба впорядкувати за зростанням. Після цього, відповідні їм значення ЕФР можна обчислити так:

i – порядковий номер (ранг) елемента у впорядкованій вибірці, n – загальна кількість елементів досліджуваної вибірки.

( )

[ )( )( )

1

1

0;

; , 1,2,..., 1;

1.

i i

n

F x x

iF x x x i n

nF x x

+

< = ∈ = = − ≥ =

Емпірична функція розподілу

Емпірична функція розподілу

plot(ecdf(x)plot.ecdf(x))

EDF = ecdf(x)EDF(x)knots(EDF)

x = c(rnorm(200, 5,1), runif(200, 7, 12))plot.ecdf(x, verticals = TRUE, col = 3, lwd = 2, main = "Емпірична функція розподілу", col.main = 4, cex.main = 1.5 knots(EDF)

Емпірична функція щільності розподілу

Функція щільності розподілу:

Вона має такі властивості: є невід'ємною; прямує до нуля на краях області допустимих значень; має принаймні одну точку x*, для якої

Емпірична функція щільності розподілу

x = c(rnorm(200, 5,1), runif(200, 7, 12))plot(density(x), col = 3, lwd = 2, xlab = "X", main = "Емпірична функція щільності розподілу", col.main = 4, cex.main = 1.5))

Література

1.Бахрушин В.Є. Методи аналізу даних. – Запоріжжя, 2011. – 268 с.

2.Documentation for package ‘stats’ version 3.1.2

3.Documentation for package ‘psych’ version 1.4.5

4.Standard library function in R for finding the mode?

5.Package ‘moments’