Upload
vladimir-bakhrushin
View
190
Download
2
Embed Size (px)
Citation preview
Основні показники описової статистики
До основних показників описової статистики належать:
Показники центру розподілу;Показники розкиду даних стосовно центру – дисперсія,
стандартне (середньоквадратичне) відхилення, середнє відхилення, середня різниця Джині, інтерквартильний розкид, розмах;
Моменти вищих порядків – коефіцієнт асиметрії, коефіцієнт ексцесу;
Коефіцієнт варіації.
Деякі показники центру розподілу
Центр розподілу
Середнє гармонічне
Середнє геометричне
Середнє арифметичне
Математичне сподіванняМода
Медіана
Центр розмаху Середнє
квадратичне
Середнє геометричне
g = prod(x^(1/length(x)))g = prod(x)^(1/length(x))g = exp(mean(log(x)))
( ) 1/11 1
1exp log
n n nn
ni i i
ii i
g x x xn == =
= = = ÷ ∑∏ ∏
library(“psych“); geometric.mean(x)
Медіана та мода
mode <- function(x) { d <- density(x) d$x[which.max(d$y)]}mode(x)
median(x)
med <- function(x) {p = round(length(x)/2)if (p == length(x)/2){(sort(x)[p]+sort(x)[p+1])/2}else{sort(x)[p+1]}}med(x)
Mode <- function(x) { ux <- unique(x) ux[which.max(tabulate(match(x, ux)))]}Mode(x)
http://stackoverflow.com/questions/2547402/standard-library-function-in-r-for-finding-the-mode
Показники розкиду даних
інтерквартильний розмах -IQR(x)
медіанне абсолютне відхилення – mad(x)
var(x)
Var <- function(x) {n = length(x)sum((x - mean(x))^2)/(n - 1)}
sd(x)
SD <- function(x) {n = length(x)sqrt(sum((x - mean(x))^2)/(n - 1))}SD(x)
Середнє абсолютне відхилення:
MDev <- function(x) {n = length(x)sum(abs(x - mean(x)))/n}
Асиметрія та ексцес
Ex <- function(x) {n = length(x)n*(n+1)/(n-1)/(n-2)/(n-
3)*sum(((x - mean(x))/sd(x))^4) - 3*((n-1)^2)/(n-2)/(n-3)
}Ex(x)
As <- function(x) {n = length(x)n/(n-1)/(n-2)*sum(((x -
mean(x))/sd(x))^3) }As(x)
library(moments)skewness(x)
library(moments)kurtosis(x)
Моменти вищих порядків – коефіцієт асиметрії, коефіцієнт ексцеса
Деякі засоби графічного зображення розподілу
До основних засобів графічного зображення розподілу належать:
Гістограми абсолютних та відносних частот;Діаграми розкиду (ящик з вусами);Емпірична функція розподілу;Емпірична функція щільності розподілу;ОгівиОдновимірні діаграми розсіювання.
Гістограми
Аргумент breaks вказує спосіб формування інтервалів гістограми. Його можна задавати так:
вектор точок, що відокремлюють інтервали один від одного;
функція, яка розраховує вектор таких точок;число, що задає кількість інтервалів;рядок символів, який вказує алгоритм розрахунку
кількості інтервалів;функція, що розраховує кількість інтервалів.
Гістограми
k_int = round(1 + 1.44*log(length(dat)))
hist(dat, breaks = seq(dat_min, dat_max, len = k_int + 1), main = "Гістограма розподілу результатів абітурієнтів", xlab = "Бал ЗНО", ylab = "Частка абітурієнтів", col = "coral", border = "brown", col.main = "blue", freq = FALSE, cex.main = 1.5)
Емпірична функція розподілу
Емпірична функція розподілу є аналогом теоретичної функції розподілу і зі збільшенням обсягу вибірки наближається до останньої.
Емпірична і теоретична функції розподілу мають такі властивості:
1 2,x x X∀ ∈ ( ) ( )1 2 1 2 x x F x F x< ⇒ ≤
( )0 1F x≤ ≤
Емпірична функція розподілу
Для розрахунку значень емпіричної функції розподілу елементи вибірки треба впорядкувати за зростанням. Після цього, відповідні їм значення ЕФР можна обчислити так:
i – порядковий номер (ранг) елемента у впорядкованій вибірці, n – загальна кількість елементів досліджуваної вибірки.
( )
[ )( )( )
1
1
0;
; , 1,2,..., 1;
1.
i i
n
F x x
iF x x x i n
nF x x
+
< = ∈ = = − ≥ =
Емпірична функція розподілу
plot(ecdf(x)plot.ecdf(x))
EDF = ecdf(x)EDF(x)knots(EDF)
x = c(rnorm(200, 5,1), runif(200, 7, 12))plot.ecdf(x, verticals = TRUE, col = 3, lwd = 2, main = "Емпірична функція розподілу", col.main = 4, cex.main = 1.5 knots(EDF)
Емпірична функція щільності розподілу
Функція щільності розподілу:
Вона має такі властивості: є невід'ємною; прямує до нуля на краях області допустимих значень; має принаймні одну точку x*, для якої
Емпірична функція щільності розподілу
x = c(rnorm(200, 5,1), runif(200, 7, 12))plot(density(x), col = 3, lwd = 2, xlab = "X", main = "Емпірична функція щільності розподілу", col.main = 4, cex.main = 1.5))
Література
1.Бахрушин В.Є. Методи аналізу даних. – Запоріжжя, 2011. – 268 с.
2.Documentation for package ‘stats’ version 3.1.2
3.Documentation for package ‘psych’ version 1.4.5
4.Standard library function in R for finding the mode?
5.Package ‘moments’