81
Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Embed Size (px)

Citation preview

Page 1: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuições Comuns de Variáveis Aleatórias Discretas

1. Constante

2. Uniforme

3. Bernoulli

4. Binomial

5. Geometrica

6. Poisson

Page 2: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Variável Aleatória Constante

• pmf

• CDF

c

1.0

1.0

c

Page 3: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Discreta Uniforme

• A v.a. discreta X que assume n valores discretos com probabilidade pX(i) = 1/n, 1 i n

• pmf

• CDF:

contráriocaso

Xxsenxp i

iX ,0

,/1)(

n

tiptF

t

iX

1

)()(

Page 4: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Variável de Bernoulli

– V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha}

– A v.a. binária X é chamada variável de Bernoulli tal que:

–Função de massa de probabilidade:

)0(1

)1(

XPpq

XPp

Page 5: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição de Bernoulli

• CDF

x0.0 1.0

q

p+q=1

Page 6: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Binomial• A v.a. X representa o numero de sucessos em

uma sequencia de experimentos de Bernoulli.• Todos experimentos são independentes.• Cada resultado é um “sucesso” ou “falha”.• A probabilidade de sucesso de um

experimento é dado por p. A probabilidade de uma falha é 1- p.

• Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro.

Page 7: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Binomial

A distribuição binomial com parâmetros n 0 and 0 < p < 1, is

Qual a média e variância????

p xn

xp px n x( ) ( )

1

Page 8: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Binomial

A distribuição binomial com parametros

n 0 and 0 < p < 1, is

A média e variância da binomial são:

p xn

xp px n x( ) ( )

1

np np p2 1( )

Page 9: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

V.A. Binomial: pmfpk

Page 10: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

x

CD

F

V.A. Binomial: CDF

Page 11: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Geométrica

• Número de experimentos até incluir o 1o sucesso.

• Em geral , S pode ter um tamanho infinitamente contável

• Definir a v.a Z ( S): amostra: 0 i-1 1 = i

• Por causa da independência:

Page 12: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Geométrica• A distribuição geometrica é a única distribuição

discreta que exibe a propriedade MEMORYLESS.

• Resultados futuros são independentes de eventos passados.

• Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas. Y: numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e. Z = n+Y ou Y=Z-n

Page 13: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Geométrica: ausência de memória

• Y=Z-n

)()1(1

)(1

)(

)(1

)(

)(

)(

)(

)(

)|(

)|(

)|(

11

ippqq

pq

nF

inp

nF

inZP

nZP

inZP

nZP

nZandinZP

nZinZP

nZinZP

nZiYP

Zi

n

in

Z

Z

Z

Page 14: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

V.A. Geometrica

• Exercício: Mostre que

1

1( ) 1 and ( )X

x

P x E xp

Page 15: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

VA Poisson• Número de eventos independentes que

ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8)

• Número de chegadas em um servidor em 1 hora

• Número de erros de impressão em uma página de um livro

• = # médio de eventos que ocorrem no período

• Aproximação para VA Binomial com n grande e p pequeno (Ross)

•Se X = Binomial(n,p), X Poisson( = np)

Page 16: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Poisson: propriedades• Considere que um servidor espera receber 100

transações em um minuto: = 100 (constante)

• Espera-se que:– O início de cada transação é independente dos outros;

– Para cada pequeno intervalo de tempo t, a probabilidade de uma nova transação chegar é t

– A probabilidade de chegar duas transações ao mesmo tempo é zero!

• O processo de Poisson tem as propriedades acima• A VA X~Poisson representa o numero de transacoes

que chegam durante um periodo t.

Page 17: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

VA Poisson: Aplicacao• A v.a. de Poisson é boa para modelar vários fenômenos, como o

número de transações que chega num servidor em uma hora, ou o número de queries que chega numa máquina de busca em 1 minuto ou número de pacotes que chega num roteador em 1 segundo.

• Muito comumente usado para modelar chegada de sessões de usuários – servidores Web, multimídia, banco de dados, ftp, e-mail

• Sessões são iniciadas por usuários– Chegada de duas sessões tendem a ser independentes: Poisson é uma

boa aproximação

• Contra-exemplo:– Chegada de requisições em um servidor Web

– Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele

Page 18: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

• Função de massa de probabilidade (pmf):

• CDF:

k!

)( )(

ktektNPp t

k

k!)(

0

k

x

k

t texF

Distribuição de Poisson

Page 19: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

pk

t=1.0

Poisson pmf

Page 20: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

t1 2 3 4 5 6 7 8 9 10

0.5

0.1

CDF1

t=1.0

Poisson CDF

Page 21: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

t=4.0

pk

t=4.0

Poisson pmf

Page 22: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

t

CDF

1 2 3 4 5 6 7 8 9 10

0.5

0.1

1

t=4.0

Poisson CDF

Page 23: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Poisson• Uma v.a. de Poisson X tem sua pmf::

Onde > 0 é uma constante

E(X)= Var(X) =

( ) 0,1,2,...!

x

P X x e xx

Page 24: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Search Algorithms: Is the Web-Graph a Random graph? No!

• Random graph Gn,p:– n nodes– Every directed edge occurs with probability p

• Is the Web-graph a random graph Gn,p?

• The probability of high degrees decrease exponentially • In a random graph degrees are distributed according to a Poisson

distribution

• Therefore: The degree of a random graph does not obey a power law (observed for web graphs)

Page 25: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Exercícios1. Considere que o número de mails que chegam a um servidor de

mails no intervalo t segundos é distribuído como Poisson com parâmetro 0.3t Calcule a seguintes probabilidades:

– Exatamente tres mensagens chegarão num intervalo de 10 seg.

– No máximo 20 msgs chegarão num período de 20seg.

– O número de msgs num intervalo de 5 seg está entre 3 e 7 mails.

2. A probabilidade de um query falhar (não ser bem sucedido) é 10(-4). Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000 queries?

Page 26: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Solução

1)

2) P(X10 = 3) = 0.224

3) P(X20 20) = 0.973

4)

tk

ek

tkXtP 3.0

!

)3.0()(

1909.0!

)5.1()73( )5.1(

7

35

e

kXP

k

k

Page 27: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Solução

• 2) ii

ierrosP

100044

1000

4

)101()10(1000

)3(#

61000443

0

10*825.3)101()10(1000

1)3(#

ii

ierrosP

Page 28: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuições Discretas• Zipf()

– Comumente usada quando a distribuição é altamente concentrada em poucos valores • Popularidade de arquivos em servidores Web/multimídia

– 90% dos acessos são para 10% dos arquivos

• Popularidade de palavras na língua inglesa

– Seja i, o elemento que ocupa a i-esima posição no ranking de concentração

C é a constante de normalização

Zipf: lei das Potências

,...2,1)( ii

CiXP

Page 29: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Zipf

• Modela popularidade dos remetentes de e-mails para a UFMG

Page 30: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuições de Variáveis Aleatórias Contínuas

• Normal

• Exponencial

• Weibull

• Lognormal

• Pareto

• ....

Page 31: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuições de Variáveis Aleatórias Contínuas

• Variáveis aleatórias contínuas– Assumem um intervalo infinito de diferentes valores

– W=% percentual de crescimento do PIB em 2005

– V=tempo para retornar a resposta de um “query”

– Valores específicos-particulares de uma v.a. contínua tem probabilidade 0

– Intervalos de valores tem probabilidade 0

Page 32: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Função Densidade de Probabilidade

Para f (x) ser uma pdf

1. f (x) > 0 x.

2.A area da região entre o grafico de f e o eixo do x é igual a 1.

Area = 1

( )y f x

Page 33: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição de Probabilidade

Seja X uma va contínua. Então a a função de probabilidade (pdf) de X é uma função f (x) tal que para dois números quaisquer a and b,

( )b

aP a X b f x dx

O gráfico de f é a curva de densidade.

Page 34: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

PDF

é dada pela área da função sombreada.

( )y f x

ba

( )P a X b

Page 35: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Normal (Gaussiana)

• Distribuição mais comum na análise de dados• pdf is:

• -x +• Média é , desvio padrão

f x ex

( )( )

1

2

2

22

Page 36: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Notação para Distribuições Gaussianas

• Geralmente denotada N(,)

• Normal unitária é N(0,1)

• Se x tem N(,), tem N(0,1)

• O -quantil de uma normal unitária z ~ N(0,1) é denotado por ztal que

x

zxPz

xP )()(

Page 37: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Parâmetros

• A distribuição de v.a. contínua contém toda a informação que a estatística pode descobrir sobre ela

– Distribuição pode ser expressa pela pdf ou CDF

Page 38: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Parâmetros

• Geralmente a informação existente numa distribuição pode ser excessiva para ser processada

• Quando isso é verdade, nós queremos sumarizar as métricas de informção:– Média

– Variancia

– Mediana

– Percentis

• São também chamados de parâmetros de uma distribuição

Page 39: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Normal

• Função de densidade– Dois parâmetros, e – Assim se X é distribuído com uma normal:

2

2,~

XV

XE

NX

Page 40: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Normal

• Função de densidade para =0, =1

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-5 -4 -3 -2 -1 -6E-14 1 2 3 4 5

x

f(x)

Page 41: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Normal

• Função de densidade para =1

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7

=2

=5

Page 42: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Normal

• Funções de densidade para =1

=1

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7

=2

Page 43: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuicao Exponencial• Quantidade de tempo até que determinado evento

ocorra

= taxa de chegadas 1/ = tempo médio entre chegadas

0for x 1

0for x -

λx X

λxX

exF

exf

Page 44: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Exemplo: v.a. exponencial

• pdf:• CDF:

• v.a. muito frequentemente usada em computacao• Modelos:

– Tempo entre duas submissões de queries a uma maquina de busca

– Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador

– Tempo entre chegadas de sessões em um servidor

0,)( xexf xxexF 1)(

pdf

x

f(x)

Page 45: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Exponential distribution

• Density

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5

Page 46: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuicao Exponencial

P(X 1/ ) = 1 – e-1/ = 1 – 1/e

E(X) = 1/

Var(X) = 1/2 SD(X) = 1/ CV(X) = 1

CV = 1 exponencial

Page 47: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuições Exponencial e Poisson• Seja uma distribuição Poisson que denote o número de eventos

N(t) em um intervalo de tempo t

• Seja T1 o momento do 1o evento

• Seja Tn o tempo entre o (n-1)-esimo e o n-esimo eventos

• Sequência {Tn, n=1, 2, ...}: tempos entre chegadas

P(T1 t) = P(N(t) = 0) = e -t T1 exponencial()

P(T2 t | T1 = s) = Prob (0 eventos em (s, s+t) | T1 = s)

= Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes)

= e -t T2 exponencial()

T1 , T2, ..., Tn são independentes e têm mesma distribuição exponencial()

Page 48: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuições Exponencial e PoissonProcesso de Chegadas

Poisson

Tempo entreChegadas

Exponencial

Independência entre eventos

Page 49: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Exponencial

• Exponencial () :

)(1)1(

11

)1(1

)1(1

)(1

)()(

)(1

)(

)(

])[]([)|(

)(

xXPee

ee

e

eee

e

ee

tXP

tXPxtXP

tXP

xtXtP

tXP

tXxtXPtXxtXP

xt

xt

t

txt

t

txt

Propriedade sem memória(memoryless)

Page 50: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Propriedade Memoryless• Tempo de residência R de um cliente depende do # de

clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço.

– Seja Xi a VA para o tempo de serviço de cliente i na CPU

– Seja Xi: exponencial() para todos os clientes

– Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço

• Y também tem distribuição exponencial com parâmetro

• Tempo que ainda falta independe do tempo que já esteve em serviço

• Estado futuro não depende do estado passado

Page 51: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Propriedade Memoryless

• Distribuição exponencial é a única distribuição contínua que tem a propriedade memoryless

• Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless

Page 52: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Outras Distribuições Contínuas

• Weibull

• Lognormal

• Pareto

Page 53: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição de Weibull

A va contínua T tem uma distribuição de Weibull se a pdf é

Onde os parâmetros satisfazem t0 > 0 > 0

t

t

etF

ettf

1)(

)( 1

Page 54: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Lognormal

Uma va X tem uma distribuição lognormal se a va Y = ln(X) tem uma distribuição normal com a pdf resultante com parâmetros e

YeX

00

02

1),;(

)2( 2

2)ln(

x

xexxf

x

Muito utilizada para modelar duracao de sessao de usuarios em servicos web

Page 55: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Média e Variância

A média e variância de uma va X que tem uma distribuição lognormal são:

2 2 2/ 2 2( ) ( ) 1E X e V X e e

Page 56: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição Lognormal

=1=1=1=1

Page 57: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição de Pareto

• Uma das distribuições heavy tailed.

1)( )1()1(

xxab

x

abxf aa

a

a

Page 59: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Motivation

• Internet is full of “high variability”– Link bandwidth: Kbps – Gbps

– File sizes: a few bytes – Mega/Gigabytes

– Flows: a few packets – 100,000+ packets

– In/out-degree (Web graph): 1 – 100,000+

– Delay: Milliseconds – seconds and beyond

• How to deal with “high variability”– High variability = large, but finite variance

– High variability = infinite variance

Page 60: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

A Working Definition

• A distribution function F(x) or random variable X is called heavy-tailed if for some

where c>0 and finite

• F is also called a power law or scaling distribution• The parameter is called the tail index• 1< < 2, F has infinite variance, but finite mean• 0 < < 1, the variance and mean of F are infinite

xcxxFxXP ,)(1][

Page 61: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Some Illustrative Examples

• Some commonly-used plotting techniques– Probability density functions (pdf)– Cumulative distribution functions (CDF)– Complementary CDF (CCDF = 1- CDF)

• Different plots emphasize different features– Main body of the distribution vs. tail– Variability vs. concentration– Uni- vs. multi-modal

Page 62: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Probability density functions

Page 63: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Cumulative Distribution Function

0 2 4 6 8 10 12 14 16 18 200

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

F(x

)

Lognormal(0,1)Gamma(.53,3)Exponential(1.6)Weibull(.7,.9)Pareto(1,1.5)

Page 64: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Complementary CDFs

10-1

100

101

102

10-4

10-3

10-2

10-1

100

log(x)

log

(1-F

(x))

Lognormal(0,1)Gamma(.53,3)Exponential(1.6)Weibull(.7,.9)ParetoII(1,1.5)ParetoI(0.1,1.5)

Page 65: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Why “Heavy Tails” Matter …

• Risk modeling (insurance)

• Load balancing (CPU, network)

• Job scheduling (Web server design)

• Towards a theory for the Internet …

Page 66: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

20th Century’s 100 largest disasters worldwide

10-2

10-1

100

100

101

102

US Power outages (10M of customers)

Natural ($100B)

Technological ($10B)

Log(size)

Log(rank)

Most events are

small

But the large events are huge

Page 67: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição de Erlang

• Uma variável aleatória X que iguala o comprimento do intervalo até que r contagens ocorram num processo de Poisson com média > 0 tem uma v.a. de Erlang com parâmetros e r. As pdf e CDF de X são:

for x > 0 and r = 1, 2 , …

)!1()(

1

r

exxf

xrr xr

k

k

ek

xxF

1

0 !

)(1)(

Page 68: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Erlang: Soma de Exponenciais• Genericamente: X1, X2, ... Xr, todas independentes e

exponencial(): Z = X1 + X2 + ... Xr Erlang de n estágios

• Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo

• Se Xi exponencial (i), onde i são diferentes

Z = X1 + X2 + ... Xr Hipoexponencial

1

0

0!

)()(

r

k

zk

zek

zzZF

Exp() Exp() Exp() Exp()

Erlang(r,)

1 2 3 r

Page 69: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Exercícios

• O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = 0.5. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo.

• O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro

Page 70: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Solução #1

• O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = ½. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo.

9856.0)8

1

2

11(

)1(1)1(1)1(

)!

)((1)(

)2

1(

2

0

e

FXPXP

ei

xxF

X

i

xi

X

Page 71: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Solução #2• O tempo de vida em dias de um componente de software é modelado por

uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro

00008554.0

15.0

)90(1

)90()100(

)90(

)10090(

15.0)90|100(

1)(

2

22

2

)90(

)100()90(

e

ee

F

FF

XP

XP

XXP

exF

X

XX

xX

Page 72: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição dos Mínimos

• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente

• Tempo de falha : X1, X2, ...., Xn exponencial ()

• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)

P(Z z) = P (pelo menos um Xi z) = ?

P (exatamente um Xi z) = ?

Page 73: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição dos Mínimos

• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente

• Tempo de falha : X1, X2, ...., Xn exponencial ()

• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)

P(Z z) = P (pelo menos um Xi z) = ?

P (exatamente um Xi z) = ?

1

1

)1(111

)(1)(1

)1(

nzz

nXXi

een

zFzFn

zXexatamenteP

Page 74: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição dos Mínimos• P(Z z) = P (pelo menos um Xi z)

Page 75: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição dos Mínimos• P(Z z) = P (pelo menos um Xi z)

nznzn

nn

j

jnj

n

j

jnj

n

j

jnzjz

n

j

jnX

jXi

eep

ppn

ppj

n

ppj

n

eej

n

zFzFj

nzXmenospeloP

1111)1(1

10

1

1

1

)(1)()1(

0

0

1

1

1

p = (1-e-z)

Z tem distribuição exponencial com

parâmetro n

Page 76: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição dos Máximos

• n tarefas independentes : X1, X2, ...., Xn: exponencial ()

• Tempo de resposta = tempo de execução da tarefa mais longa

Z = max (X1, X2, ...., Xn)

– Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário

Front-end: atraso desprezível

Page 77: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Distribuição dos Máximos

• n tarefas independentes : X1, X2, ...., Xn: exponencial ()

• Tempo de resposta = tempo de execução da tarefa mais longa

Z = max (X1, X2, ...., Xn)

nzzzz

nn

n

i

eeee

zXPzXPzXP

zXzXzXP

zXPzZP

)1()1)...(1)(1(

)()...()(

)...(

))(max()(

2

21

Page 78: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Gerando Distribuições• Como gerar amostras de uma

distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())?

Page 79: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Gerando Distribuições Ex: geração de amostras de uma distribuição

exponencialF(X) = 1 – e-x

Y = F-1(X) = - 1/ ln(1 – Z), onde Z uniforme(0,1)

F(Z z) = z

F(Y) = P(Y y) = P(- 1/ ln(1 – Z) y )

= P (ln(1 – Z) -y)

= P( 1 – Z e-y)

= P(Z 1 - e-y ) = 1 - e-y

Y é exponencial

O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada

Page 80: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Gerando Distribuições

0

0.2

0.4

0.6

0.8

1

0 20 40 60 80 100x

F(X

) =

P(X

< x

)

Z:

un

iform

e (

0,1

)

X: distribuição que você quer gerar

Gerador de números aleatóriosretorna valor entre 0 e 1. Ex: 0.52

Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral

Page 81: Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

Para-Casa (próxima aula!)

• Converse com seu orientador, e traga um exemplo exepcionalmente bom ou ruim (de preferência) de apresentação e sumarização de dados de proceedings de conferências importantes de sua área. Prepare um texto de no máximo 1 folha com suas críticas e ou elogios ao métodos usados.