Switch to full style
Tudo sobre matéria relacionada com estatística que se leciona na universidade ou em cursos ou cadeiras de nível superior
Responder

Cálculo de Quartil com Desvio Padrão

15 dez 2017, 15:38

Pessoal, boa tarde.

Tenho o seguinte cenário:
Preciso calcular a média de tempo útil que levamos na resolução de um problema pelo tipo do problema (Crítico, Alto, Médio, Baixo). Hoje eu tenho no banco de dados este tempo, em segundos, então agora só preciso fazer o cálculo.

Acredito que uma média simples, separando por cada uma das categorias não representará a realidade, considerando que tenho dados como o exemplo abaixo, com pontos muito fora da curva média.

1036 -- Ponto fora da curva.
1988
2823
3213
3794
5258
16751
17160
18579
24671
26129
734991 -- Ponto fora da curva.

No desvio padrão ficaria: 209191
Na média simples ficaria: 71366

Pensei em utilizar o desvio padrão, mas usando todos os dados o valor fica irreal. Desta forma gerei um desvio padrão por quartil, o que me gerou os valores abaixo:

1 - 894
2 - 1054
3 - 959
4 - 409683

Gostaria de saber se a combinação entre o quartil e desvio padrão faz sentido (ou se deveria fazer uma média simples no quartil), ou então que possam ser sugeridas outras formas de se fazer o cálculo.

Aguardo sugestões, não sou matemático ou estatístico (tive disciplinas na faculdade apenas), mas preciso conseguir apresentar dados factíveis.

Re: Cálculo de Quartil com Desvio Padrão

30 dez 2017, 02:11

Oi, o tópico já tem alguns dias e fazia tempo que não passava aqui, então vamos ver se conseguimos um meio termo:

Eu acho que usar o desvio padrão para determinar os quartis não é o ideal.
Veja que numa distribuição (se for) normal quase 70% dos dados estão a +/- 1 desvio padrão da média.
Logo temos dois problemas: 1) A média propriamente dita e 2) 30% dos dados para representar o 1o. e o 4o. quartil.

Uma alternativa, dentro dos parâmetros da estatística básica,
seria expurgar os "pontos fora da curva" (outliers) e daí calcular os quartis.

Eu apliquei a sequência de comandos abaixo no software R:

Código:
dados <- sort(c(1036, 1988, 2823, 3213, 3794, 5258, 16751, 17160, 18579, 24671, 26129, 734991))
range <- 1.5*IQR(dados)
qs <- quantile(dados)
quantile(dados[dados>qs[2]-range & dados<qs[3]+range])


E o resultado foi:

Código:
(0%) 1036.0  (25%) 3018.0  (50%) 5258.0 (75%) 17869.5 (100%) 26129.0


(observe que estatisticamente, na sua amostra, 1036 não é ponto fora da curva)

Basicamente, o código R faz o seguinte:
ordena os dados, calcula o range baseado na distância interquartil, calcula os quartiles da amostra completa, expurga os outliers e recalcula os quartis.

O que você acha disso?
Responder