Oi, o tópico já tem alguns dias e fazia tempo que não passava aqui, então vamos ver se conseguimos um meio termo:
Eu acho que usar o desvio padrão para determinar os quartis não é o ideal.
Veja que numa distribuição (se for) normal quase 70% dos dados estão a +/- 1 desvio padrão da média.
Logo temos dois problemas: 1) A média propriamente dita e 2) 30% dos dados para representar o 1o. e o 4o. quartil.
Uma alternativa, dentro dos parâmetros da estatística básica,
seria expurgar os "pontos fora da curva" (outliers) e daí calcular os quartis.
Eu apliquei a sequência de comandos abaixo no
software R:
- Código:
dados <- sort(c(1036, 1988, 2823, 3213, 3794, 5258, 16751, 17160, 18579, 24671, 26129, 734991))
range <- 1.5*IQR(dados)
qs <- quantile(dados)
quantile(dados[dados>qs[2]-range & dados<qs[3]+range])
E o resultado foi:
- Código:
(0%) 1036.0 (25%) 3018.0 (50%) 5258.0 (75%) 17869.5 (100%) 26129.0
(observe que estatisticamente, na sua amostra, 1036 não é ponto fora da curva)
Basicamente, o código R faz o seguinte:
ordena os dados, calcula o range baseado na distância interquartil, calcula os quartiles da amostra completa, expurga os outliers e recalcula os quartis.
O que você acha disso?