Fórum de Matemática
DÚVIDAS? Nós respondemos!

Um Fórum em Português dedicado à Matemática
Data/Hora: 22 dez 2024, 02:14

Os Horários são TMG [ DST ]




Fazer Nova Pergunta Responder a este Tópico  [ 2 mensagens ] 
Autor Mensagem
MensagemEnviado: 15 dez 2017, 15:38 
Offline

Registado: 15 dez 2017, 14:49
Mensagens: 1
Localização: Florianópolis, Santa Catarina
Agradeceu: 0 vez(es)
Foi agradecido: 0 vez(es)
Pessoal, boa tarde.

Tenho o seguinte cenário:
Preciso calcular a média de tempo útil que levamos na resolução de um problema pelo tipo do problema (Crítico, Alto, Médio, Baixo). Hoje eu tenho no banco de dados este tempo, em segundos, então agora só preciso fazer o cálculo.

Acredito que uma média simples, separando por cada uma das categorias não representará a realidade, considerando que tenho dados como o exemplo abaixo, com pontos muito fora da curva média.

1036 -- Ponto fora da curva.
1988
2823
3213
3794
5258
16751
17160
18579
24671
26129
734991 -- Ponto fora da curva.

No desvio padrão ficaria: 209191
Na média simples ficaria: 71366

Pensei em utilizar o desvio padrão, mas usando todos os dados o valor fica irreal. Desta forma gerei um desvio padrão por quartil, o que me gerou os valores abaixo:

1 - 894
2 - 1054
3 - 959
4 - 409683

Gostaria de saber se a combinação entre o quartil e desvio padrão faz sentido (ou se deveria fazer uma média simples no quartil), ou então que possam ser sugeridas outras formas de se fazer o cálculo.

Aguardo sugestões, não sou matemático ou estatístico (tive disciplinas na faculdade apenas), mas preciso conseguir apresentar dados factíveis.


Topo
 Perfil  
 
MensagemEnviado: 30 dez 2017, 02:11 
Offline

Registado: 10 nov 2012, 00:19
Mensagens: 1432
Localização: Mogi das Cruzes - SP - Brasil
Agradeceu: 47 vezes
Foi agradecido: 452 vezes
Oi, o tópico já tem alguns dias e fazia tempo que não passava aqui, então vamos ver se conseguimos um meio termo:

Eu acho que usar o desvio padrão para determinar os quartis não é o ideal.
Veja que numa distribuição (se for) normal quase 70% dos dados estão a +/- 1 desvio padrão da média.
Logo temos dois problemas: 1) A média propriamente dita e 2) 30% dos dados para representar o 1o. e o 4o. quartil.

Uma alternativa, dentro dos parâmetros da estatística básica,
seria expurgar os "pontos fora da curva" (outliers) e daí calcular os quartis.

Eu apliquei a sequência de comandos abaixo no software R:

Código:
dados <- sort(c(1036, 1988, 2823, 3213, 3794, 5258, 16751, 17160, 18579, 24671, 26129, 734991))
range <- 1.5*IQR(dados)
qs <- quantile(dados)
quantile(dados[dados>qs[2]-range & dados<qs[3]+range])


E o resultado foi:

Código:
(0%) 1036.0  (25%) 3018.0  (50%) 5258.0 (75%) 17869.5 (100%) 26129.0


(observe que estatisticamente, na sua amostra, 1036 não é ponto fora da curva)

Basicamente, o código R faz o seguinte:
ordena os dados, calcula o range baseado na distância interquartil, calcula os quartiles da amostra completa, expurga os outliers e recalcula os quartis.

O que você acha disso?

_________________
Fraol
Você também pode contribuir, se souber alguma questão responda ou participe da discussão. Divulgue nosso forum.


Topo
 Perfil  
 
Mostrar mensagens anteriores:  Ordenar por  
Fazer Nova Pergunta Responder a este Tópico  [ 2 mensagens ] 

Os Horários são TMG [ DST ]


Quem está ligado:

Utilizador a ver este Fórum: Nenhum utilizador registado e 1 visitante


Criar perguntas: Proibído
Responder a perguntas: Proibído
Editar Mensagens: Proibído
Apagar Mensagens: Proibído
Enviar anexos: Proibído

Pesquisar por:
Ir para:  
cron