As medidas de variabilidade, Também chamadas de medidas de dispersão, são indicadores estatísticos que indicam quão próximos ou distantes os dados estão de sua média aritmética. Se os dados estão próximos da média, a distribuição é concentrada, e se eles estão distantes, então é uma distribuição esparsa..
Existem muitas medidas de variabilidade, entre as mais conhecidas estão:
Essas medidas complementam as medidas de tendência central e são necessárias para entender a distribuição dos dados obtidos e extrair deles o máximo de informações possível..
Intervalo ou extensão mede a amplitude de um conjunto de dados. Para determinar seu valor, a diferença entre os dados com o maior valor xmax e aquele com o menor valor xmin:
R = xmax - xmin
Se os dados não são soltos, mas agrupados por intervalo, então o intervalo é calculado pela diferença entre o limite superior do último intervalo e o limite inferior do primeiro intervalo.
Quando o intervalo é um valor pequeno, significa que todos os dados estão bastante próximos uns dos outros, mas um intervalo grande indica que há muita variabilidade. É claro que, além do limite superior e do limite inferior dos dados, o intervalo não leva em consideração os valores entre eles, por isso não é recomendado utilizá-lo quando o número de dados for grande.
No entanto, é uma medida imediata de cálculo e possui as mesmas unidades dos dados, por isso é fácil de interpretar.
Segue abaixo a lista com a quantidade de gols marcados no fim de semana, nas ligas de futebol de nove países:
40, 32, 35, 36, 37, 31, 37, 29, 39
Este é um conjunto de dados desagrupado. Para encontrar o intervalo, prosseguimos ordenando-os do menor ao maior:
29, 31, 32, 35, 36, 37, 37, 39, 40
O dado com maior valor é 40 metas e o de menor valor é 29 metas, portanto o intervalo é:
R = 40−29 = 11 gols.
Pode-se considerar que o intervalo é pequeno se comparado aos dados de valor mínimo, que é de 29 metas, portanto, pode-se supor que os dados não possuem grande variabilidade.
Essa medida de variabilidade é calculada por meio da média dos valores absolutos dos desvios em relação à média.. Denotando o desvio médio como DM, Para dados não agrupados, o desvio médio é calculado usando a seguinte fórmula:
Onde n é o número de dados disponíveis, xeu representa cada dado e x̄ é a média, que é determinada adicionando todos os dados e dividindo por n:
O desvio médio permite saber, em média, em quantas unidades os dados se desviam da média aritmética e tem a vantagem de ter as mesmas unidades que os dados com os quais estamos trabalhando..
Com base nos dados do exemplo de intervalo, o número de gols marcados é:
40, 32, 35, 36, 37, 31, 37, 29, 39
Se você quiser encontrar o desvio médio DM A partir desses dados, é necessário primeiro calcular a média aritmética x̄:
E agora que o valor de x̄ é conhecido, procedemos para encontrar o desvio médio DM:
= 2,99 ≈ 3 gols
Portanto, pode-se afirmar que, em média, o dado está a aproximadamente 3 gols de distância da média, que é de 35 gols, e como se pode notar, é uma medida muito mais precisa que o intervalo..
O desvio médio é uma medida de variabilidade muito mais precisa do que o intervalo, mas como é calculado pelo valor absoluto das diferenças entre cada dado e a média, não oferece maior versatilidade do ponto de vista algébrico..
Por este motivo, a variância é preferida, que corresponde à média da diferença quadrática de cada dado com a média e é calculada usando a fórmula:
Nesta expressão, sdois denota a variação, e como sempre xeu representa cada um dos dados, x̄ é a média e n é o total de dados.
Ao trabalhar com uma amostra em vez da população, é preferível calcular a variância assim:
Em qualquer caso, a variância é caracterizada por ser sempre uma quantidade positiva, mas por ser a média das diferenças quadráticas, é importante notar que não possui as mesmas unidades que as dos dados..
Para calcular a variância dos dados nos exemplos de intervalo e desvio médio, procedemos à substituição dos valores correspondentes e realizamos a soma indicada. Nesse caso, optamos por dividir por n-1:
= 13,86
A variância não tem a mesma unidade da variável em estudo, por exemplo, se os dados vierem em metros, a variância resulta em metros quadrados. Ou no exemplo dos gols seria em gols ao quadrado, o que não faz sentido.
Portanto, o desvio padrão é definido, também chamado de desvio típico, como a raiz quadrada da variação:
s = √sdois
Dessa forma, uma medida de variabilidade dos dados é obtida nas mesmas unidades que estes, e quanto menor o valor de s, mais agrupados os dados ficam em torno da média..
Tanto a variância quanto o desvio padrão são as medidas de variabilidade a serem escolhidas quando a média aritmética é a medida de tendência central que melhor descreve o comportamento dos dados..
E é que o desvio padrão tem uma propriedade importante, conhecida como teorema de Chebyshev: pelo menos 75% das observações estão no intervalo definido por x̄ ± 2s. Em outras palavras, 75% dos dados estão no máximo 2s de distância da média..
Da mesma forma, pelo menos 89% dos valores estão a uma distância de 3s da média, percentual que pode ser ampliado, desde que haja muitos dados disponíveis e sigam uma distribuição normal..
Figura 2.- Se os dados seguem uma distribuição normal, 95,4 deles estão dentro de dois desvios padrão em ambos os lados da média. Fonte: Wikimedia Commons.
O desvio padrão dos dados apresentados nos exemplos anteriores é:
s = √sdois = √13,86 = 3,7 ≈ 4 gols
Ainda sem comentários