O que é classificação nas estatísticas? (Com exemplos)

1882
Alexander Pearson

O classificação, distância ou amplitude, em estatística, é a diferença (subtração) entre o valor máximo e o valor mínimo de um conjunto de dados de uma amostra ou população. Se o intervalo for representado pela letra R e os dados por x, a fórmula para o intervalo é simplesmente:

R = xmax - xmin

 Onde xmax é o valor máximo dos dados e xmin é o mínimo.

Figura 1. Faixa de dados correspondente à população de Cádiz nos últimos dois séculos. Fonte: Wikimedia Commons.

O conceito é muito útil como medida simples de dispersão para avaliar rapidamente a variabilidade dos dados, pois indica a extensão ou duração do intervalo em que estes se encontram..

Por exemplo, suponha que a altura de um grupo de 25 estudantes de engenharia do primeiro ano do sexo masculino em uma universidade seja medida. O aluno mais alto do grupo tem 1,93 me o mais baixo 1,67 m. Esses são os valores extremos dos dados de amostra, portanto, seu caminho é:

R = 1,93 - 1,67 m = 0,26 m ou 26 cm.

A altura dos alunos neste grupo é distribuída ao longo desta faixa.

Índice do artigo

  • 1 Vantagens e desvantagens
    • 1.1 Desvantagens de alcance como uma medida de dispersão
  • 2 Intervalo interquartil, quartis e exemplo trabalhado
    • 2.1 - Cálculo dos quartis
  • 3 exemplo trabalhado
  • 4 referências

Vantagens e desvantagens

O alcance é, como dissemos antes, uma medida de quão dispersos os dados estão. Um pequeno intervalo indica que os dados estão mais ou menos próximos e há pouca propagação. Por outro lado, um intervalo maior é indicativo de que os dados estão mais dispersos..

As vantagens de calcular o intervalo são óbvias: é muito simples e rápido de encontrar, pois é uma diferença simples.

Também possui as mesmas unidades dos dados com os quais trabalha e o conceito é muito fácil de interpretar para qualquer observador..

No exemplo da altura dos alunos de engenharia, se o intervalo fosse de 5 cm, diríamos que os alunos são todos aproximadamente do mesmo tamanho. Mas com um intervalo de 26 cm, assumimos imediatamente que há alunos de todas as alturas intermediárias na amostra. Esta suposição está sempre correta?

Desvantagens de alcance como medida de dispersão

Se olharmos com atenção, pode ser que em nossa amostra de 25 estudantes de engenharia, apenas um deles mede 1,93 e os 24 restantes têm alturas próximas a 1,67 m.

E ainda assim o alcance permanece o mesmo, embora o oposto seja perfeitamente possível: que a altura da maioria é em torno de 1,90 me apenas uma tem 1,67 m.

Em qualquer caso, a distribuição dos dados é bastante diferente.

As desvantagens do intervalo como medida de dispersão são porque ele usa apenas valores extremos e ignora todos os outros. Como a maioria das informações é perdida, você não tem ideia de como os dados de amostra são distribuídos.

Outra característica importante é que o intervalo da amostra nunca diminui. Se adicionarmos mais informações, ou seja, considerarmos mais dados, o intervalo aumenta ou permanece o mesmo.

E em qualquer caso, só é útil quando se trabalha com pequenas amostras, seu uso exclusivo como medida de dispersão em grandes amostras não é recomendado..

O que você deve fazer é complementar com o cálculo de outras medidas de dispersão que levem em consideração a informação fornecida pelos dados totais: rota interquartil, variância, desvio padrão e coeficiente de variação.

Intervalo interquartil, quartis e exemplo trabalhado

Percebemos que a fragilidade do intervalo como medida de dispersão é que ele apenas faz uso dos valores extremos da distribuição dos dados, omitindo os demais..

Para evitar esse inconveniente, o quartis: três valores conhecidos como medidas de posição.

Eles distribuem os dados desagrupados em quatro partes (outras medidas de posição amplamente utilizadas são decis e os percentis) Estas são suas características:

-O primeiro quartil Q1 é o valor dos dados de modo que 25% de todos eles seja menor que Q1.

-O segundo quartil Qdois é o mediana da distribuição, o que significa que metade (50%) dos dados é inferior a esse valor.

-Finalmente o terceiro quartil Q3 aponta que 75% dos dados são inferiores a Q3.

Então, o intervalo interquartil ou intervalo interquartil é definido como a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 dos dados:

Intervalo interquartil = RQ = Q3 - Q1

Desta forma, o valor do intervalo RQ não é tão afetado por valores extremos. Por esse motivo, é aconselhável usá-lo ao lidar com distribuições distorcidas, como aquelas de alunos muito altos ou muito baixos descritas acima..

- Cálculo de quartis

Existem várias maneiras de calculá-los, aqui vamos propor uma, mas em qualquer caso é necessário conhecer o numero de ordem "Nou”, Que é o lugar que o respectivo quartil ocupa na distribuição.

Ou seja, se, por exemplo, o termo que corresponde a Q1 é o segundo, terceiro ou quarto e assim por diante da distribuição.

Primeiro quartil

Nou (Q1) = (N + 1) / 4

Segundo quartil ou mediana

Nou (Qdois) = (N + 1) / 2

Terceiro quartil

Nou (Q3) = 3 (N + 1) / 4

Onde N é o número de dados.

A mediana é o valor que está bem no meio da distribuição. Se o número de dados for ímpar, não há problema em encontrá-lo, mas se for par, os dois valores centrais são calculados em média para se tornarem um.

Uma vez que o número do pedido foi calculado, uma destas três regras é seguida:

-Se não houver decimais, os dados indicados na distribuição são pesquisados ​​e este será o quartil pesquisado.

-Quando o número do pedido está na metade do caminho entre dois, os dados indicados pela parte inteira têm a média dos dados a seguir, e o resultado é o quartil correspondente.

-Em qualquer outro caso, é arredondado para o número inteiro mais próximo e essa será a posição do quartil.

Exemplo trabalhado

Em uma escala de 0 a 20, um grupo de 16 alunos de matemática I obteve as seguintes notas (pontos) em um exame de meio do semestre:

16, 10, 12, 8, 9, 15, 18, 20, 9, 11, 1, 13, 17, 9, 10, 14

Achar:

a) O intervalo ou intervalo dos dados.

b) Os valores dos quartis Q1 e que3

c) O intervalo interquartil.

Figura 2. As pontuações neste teste de matemática têm tanta variabilidade? Fonte: Pixabay.

Solução para

A primeira coisa a fazer para encontrar o caminho é ordenar os dados em ordem crescente ou decrescente. Por exemplo, em ordem crescente, você tem:

1, 8, 9, 9, 9, 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20

Usando a fórmula dada no início: R = xmax - xmin

R = 20 - 1 pontos = 19 pontos.

De acordo com o resultado, essas qualificações possuem uma grande dispersão.

Solução b

N = 16

Nou (Q1) = (N + 1) / 4 = (16 + 1) / 4 = 17/4 = 4,25

É um número com decimais, cuja parte inteira é 4. Em seguida, vamos para a distribuição, procuramos os dados que ocupam a quarta posição e seu valor é a média com a da quinta posição. Como ambos têm 9, a média também é 9 e assim:

Q1 = 9

Agora repetimos o procedimento para encontrar Q3:

Nou (Q3) = 3 (N + 1) / 4 = 3 (16 +1) / 4 = 12,75

Novamente, é um decimal, mas como não está na metade, é arredondado para 13. O quartil que estamos procurando ocupa a décima terceira posição e é:

Q3 = 16

Solução c

RQ = Q3 - Q1 = 16 - 9 = 7 pontos.

Que, como vemos, é muito menor do que o intervalo de dados calculado na seção a), pois a pontuação mínima foi de 1 ponto, valor muito mais distante dos demais..

Referências

  1. Berenson, M. 1985. Statistics for management and economics. Interamericana S.A.
  2. Canavos, G. 1988. Probabilidade e Estatística: Aplicações e métodos. Colina Mcgraw.
  3. Devore, J. 2012. Probability and Statistics for Engineering and Science. 8º. Edição. Cengage.
  4. Exemplos de quartis. Recuperado de: matematicas10.net.
  5. Levin, R. 1988. Statistics for Administrators. 2ª Edição. Prentice Hall.
  6. Walpole, R. 2007. Probabilidade e Estatística para Engenharia e Ciências. Pearson.

Ainda sem comentários