O Teste U de Mann-Whitney É aplicado para a comparação de duas amostras independentes quando possuem poucos dados ou não seguem uma distribuição normal. Desta forma, é considerado um teste não paramétrico, Ao contrário de sua contraparte, o Teste t de estudante, que é usado quando a amostra é grande o suficiente e segue a distribuição normal.
Frank Wilcoxon o propôs pela primeira vez em 1945, para amostras de tamanhos idênticos, mas dois anos depois foi estendido para o caso de amostras de tamanhos diferentes por Henry Mann e D. R. Whitney.
O teste é frequentemente aplicado para verificar se há uma relação entre uma variável qualitativa e uma quantitativa.
Um exemplo ilustrativo é pegar um conjunto de pessoas hipertensas e extrair dois grupos, dos quais os dados diários de pressão arterial são registrados por um mês.
O tratamento A é aplicado a um grupo e o tratamento B. a outro, a pressão arterial é a variável quantitativa e o tipo de tratamento é o qualitativo..
Queremos saber se a mediana, e não a média, dos valores medidos é estatisticamente igual ou diferente, para estabelecer se há diferença entre os dois tratamentos. Para obter a resposta, aplica-se a estatística de Wilcoxon ou o teste U de Mann-Whitney..
Índice do artigo
Outro exemplo em que o teste pode ser aplicado é o seguinte:
Suponha que você queira saber se o consumo de refrigerantes difere significativamente nas duas regiões do país.
Uma delas é chamada de região A e a outra região B. Um registro é mantido dos litros consumidos semanalmente em duas amostras: uma de 10 pessoas para a região A e outra de 5 pessoas para a região B.
Os dados são os seguintes:
-Região A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Região B: 12,14, 11, 30, 10
Surge a seguinte questão:
O consumo de refrigerantes (Y) depende da região (X)?
-Variável qualitativa X: Região
-Variável quantitativa Y: Consumo de refrigerante
Se a quantidade de litros consumidos for igual nas duas regiões, a conclusão será que não há dependência entre as duas variáveis. A maneira de descobrir é comparar a tendência média ou mediana para as duas regiões.
Se os dados seguem uma distribuição normal, duas hipóteses são levantadas: a nula H0 e a alternativa H1 por meio da comparação entre as médias:
-H0: não há diferença entre a média das duas regiões.
-H1: as médias de ambas as regiões são diferentes.
Pelo contrário, se os dados não seguem uma distribuição normal ou a amostra é simplesmente muito pequena para saber, em vez de comparar a média, ela seria comparada a mediana das duas regiões.
-H0: não há diferença entre a mediana das duas regiões.
-H1: as medianas de ambas as regiões são diferentes.
Caso as medianas coincidam, então a hipótese nula se cumpre: não há relação entre o consumo de refrigerantes e a região.
E se acontecer o contrário, a hipótese alternativa é verdadeira: há relação entre consumo e região.
É para esses casos em que o teste U de Mann-Whitney é indicado..
A próxima questão importante ao decidir se deve aplicar o teste U de Mann Whitney é se o número de dados em ambas as amostras é idêntico, o que significa que eles estão no mesmo nível..
Se as duas amostras forem emparelhadas, a versão Wilcoxon original se aplicaria. Mas se não, como é o caso no exemplo, então o teste de Wilcoxon modificado é aplicado, que é precisamente o teste U de Mann Whitney..
O teste U de Mann - Whitney é um teste não paramétrico, aplicável a amostras que não seguem a distribuição normal ou com poucos dados. Possui as seguintes características:
1.- Compare as medianas
2.- Funciona em intervalos ordenados
3.- É menos potente, sendo entendido por poder a probabilidade de rejeitar a hipótese nula quando na verdade é falsa.
Levando essas características em consideração, o teste Mann-Whitney U é aplicado quando:
-Os dados são independentes
-Eles não seguem a distribuição normal
-A hipótese nula H0 é aceita se as medianas das duas amostras coincidirem: Ma = Mb
-A hipótese alternativa H1 é aceita se as medianas das duas amostras forem diferentes: Ma ≠ Mb
A variável U é a estatística de contraste usada no teste de Mann-Whitney e é definida da seguinte forma:
U = min (Ua, Ub)
Isso significa que U é o menor dos valores entre Ua e Ub, aplicado a cada grupo. Em nosso exemplo, seria para cada região: A ou B.
As variáveis Ua e Ub são definidas e calculadas de acordo com a seguinte fórmula:
Ua = Na Nb + Na (Na +1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Aqui, os valores de Na e Nb são os tamanhos das amostras correspondentes às regiões A e B, respectivamente e, por sua vez, Ra e Rb são os somas de classificação que iremos definir abaixo.
1.- Ordenar os valores das duas amostras.
2.- Atribuir uma classificação de pedido a cada valor.
3.- Corrigir as ligaduras existentes nos dados (valores repetidos).
4.- Calcular Ra = Soma das faixas da amostra A.
5.- Encontre Rb = Soma das classificações da amostra B.
6.- Determine o valor Ua e Ub, de acordo com as fórmulas fornecidas na seção anterior.
7.- Compare Ua e Ub, e o menor dos dois é atribuído à estatística U experimental (isto é, dos dados) que é comparada com a estatística U teórica ou normal.
Agora aplicamos o acima mencionado ao problema dos refrigerantes levantado anteriormente:
Região A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Região B: 12,14, 11, 30, 10
Dependendo se as médias das duas amostras são estatisticamente iguais ou diferentes, a hipótese nula é aceita ou rejeitada: não há relação entre as variáveis Y e X, ou seja, o consumo de refrigerantes não depende da região:
H0: Ma = Mb
H1: Ma ≠ Mb
Seguimos ordenando os dados em conjunto para as duas amostras, ordenando os valores do menor para o maior:
Observe que o valor 11 aparece 2 vezes (uma vez em cada amostra). Originalmente possui posições ou faixas 3 e 4, mas para não superestimar ou subestimar uma ou outra, o valor médio é escolhido como a faixa, ou seja, 3,5.
Da mesma forma, procedemos com o valor 12, que é repetido três vezes nos intervalos 5, 6 e 7.
Bem, o valor 12 é atribuído ao intervalo médio de 6 = (5 + 6 + 7) / 3. E o mesmo para o valor 14, que possui ligadura (aparece nas duas amostras) nas posições 8 e 9, é atribuído o intervalo médio 8,5 = (8 + 9) / 2.
Em seguida, os dados da Região A e B são separados novamente, mas agora seus intervalos correspondentes são atribuídos a eles em outra linha:
Os intervalos Ra e Rb são obtidos a partir da soma dos elementos da segunda linha para cada caso ou região.
Os respectivos valores Ua e Ub são calculados:
Ua = 10 × 5 + 10 (10 + 1) / 2 - 86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2 -34 = 31
Valor experimental U = min (19, 31) = 19
Supõe-se que o U teórico segue uma distribuição normal N com parâmetros dados exclusivamente pelo tamanho das amostras:
N ((na⋅nb) / 2, √ [na nb (na + nb +1) / 12])
Para comparar a variável U obtida experimentalmente, com o U teórico é necessário alterar a variável. Passamos da variável experimental U ao seu valor tipificado, que será chamado Z, a fim de ser capaz de fazer a comparação com a de uma distribuição normal padronizada.
A mudança de variável é a seguinte:
Z = (U - na.nb / 2) / √ [na. nb (na + nb + 1) / 12]
Deve-se notar que para a mudança de variável foram usados os parâmetros da distribuição teórica de U. Em seguida, a nova variável Z, que é um híbrido entre o U teórico e o U experimental, é contrastada com uma distribuição normal padronizada N (0 , 1).
Se Z ≤ Zα ⇒ a hipótese nula H0 é aceita
Se Z> Zα ⇒ hipótese nula H0 é rejeitada
Os valores críticos de Zα padronizados dependem do nível de confiança exigido, por exemplo, para um nível de confiança α = 0,95 = 95%, que é o mais usual, o valor crítico Zα = 1,96.
Para os dados mostrados aqui:
Z = (U - na nb / 2) / √ [na nb (na + nb + 1) / 12] = -0,73
Que está abaixo do valor crítico 1,96.
Portanto, a conclusão final é que a hipótese nula H0 é aceita:
Não há diferença no consumo de refrigerantes entre as regiões A e B.
Existem programas específicos para cálculos estatísticos, incluindo SPSS e MINITAB, mas esses programas são pagos e nem sempre seu uso é fácil. Isso se deve ao fato de oferecerem tantas opções, que praticamente seu uso é reservado a especialistas em Estatística..
Felizmente, existem vários programas online muito precisos, gratuitos e fáceis de usar que permitem executar o teste U de Mann-Whitney, entre outros..
Esses programas são:
-Estatísticas de Ciências Sociais (socscistatistics.com), que tem o teste U de Mann-Whitney e o teste de Wilcoxon para o caso de amostras balanceadas ou emparelhadas.
-Estatísticas de terapia de IA (ai-therapy.com), que tem vários dos testes usuais de estatísticas descritivas.
-Estatística de uso (physics.csbsju.edu/stats), uma das mais antigas, portanto sua interface pode parecer desatualizada, embora seja um programa gratuito muito eficiente.
Ainda sem comentários