O distribuição hipergeométrica é uma função estatística discreta, adequada para calcular a probabilidade em experimentos aleatórios com dois resultados possíveis. A condição necessária para aplicá-lo é que sejam pequenas populações, nas quais as extrações não sejam substituídas e as probabilidades não sejam constantes..
Portanto, quando um elemento da população é escolhido para saber o resultado (verdadeiro ou falso) de uma determinada característica, esse mesmo elemento não pode ser escolhido novamente..
Certamente, o próximo elemento escolhido é, portanto, mais provável de obter um resultado verdadeiro, se o elemento anterior teve um resultado negativo. Isso significa que a probabilidade varia conforme os elementos são extraídos da amostra..
As principais aplicações da distribuição hipergeométrica são: controle de qualidade em processos com pouca população e cálculo de probabilidades em jogos de azar.
Já a função matemática que define a distribuição hipergeométrica é constituída por três parâmetros, que são:
- Número de elementos da população (N)
- Tamanho da amostra (m)
- Número de eventos em toda a população com resultado favorável (ou desfavorável) da característica estudada (n).
Índice do artigo
A fórmula para a distribuição hipergeométrica dá a probabilidade P de que x casos favoráveis de uma determinada característica ocorrem. A maneira de escrever matematicamente, com base nos números combinatórios, é:
Na expressão acima N, n Y m são parâmetros e x a própria variável.
-População total é N.
-O número de resultados positivos de uma certa característica binária em relação à população total é n.
-Quantidade de itens de amostra é m.
Neste caso, X é uma variável aleatória que assume o valor x Y P (x) indica a probabilidade de ocorrência de x casos favoráveis da característica estudada.
Outras variáveis estatísticas para a distribuição hipergeométrica são:
- Metade μ = m * n / N
- Variância σ ^ 2 = m * (n / N) * (1-n / N) * (N-m) / (N-1)
- Desvio típico σ que é a raiz quadrada da variância.
Para chegar ao modelo da distribuição hipergeométrica, partimos da probabilidade de obter x casos favoráveis em um tamanho de amostra m. A referida amostra contém elementos que estão de acordo com a propriedade em estudo e elementos que não.
Lembre-se disso n representa o número de casos favoráveis na população total de N elementos Então, a probabilidade seria calculada assim:
P (x) = (# de maneiras de obter x # de maneiras com falha) / (# total de maneiras de selecionar)
Expressando o acima na forma de números combinatórios, chegamos ao seguinte modelo de distribuição de probabilidade:
São as seguintes:
- A amostra deve ser sempre pequena, mesmo se a população for grande.
- Os elementos da amostra são extraídos um a um, sem incorporá-los de volta à população..
- A propriedade a ser estudada é binária, ou seja, pode assumir apenas dois valores: 1 ou 0, o bem certo ou falso.
Em cada etapa de extração de elemento, a probabilidade muda dependendo dos resultados anteriores.
Outra propriedade da distribuição hipergeométrica é que ela pode ser aproximada pela distribuição binomial, denotada como Bi, contanto que a população N é grande e pelo menos 10 vezes maior do que a amostra m. Nesse caso, seria assim:
P (N, n, m; x) = Bi (m, n / N, x)
Aplicável desde que N seja grande e N> 10m
Suponha que uma máquina que produz parafusos e os dados acumulados indiquem que 1% apresenta defeitos. Então, em uma caixa de N = 500 parafusos, o número de defeituosos será:
n = 500 * 1/100 = 5
Suponha que dessa caixa (ou seja, dessa população) tiremos uma amostra de m = 60 parafusos.
A probabilidade de que nenhum parafuso (x = 0) na amostra seja defeituoso é de 52,63%. Este resultado é alcançado usando a função de distribuição hipergeométrica:
P (500, 5, 60, 0) = 0,5263
A probabilidade de que x = 3 parafusos na amostra sejam defeituosos é: P (500, 5, 60, 3) = 0,0129.
Por outro lado, a probabilidade de que x = 4 parafusos dos sessenta da amostra sejam defeituosos é: P (500, 5, 60; 4) = 0,0008.
Finalmente, a probabilidade de que x = 5 parafusos nessa amostra sejam defeituosos é: P (500, 5, 60; 5) = 0.
Mas se você quiser saber a probabilidade de que nessa amostra haja mais de 3 parafusos com defeito, você deve obter a probabilidade cumulativa, adicionando:
P (3) + P (4) + P (5) = 0,0129 + 0,0008 + 0 = 0,0137.
Este exemplo é ilustrado na figura 2, obtido usando GeoGebra um software livre amplamente utilizado em escolas, institutos e universidades.
Um deck espanhol tem 40 cartas, das quais 10 são douradas e as 30 restantes não. Suponha que 7 cartas sejam retiradas aleatoriamente desse baralho, que não são reincorporadas ao baralho.
Se X for o número de ouros presentes nas 7 cartas sorteadas, então a probabilidade de haver x golds em uma retirada de 7 cartas é dada pela distribuição hipergeométrica P (40,10,7; x).
Vamos ver assim: para calcular a probabilidade de ter 4 ouros em um sorteio de 7 cartas, usamos a fórmula da distribuição hipergeométrica com os seguintes valores:
E o resultado é: 4,57% de probabilidade.
Mas se você quiser saber a probabilidade de obter mais de 4 cartas, então você deve adicionar:
P (4) + P (5) + P (6) + P (7) = 5,20%
O seguinte conjunto de exercícios destina-se a ilustrar e assimilar os conceitos apresentados neste artigo. É importante que o leitor tente resolvê-los sozinho, antes de olhar para a solução.
Uma fábrica de preservativos descobriu que de cada 1.000 preservativos produzidos por uma determinada máquina, 5 saem com defeito. Para controle de qualidade, 100 preservativos são retirados ao acaso e o lote é rejeitado caso haja pelo menos um ou mais com defeito. Responder:
a) Qual a possibilidade de que um lote de 100 seja descartado?
b) Este critério de controle de qualidade é eficiente??
Nesse caso, números combinatórios muito grandes aparecerão. O cálculo é difícil, a menos que um pacote de software adequado esteja disponível.
Mas como se trata de uma grande população e a amostra é dez vezes menor que a população total, é possível usar a aproximação da distribuição hipergeométrica pela distribuição binomial:
P (1000,5,100; x) = Bi (100, 5/1000, x) = Bi (100, 0,005, x) = C (100, x) * 0,005 ^ x (1-0,005) ^ (100-x)
Na expressão acima C (100, x) é um número combinatório. Então, a probabilidade de haver mais de um defeito será calculada assim:
P (x> = 1) = 1 - Bi (0) = 1- 0,6058 = 0,3942
É uma excelente aproximação, se comparada com o valor obtido pela aplicação da distribuição hipergeométrica: 0,4102
Pode-se dizer que, com 40% de probabilidade, um lote de 100 profiláticos deve ser descartado, o que não é muito eficiente..
Mas, sendo um pouco menos exigente no processo de controle de qualidade e descartando o lote de 100 apenas se houver dois ou mais defeituosos, a probabilidade de descarte do lote cairia para apenas 8%..
Uma máquina de plugue plástico funciona de forma que a cada 10 peças uma saia deformada. Em uma amostra de 5 peças, qual a probabilidade de que apenas uma peça esteja com defeito?.
População: N = 10
Número n de defeituosos para cada N: n = 1
Tamanho da amostra: m = 5
P (10, 1, 5; 1) = C (1,1) * C (9,4) / C (10,5) = 1 * 126/252 = 0,5
Portanto, há uma probabilidade de 50% de que em uma amostra de 5, uma sugestão saia deformada.
Em uma reunião de jovens graduados do ensino médio, há 7 senhoras e 6 senhores. Entre as meninas, 4 estudam humanidades e 3 ciências. No grupo masculino, 1 estuda humanidades e 5 ciências. Calcule o seguinte:
a) Escolher três meninas ao acaso: qual é a probabilidade de que todas elas estudem humanidades?.
b) Se três participantes da reunião de amigos forem escolhidos ao acaso: Qual é a possibilidade de que três deles, independentemente do sexo, estudem ciências nos três, ou ciências humanas também nos três?.
c) Agora selecione dois amigos aleatoriamente e ligue x à variável aleatória "número de pessoas que estudam humanidades". Entre os dois escolhidos, determine a média ou valor esperado de x e a variância σ ^ 2.
A população é o número total de meninas: N = 7. Quem estuda humanidades é n = 4, do total. A amostra aleatória de meninas será m = 3.
Neste caso, a probabilidade de que todos os três sejam estudantes de humanidades é dada pela função hipergeométrica:
P (N = 7, n = 4, m = 3, x = 3) = C (4, 3) C (3, 0) / C (7, 3) = 0,1143
Portanto, há uma probabilidade de 11,4% de que três meninas escolhidas ao acaso estudem ciências humanas..
Os valores a serem usados agora são:
-População: N = 14
-Quantidade que estuda letras é: n = 6 e o
-Tamanho da amostra: m = 3.
-Número de amigos estudando humanidades: x
De acordo com isso, x = 3 significa que todos os três estudam humanidades, mas x = 0 significa que nenhum estuda humanidades. A probabilidade de que todos os três estudem o mesmo é dada pela soma:
P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099
Então, temos uma probabilidade de 21% de que três participantes da reunião, escolhidos aleatoriamente, estudem a mesma coisa.
Aqui temos os seguintes valores:
N = 14 população total de amigos, n = 6 número total na população estudando humanidades, o tamanho da amostra é m = 2.
A esperança é:
E (x) = m * (n / N) = 2 * (6/14) = 0,8572
E a variação:
σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14 -1) =
= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / (13 ) = 0,4521
Ainda sem comentários