O coeficiente de determinação é um número entre 0 e 1 que representa a fração de pontos (X, Y) que segue a linha de regressão de ajuste de um conjunto de dados com duas variáveis.
Também é conhecido como qualidade de ajuste e é denotado por Rdois. Para calculá-lo, toma-se o quociente entre a variância dos dados Ŷi estimada pelo modelo de regressão e a variância dos dados Yi correspondente a cada Xi dos dados..
Rdois = Sŷ / Sy
Se 100% dos dados estiverem na linha da função de regressão, o coeficiente de determinação será 1.
Pelo contrário, se para um conjunto de dados e uma certa função de ajuste o coeficiente Rdois acaba sendo igual a 0,5, então pode-se dizer que o ajuste é 50% satisfatório ou bom.
Da mesma forma, quando o modelo de regressão retorna valores de Rdois menor que 0,5, indica que a função de ajuste escolhida não se adapta satisfatoriamente aos dados, portanto é necessário procurar outra função de ajuste.
E quando o covariância ou o coeficiente de correlação tende a zero, então as variáveis X e Y nos dados não estão relacionadas e, portanto, Rdois também tenderá a zero.
Índice do artigo
Na seção anterior foi dito que o coeficiente de determinação é calculado encontrando o quociente entre as variâncias:
-Estimado pela função de regressão da variável Y
-Aquela da variável Yi correspondente a cada uma das variáveis Xi dos N pares de dados.
Expresso matematicamente, é assim:
Rdois = Sŷ / Sy
Desta fórmula segue que Rdois representa a proporção da variância explicada pelo modelo de regressão. Alternativamente, R pode ser calculadodois utilizando a seguinte fórmula, totalmente equivalente à anterior:
Rdois = 1 - (Sε / Sy)
Onde Sε representa a variância dos resíduos εi = Ŷi - Yi, enquanto Sy é a variância do conjunto de valores Yi dos dados. Para determinar Ŷi a função de regressão é aplicada, o que significa afirmar que Ŷi = f (Xi).
A variação do conjunto de dados Yi, com i de 1 a N é calculada da seguinte forma:
Sy = [Σ (Yi -
E então proceda de forma semelhante para Sŷ ou para Sε.
A fim de mostrar o detalhe de como o cálculo do coeficiente de determinação pegaremos o seguinte conjunto de quatro pares de dados:
(X, Y): (1, 1); (2,3); (3, 6) e (4, 7).
Um ajuste de regressão linear é proposto para este conjunto de dados, que é obtido usando o método dos mínimos quadrados:
f (x) = 2,1 x - 1
Aplicando esta função de ajuste, os torques são obtidos:
(X, Ŷ): (1, 1,1); (2, 3,2); (3, 5.3) e (4, 7.4).
Em seguida, calculamos a média aritmética para X e Y:
Variance Sy
Sy = [(1 - 4,25)dois + (3 - 4,25)dois + (6 - 4,25)dois +….…. (7 - 4,25)dois] / (4-1) =
= [(-3,25)dois+ (-1,25)dois + (1,75)dois + (2,75)dois) / (3)] = 7.583
Variância Sŷ
Sŷ = [(1,1 - 4,25)dois + (3,2 - 4,25)dois + (5,3 - 4,25)dois +….…. (7,4 - 4,25)dois] / (4-1) =
= [(-3,25)dois + (-1,25)dois + (1,75)dois + (2,75)dois) / (3)] = 7,35
Coeficiente de determinação Rdois
Rdois = Sŷ / Sy = 7,35 / 7,58 = 0,97
O coeficiente de determinação para o caso ilustrativo considerado no segmento anterior acabou sendo 0,98. Em outras palavras, o ajuste linear por meio da função:
f (x) = 2,1x - 1
É 98% confiável para explicar os dados com os quais foi obtido pelo método dos mínimos quadrados..
Além do coeficiente de determinação, existe o coeficiente de correlação linear ou também conhecido como coeficiente de Pearson. Este coeficiente, denotado como r, é calculado pela seguinte relação:
r = Sxy / (Sx Sy)
Aqui, o numerador representa a covariância entre as variáveis X e Y, enquanto o denominador é o produto do desvio padrão para a variável X e o desvio padrão para a variável Y.
O coeficiente de Pearson pode assumir valores entre -1 e +1. Quando esse coeficiente tende a +1, há uma correlação linear direta entre X e Y. Se, em vez disso, tende a -1, há uma correlação linear, mas quando X aumenta, Y diminui. Por fim, está próximo de 0, não há correlação entre as duas variáveis.
Deve-se notar que o coeficiente de determinação coincide com o quadrado do coeficiente de Pearson, apenas quando o primeiro foi calculado com base em um ajuste linear, mas essa igualdade não é válida para outros ajustes não lineares..
Um grupo de alunos do ensino médio se propôs a determinar uma lei empírica para o período de um pêndulo em função de seu comprimento. Para atingir este objetivo, realizam uma série de medições nas quais medem o tempo de oscilação de um pêndulo para diferentes comprimentos obtendo os seguintes valores:
Comprimento (m) | Período (s) |
---|---|
0,1 | 0,6 |
0,4 | 1,31 |
0,7 | 1,78 |
1 | 1,93 |
1,3 | 2,19 |
1,6 | 2,66 |
1,9 | 2,77 |
3 | 3,62 |
É solicitado fazer um gráfico de dispersão dos dados e executar um ajuste linear por meio de regressão. Além disso, mostre a equação de regressão e seu coeficiente de determinação.
Um coeficiente de determinação bastante alto pode ser observado (95%), então pode-se pensar que o ajuste linear é ótimo. No entanto, se os pontos forem vistos juntos, parece que eles têm uma tendência a se curvar para baixo. Este detalhe não está contemplado no modelo linear.
Para os mesmos dados do Exemplo 1, faça um gráfico de dispersão dos dados. Nesta ocasião, ao contrário do exemplo 1, um ajuste de regressão é solicitado usando uma função potencial.
Também mostra a função de ajuste e seu coeficiente de determinação Rdois.
A função potencial é da forma f (x) = AxB, onde A e B são constantes que são determinadas pelo método dos mínimos quadrados.
A figura anterior mostra a função potencial e seus parâmetros, bem como o coeficiente de determinação com um valor muito alto de 99%. Observe que os dados seguem a curvatura da linha de tendência.
Usando os mesmos dados do Exemplo 1 e Exemplo 2, execute um ajuste polinomial de segundo grau. Mostrar gráfico, polinômio de ajuste e coeficiente de determinação Rdois correspondente.
Com o ajuste polinomial de segundo grau, você pode ver uma linha de tendência que se ajusta bem à curvatura dos dados. Além disso, o coeficiente de determinação está acima do ajuste linear e abaixo do ajuste potencial..
Dos três ajustes mostrados, aquele com o maior coeficiente de determinação é o ajuste potencial (exemplo 2).
O ajuste potencial coincide com a teoria física do pêndulo, que, como se sabe, estabelece que o período de um pêndulo é proporcional à raiz quadrada de seu comprimento, sendo a constante de proporcionalidade 2π / √g onde g é a aceleração de gravidade.
Este tipo de ajuste potencial não apenas possui o maior coeficiente de determinação, mas o expoente e a constante de proporcionalidade correspondem ao modelo físico..
-O ajuste de regressão determina os parâmetros da função que se destina a explicar os dados usando o método dos mínimos quadrados. Este método consiste em minimizar a soma da diferença quadrática entre o valor Y de ajuste e o valor Yi dos dados para os valores Xi dos dados. Isso determina os parâmetros da função de ajuste.
-Como vimos, a função de ajuste mais comum é a linha, mas não é a única, pois os ajustes também podem ser polinomiais, potenciais, exponenciais, logarítmicos e outros..
-Em qualquer caso, o coeficiente de determinação depende dos dados e do tipo de ajuste e é uma indicação da qualidade do ajuste aplicado..
-Finalmente, o coeficiente de determinação indica a porcentagem da variabilidade total entre o valor Y dos dados em relação ao valor Ŷ do ajuste para o X dado.
Ainda sem comentários