Lição 08

Correlação: Pearson e Spearman

Medindo a força da relação entre duas variáveis — e testando se ela é real.

🎯 Objetivo desta lição

Dominar os dois coeficientes de correlação da disciplina e seus testes de significância. Ao final, você saberá resolver as questões 2, 7, 10, 14 e 19 da lista complementar — incluindo as armadilhas de relações não lineares e pontos extremos.

Pearson vs. Spearman: Quando usar cada um?

📏 Correlação de Pearson (\(r\))

Mede a correlação linear entre duas variáveis contínuas.

  • Pressupostos: variáveis contínuas, relação linear, normalidade razoável
  • Valor varia de −1 (linear negativa perfeita) a +1 (linear positiva perfeita)
  • Pistas no enunciado: "Assuma que Pearson é razoável", "teste clássico"
📊 Correlação de Spearman (\(r_s\))

Mede a associação monotônica — se quando X sobe, Y também sobe (ou desce).

  • Não paramétrico: usa postos (ranks) em vez dos valores brutos
  • Adequado para: variáveis ordinais, relação não linear, dados com outliers
  • Pistas: "variáveis ordinais", "baseado em postos"
⚠️ Diferença fundamental

Pearson mede correlação linear — uma relação em forma de reta.

Spearman mede associação monotônica — uma relação onde "mais X" sempre implica "mais Y" (ou "menos Y"), mesmo que não seja em linha reta.

Uma relação em forma de U (parábola) pode ter \(r = 0\) (Pearson) mas não é "sem relação"!

Correlação de Pearson

Coeficiente

Coeficiente de Pearson \(r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \cdot \sum(y_i - \bar{y})^2}}\)

Forma equivalente (útil quando o enunciado dá somatórios):

Forma com somatórios \(r = \frac{n\sum x_i y_i - (\sum x_i)(\sum y_i)}{\sqrt{[n\sum x_i^2 - (\sum x_i)^2][n\sum y_i^2 - (\sum y_i)^2]}}\)

Teste de significância

Estatística t \(T_{obs} = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}, \quad gl = n - 2\)

Hipóteses:

Exemplo — Questão 7 da Lista Complementar

✏️ Resolução Completa

Horas de prática (X) e nota na atividade (Y), n = 8 estudantes:

(1, 55), (2, 60), (3, 58), (4, 65), (5, 68), (6, 72), (7, 74), (8, 78)

Teste se existe correlação linear positiva (α = 5%).


Hipóteses

\(H_0: \rho = 0\) vs. \(H_1: \rho > 0\) (correlação positiva)

Teste unilateral à direita.

Coeficiente (dado pelo gabarito)

\(r = 0{,}983\) (correlação muito forte)

Estatística t

\(T_{obs} = \frac{0{,}983\sqrt{8-2}}{\sqrt{1-0{,}983^2}} = \frac{0{,}983 \times 2{,}449}{\sqrt{1-0{,}966}} = \frac{2{,}407}{\sqrt{0{,}034}} = \frac{2{,}407}{0{,}185} \approx 13{,}011\)

\(gl = 8 - 2 = 6\)

Conclusão

Unilateral direita, α = 5%, gl = 6: \(t_{0{,}05; 6} \approx 1{,}943\).

\(T_{obs} = 13{,}011 > 1{,}943\) → Rejeita \(H_0\).

Há indícios de correlação linear positiva: estudantes com mais horas de prática tendem a ter maiores notas.

⚠️ Armadilha: r = 0 não significa "sem relação"

✏️ Questão 10 da Lista Complementar — A Parábola

Dados em forma de U:

(−3, 9), (−2, 4), (−1, 1), (0, 0), (1, 1), (2, 4), (3, 9)

Note: \(Y = X^2\) — relação perfeitamente determinística!

Resultado

\(r = 0\) e \(T_{obs} = 0\) → Não rejeita \(H_0\).

Conclusão: Não há indícios de correlação linear.

Mas cuidado!

Isso NÃO significa ausência de relação! Os dados apresentam uma relação não linear clara (parabólica). Pearson só detecta relações lineares.

🚫 Erro grave

"O coeficiente de Pearson é zero, logo X e Y são independentes." — ERRADO!

Pearson mede apenas relação linear. Pode haver relação quadrática, exponencial, etc. Sempre faça o gráfico de dispersão.

⚠️ Armadilha: Pontos Extremos (Outliers)

✏️ Questão 19 da Lista Complementar — O Ponto Influente

Dados:

(1, 6), (2, 5), (3, 5), (4, 6), (5, 5), (20, 20)

Com todos os dados

\(r = 0{,}972\), \(T_{obs} = 8{,}250\), gl = 4 → Rejeita \(H_0\).

Correlação positiva forte!

Sem o ponto (20, 20)

\(r \approx -0{,}289\) → Correlação fraca negativa!

Um único ponto extremo inverteu completamente a conclusão. O gráfico e a análise de outliers são indispensáveis.

⚠️ Lição para a prova

Quando o enunciado mencionar "ponto extremo" ou quando um par (x, y) for muito distante dos demais, o professor espera que você:

  1. Calcule e conclua com todos os dados
  2. Alerte que a conclusão deve ser lida com cuidado
  3. Explique que o ponto extremo influencia fortemente o valor de r

Correlação de Spearman

Procedimento

1

Atribuir postos a X e a Y separadamente

Ordene os valores de X e atribua postos de 1 a n. Faça o mesmo para Y.

2

Calcular o coeficiente

Coeficiente de Spearman (sem empates) \(r_s = 1 - \frac{6\sum d_i^2}{n(n^2-1)}\)

Onde \(d_i = \text{posto}(x_i) - \text{posto}(y_i)\).

3

Teste de significância (aproximação t)

Estatística t \(T_{obs} = \frac{r_s\sqrt{n-2}}{\sqrt{1-r_s^2}}, \quad gl = n - 2\)

Mesma fórmula do teste para Pearson, mas usando \(r_s\).

Exemplo — Questão 14 da Lista Complementar

✏️ Resolução Completa

Dificuldade percebida (X) e necessidade de suporte técnico (Y), escala ordinal 1–6:

(1, 1), (2, 3), (3, 2), (4, 4), (5, 5), (6, 6)

Variáveis ordinais → use Spearman. Teste associação monotônica positiva (α = 5%).


Passo 1 — Postos
iXPosto XYPosto Y\(d_i\)\(d_i^2\)
1111100
22233−11
3332211
4444400
5555500
6666600

\(\sum d_i^2 = 0 + 1 + 1 + 0 + 0 + 0 = 2\)

Passo 2 — Coeficiente

\(r_s = 1 - \frac{6 \times 2}{6 \times (36-1)} = 1 - \frac{12}{210} = 1 - 0{,}057 = 0{,}943\)

Passo 3 — Teste

\(H_0: \rho_s = 0\) vs. \(H_1: \rho_s > 0\) (associação positiva)

\(T_{obs} = \frac{0{,}943\sqrt{4}}{\sqrt{1-0{,}889}} = \frac{0{,}943 \times 2}{\sqrt{0{,}111}} = \frac{1{,}886}{0{,}333} \approx 5{,}659\)

\(gl = 4\)

Conclusão

Unilateral direita, α = 5%, gl = 4: \(t_{0{,}05; 4} \approx 2{,}132\).

\(T_{obs} = 5{,}659 > 2{,}132\) → Rejeita \(H_0\).

Há indícios de associação monotônica positiva: quanto maior a dificuldade percebida, maior a necessidade de suporte técnico.

Resumo: Pearson vs. Spearman

AspectoPearson (\(r\))Spearman (\(r_s\))
O que mede Correlação linear Associação monotônica
Tipo de dado Quantitativo contínuo Ordinal ou contínuo
Pressupostos Normalidade, linearidade Nenhum (não paramétrico)
Sensibilidade a outliers Alta Baixa (usa postos)
Fórmula do coeficiente Covariância / produto dos DPs \(1 - 6\sum d_i^2 / [n(n^2-1)]\)
Teste de significância Mesmo: \(T = r\sqrt{n-2} / \sqrt{1-r^2}\), \(gl = n-2\)

Correlação ≠ Causalidade

🚫 Cobrado na Questão 2b da lista complementar

"O sentido dessa associação permite concluir que quilometragem causa redução no preço?"

Não! Correlação mede associação, não causalidade. Pode haver variáveis confundidoras (idade do carro, estado de conservação, etc.). Para demonstrar causalidade, seria necessário um experimento controlado.

🧪 Quiz — Correlação

🧠 Teste seu Conhecimento

1 Variáveis registradas em escala ordinal (1 a 6). Qual coeficiente de correlação usar?
  • APearson, pois pode ser calculado com qualquer tipo de dado
  • BSpearman, pois é adequado para variáveis ordinais
  • CNenhum, pois correlação exige variáveis contínuas
  • DPearson ou Spearman, pois ambos funcionam igualmente
✅ Correto! Para variáveis ordinais, Spearman é o adequado. Pearson pressupõe variáveis contínuas e relação linear.
❌ Pearson exige variáveis contínuas com relação linear. Para dados ordinais, usamos Spearman, que trabalha com postos.
2 No teste de significância para correlação (Pearson ou Spearman), quantos graus de liberdade usamos?
  • A\(gl = n\) (número de pares)
  • B\(gl = n - 1\) (como no teste t pareado)
  • C\(gl = n - 2\) (estimamos dois parâmetros)
  • D\(gl = 2n - 2\) (duas variáveis)
✅ Correto! \(gl = n - 2\), pois estimamos dois parâmetros (a inclinação e o intercepto da reta).
❌ A fórmula usa \(gl = n - 2\), não \(n - 1\). Subtraímos 2 porque estimamos dois parâmetros na relação linear.
3 Dados: (−3, 9), (−2, 4), (−1, 1), (0, 0), (1, 1), (2, 4), (3, 9). Obtemos \(r = 0\). Qual a interpretação?
  • AX e Y são completamente independentes, sem relação alguma
  • BHá um erro nos cálculos, pois claramente Y depende de X
  • CA relação é linear, mas muito fraca para ser detectada
  • DNão há correlação linear, mas existe relação não linear (Y = X²)
✅ Correto! \(r = 0\) significa ausência de correlação linear. Mas \(Y = X^2\) é uma relação não linear perfeitamente determinística. Pearson não detecta isso.
❌ \(r = 0\) NÃO significa ausência de relação! Significa apenas ausência de relação linear. Os dados seguem \(Y = X^2\) — uma relação não linear que Pearson não detecta.
4 Com \(r = 0{,}972\), um único ponto extremo é removido e r cai para −0,289. O que isso mostra?
  • AO coeficiente r é altamente sensível a outliers, e a conclusão deve ser cautelosa
  • BO ponto removido era um erro de medição e deve ser descartado
  • CA correlação verdadeira é −0,289, não 0,972, pois removemos o ruído
  • DDevemos usar Spearman em vez de Pearson para confirmar o resultado
✅ Correto! Pearson é muito sensível a pontos extremos. Um único outlier pode dominar o cálculo. Gráfico de dispersão e análise de influência são essenciais.
❌ Não necessariamente é erro de medição nem devemos descartar. A lição é que Pearson é sensível a outliers: um ponto extremo pode mudar completamente a conclusão. Devemos sempre analisar o gráfico.
5 Encontramos \(r = -0{,}85\) significativo. Podemos concluir que X causa redução em Y?
  • ASim, uma correlação negativa forte indica causalidade inversa
  • BSim, desde que o p-valor seja menor que 0,01 (mais rigoroso)
  • CNão, correlação mede associação, não causalidade
  • DDepende do valor dos graus de liberdade utilizados
✅ Correto! Correlação ≠ causalidade. Variáveis confundidoras podem explicar a associação. Causalidade requer experimento controlado.
❌ Correlação mede associação, nunca causalidade. Mesmo com r forte e p-valor baixo, pode haver variáveis confundidoras. Para causalidade: experimento controlado.
Pontuação:
← Voltar ao Arquivo Jedi (Índice Central)