Lição 01

Identificando o Desenho Amostral

A primeira pergunta antes de qualquer cálculo: o que estou comparando e como os dados foram coletados?

🎯 Objetivo desta lição

Aprender a classificar corretamente o desenho de um estudo estatístico antes de fazer qualquer conta. Essa é a habilidade mais importante da disciplina: escolher o teste errado invalida toda a análise, mesmo que os cálculos estejam corretos.

Por que o desenho amostral vem primeiro?

Na sua lista de exercícios, a Questão 1 pede exatamente isso: "identifique se o desenho é pareado ou independente, o parâmetro de interesse, e qual procedimento você aplicaria". E a instrução geral diz:

⚠️ Instrução da lista

"Sempre justifique a escolha do teste antes de calcular. Identifique o desenho do estudo."

O professor está dizendo: se você escolheu o teste errado, perdeu a questão — mesmo com conta certa.

Existem três grandes categorias de perguntas que aparecem na prova:

Categoria O que se pergunta? Parâmetro
Comparação de médias As médias de duas populações são iguais? \(\mu_1 - \mu_2\) ou \(\mu_D\)
Comparação de variâncias A dispersão (estabilidade) é igual? \(\sigma_1^2 / \sigma_2^2\)
Correlação Existe relação linear/monotônica entre duas variáveis? \(\rho\) ou \(\rho_s\)

Pareado vs. Independente

Quando a pergunta é sobre médias, a primeira decisão é:

🔗 Dados Pareados (Dependentes)

Os mesmos indivíduos (ou unidades) são medidos em duas condições diferentes.

  • Antes e depois de um tratamento na mesma máquina/pessoa/sensor
  • Dois métodos aplicados ao mesmo conjunto de dados
  • Pares naturais (gêmeos, mesmos projetos, mesmas instâncias)
Dica-chave

Se faz sentido calcular \(D_i = X_i - Y_i\) para cada unidade, o desenho é pareado. Cada par gera uma diferença.

🔀 Dados Independentes

Grupos diferentes de unidades são medidos, sem correspondência entre eles.

  • Usuários diferentes testam interfaces diferentes
  • Servidores distintos com amostras separadas
  • Turmas diferentes fazendo a mesma prova
Dica-chave

Se não existe correspondência natural entre as observações dos dois grupos (o sujeito 1 do grupo A não tem "par" no grupo B), o desenho é independente.

🚫 Erro clássico (Questão 7b da lista)

"Os dados são antes/depois do mesmo sistema, então tratei como duas amostras independentes."

Isso está errado. Se as medidas são do mesmo sistema em dois momentos, o desenho é pareado. Ignorar a dependência desperdiça informação e pode levar a conclusões incorretas.

Quando a pergunta é sobre variância?

Às vezes a pergunta não é se as médias são iguais, mas se a dispersão (variabilidade, estabilidade) é a mesma. Palavras-chave:

Nesse caso, o parâmetro de interesse é \(\sigma_1^2 / \sigma_2^2\) e usamos procedimentos específicos para comparar variâncias (Teste de Levene, por exemplo).

⚠️ Atenção

Não rejeitar \(H_0\) para médias iguais não significa que as populações tenham a mesma estabilidade. São parâmetros diferentes! (Veja Questão 8b da lista complementar.)

Quando a pergunta é sobre correlação?

A correlação aparece quando temos pares de variáveis medidas nos mesmos indivíduos, e queremos saber se existe relação entre elas.

A escolha entre Pearson e Spearman depende da escala dos dados:

Situação Coeficiente
Variáveis contínuas, relação linear, normalidade razoável Pearson (\(r\))
Variáveis ordinais, ou relação monotônica (não linear) Spearman (\(r_s\))

🌳 A Árvore de Decisão Completa

Este é o fluxo mental que você deve seguir ao ler cada questão da prova:

Passo 1: O que a pergunta quer saber?
Diferença de médias? Variância? Relação entre variáveis?
📊
Se correlação → Pearson (contínuo + linear) ou Spearman (ordinal / monotônica)
📐
Se variância → Teste de Levene
📈
Se média → Passo 2: O desenho é pareado ou independente?
🔗
Se pareado → Passo 3: Posso assumir normalidade das diferenças?
Sim → Teste t pareado
Não → Teste de Wilcoxon pareado
🔀
Se independente → Passo 3: Posso assumir normalidade?
Sim → Passo 4
Não → Teste de Mann-Whitney
🔍
Passo 4 (independente + normal): O que sei sobre as variâncias?
Variâncias populacionais conhecidas (\(\sigma_1, \sigma_2\)) → Teste Z
Variâncias desconhecidas, mas iguais → Teste t com variância combinada (\(S_p^2\))
Variâncias desconhecidas, possivelmente diferentes → Teste t de Welch

Praticando com exemplos da lista

Vamos aplicar a árvore de decisão aos itens da Questão 1 da lista principal:

✏️ Exemplo Resolvido — Questão 1
Item (a)

"Mede-se o tempo de execução de um algoritmo nas mesmas 15 instâncias, antes e depois de uma refatoração."

Mesmas instâncias, duas condições → pareado
→ Parâmetro: \(\mu_D\) (média das diferenças)
→ Procedimento: Teste t pareado (assumindo normalidade das diferenças)

Item (b)

"Comparam-se as latências médias de dois servidores fisicamente distintos, A e B, com o desvio-padrão de cada servidor já conhecido de medições históricas."

→ Servidores distintosindependente
→ \(\sigma_1\) e \(\sigma_2\) conhecidos
→ Procedimento: Teste Z para duas médias

Item (c)

"Deseja-se saber se duas APIs entregam respostas com a mesma estabilidade."

→ Palavra-chave: estabilidade = variância
→ Parâmetro: \(\sigma_1^2 / \sigma_2^2\)
→ Procedimento: Teste de Levene

Item (d)

"Dois grupos diferentes de usuários, um por interface; variâncias populacionais conhecidas."

→ Grupos diferentesindependente
→ Variâncias conhecidas
→ Procedimento: Teste Z

Item (e)

"Os mesmos 20 sensores são calibrados por dois métodos."

Mesmos sensores, dois métodos → pareado
→ Parâmetro: \(\mu_D\)
→ Procedimento: Teste t pareado

Resumo: Mapa dos Testes

Desenho Paramétrico Não Paramétrico
Pareado Teste t pareado Wilcoxon pareado
Independente (σ conhecido) Teste Z
Independente (σ² iguais) Teste t (variância combinada) Mann-Whitney
Independente (σ² diferentes) Teste t de Welch Mann-Whitney
Variância Teste de Levene
Correlação (linear) Pearson
Correlação (monotônica) Spearman

🧪 Quiz — Teste seu Conhecimento

🧠 Identifique o Desenho Amostral

1 Um desenvolvedor mede o consumo de memória de um serviço nas mesmas 8 cargas de trabalho, antes e depois de um patch. Qual é o desenho?
  • A Pareado, pois as mesmas cargas são medidas em duas condições
  • B Independente, pois são dois momentos distintos no tempo
  • C Correlação, pois medimos consumo de memória em dois momentos
  • D Comparação de variâncias, pois medimos dispersão de consumo
✅ Correto! As mesmas cargas de trabalho são medidas antes e depois — cada carga gera um par (antes, depois), logo é pareado.
❌ Cuidado! As mesmas 8 cargas são medidas nas duas condições. Cada carga tem um "antes" e um "depois", formando pares naturais. O desenho é pareado.
2 Dois data centers independentes coletam dados de temperatura. Deseja-se saber se ambos têm a mesma regularidade de temperatura. O que estamos comparando?
  • A As médias de temperatura dos dois data centers
  • B A correlação entre temperatura e data center
  • C As variâncias (dispersão) das temperaturas
  • D As medianas de temperatura dos dois data centers
✅ Correto! "Regularidade" = estabilidade = variância. O parâmetro é \(\sigma_1^2 / \sigma_2^2\).
❌ "Mesma regularidade" é sinônimo de mesma variabilidade/dispersão. O parâmetro de interesse é a razão das variâncias: \(\sigma_1^2 / \sigma_2^2\).
3 Uma equipe registra, para 10 estudantes, o número de horas de estudo e a nota obtida. Qual é a natureza da análise?
  • A Comparação de médias entre dois grupos independentes
  • B Correlação entre horas de estudo e nota obtida
  • C Dados pareados, pois cada estudante tem duas medidas
  • D Comparação de variâncias entre notas e horas de estudo
✅ Correto! Temos pares (X, Y) — horas e notas — e queremos saber se existe relação entre elas. É uma análise de correlação.
❌ Cuidado! Não estamos comparando dois grupos. Temos pares de variáveis (horas, nota) e queremos saber se há relação entre elas. Isso é correlação.
4 Dois roteadores independentes são comparados quanto à latência média. O fabricante informa os desvios-padrão populacionais σ₁ e σ₂. Qual teste usar?
  • A Teste t pareado, pois ambos medem latência
  • B Teste t de Welch, pois as variâncias são diferentes
  • C Teste Z para duas médias independentes
  • D Teste t com variância combinada (pooled)
✅ Correto! Roteadores independentes + variâncias populacionais conhecidas (σ₁ e σ₂) → Teste Z.
❌ Atenção às pistas: roteadores independentes (não pareados) e o fabricante fornece σ₁ e σ₂ (variâncias conhecidas). Quando σ é conhecido, usamos Teste Z, não t.
5 Duas turmas independentes fizeram uma prova. Não se deseja assumir normalidade. Qual teste é adequado para comparar as posições centrais?
  • A Teste de Wilcoxon pareado para postos sinalizados
  • B Teste de Mann-Whitney para duas amostras independentes
  • C Teste t de Welch para amostras independentes
  • D Teste de Levene para igualdade de variâncias
✅ Correto! Turmas independentes + sem normalidade → teste não paramétrico para amostras independentes = Mann-Whitney.
❌ Turmas independentes (não pareadas) + sem normalidade → descartamos testes paramétricos. O teste não paramétrico para amostras independentes é Mann-Whitney. Wilcoxon é para dados pareados.
6 Seis usuários avaliaram a dificuldade de uma tarefa (escala ordinal de 1 a 6) e a necessidade de suporte técnico (mesma escala). Qual procedimento é adequado?
  • A Correlação de Spearman, baseada em postos
  • B Correlação de Pearson, com teste clássico
  • C Teste t pareado entre as duas escalas
  • D Teste de Mann-Whitney entre as duas escalas
✅ Correto! Variáveis ordinais + pares (X, Y) → usamos Spearman, que é baseado em postos e não exige normalidade.
❌ Temos pares de variáveis (correlação), mas as variáveis são ordinais (escala de 1 a 6). Pearson exige variáveis contínuas com relação linear. Para variáveis ordinais, usamos Spearman.
7 Uma aplicação web foi avaliada antes e depois de um cache. O enunciado diz "não se deseja assumir normalidade das diferenças." Qual teste usar?
  • A Teste t pareado para as diferenças observadas
  • B Teste de Mann-Whitney para amostras independentes
  • C Teste de Levene para variâncias antes e depois
  • D Teste de Wilcoxon pareado para postos sinalizados
✅ Correto! Dados pareados (mesmas páginas) + sem normalidade → teste não paramétrico pareado = Wilcoxon.
❌ As mesmas páginas são medidas antes e depois → pareado. Sem normalidade → descartamos o teste t. O equivalente não paramétrico do teste t pareado é o Wilcoxon pareado.
Pontuação:

Próximos Passos

📖 Leitura recomendada

Capítulo sobre Testes de Hipóteses no livro Estatística Básica (Bussab & Morettin), seção sobre comparação de duas populações. É a referência mais completa em português para os conceitos desta disciplina.

Agora que você sabe identificar o desenho e escolher o teste, nas próximas lições vamos aprender a executar cada teste, passo a passo:

← Voltar ao Arquivo Jedi (Índice Central)