DADOS E ESTATÍSTICA

Bootstrap

Família de métodos de reamostragem com reposição que estima distribuição amostral de um estimador a partir de uma única amostra. Proposto por Efron (1979). Permite IC e teste de hipótese sem suposição paramétrica de normalidade.

Definição estendida

Bootstrap é uma família de métodos de reamostragem com reposição que estima a distribuição amostral de um estimador θ^\hat{\theta} a partir de uma única amostra observada. A ideia é tratar a amostra como uma “população” e simular o processo de amostragem repetidamente. O procedimento básico:

θ^b=θ^(Xb),Xbamostragem com reposic¸a˜o de X,b=1,,B\hat{\theta}^*_b = \hat{\theta}(X^*_b), \quad X^*_b \sim \text{amostragem com reposição de } X, \quad b = 1, \ldots, B

onde XbX^*_b é a bb-ésima amostra bootstrap (mesmo nn da amostra original, com reposição) e θ^b\hat{\theta}^*_b é o estimador calculado nessa amostra. Tipicamente BB é grande (1.000–10.000). A distribuição empírica de {θ^1,,θ^B}\{\hat{\theta}^*_1, \ldots, \hat{\theta}^*_B\} aproxima a distribuição amostral de θ^\hat{\theta}, permitindo construir IC (percentílico, BCa, basic) e testes de hipótese sem suposição paramétrica. Efron (1979) introduziu o método como reformulação do jackknife; Efron e Tibshirani (1993) consolidaram o tratamento técnico canônico em livro. Variantes incluem bootstrap paramétrico (gera amostras de modelo paramétrico ajustado), bootstrap em bloco (séries temporais), e bootstrap residual (regressão).

Quando se aplica

Bootstrap aplica-se quando a distribuição amostral do estimador é difícil de derivar analiticamente — coeficientes de modelos complexos, estatísticas robustas (mediana, quantis), métricas de ML, parâmetros estruturais em SEM, indicadores compostos. É padrão para IC de mediana, IC de razões (cuja distribuição é assimétrica), IC de medidas de fit em SEM. Em ML, bootstrap (e variante específica .632+) é alternativa a CV para estimar performance. Em meta-análise, bootstrap dá IC para medidas-síntese quando suposições paramétricas são duvidosas. Em pequenas amostras, bootstrap percentílico estabilizado por BCa é frequentemente preferível a IC paramétrico clássico.

Quando NÃO se aplica

Não se aplica em séries temporais sem ajuste — reposição independente quebra estrutura de autocorrelação; bootstrap em bloco é a alternativa. Não se aplica em populações com cauda extremamente pesada onde a média não tem variância finita — amostras bootstrap são instáveis. Não se aplica como substituto de aumento de nn: bootstrap não cria informação nova; estima precisão da informação que já existe. Em regressão com poucos pontos influentes, bootstrap pode subestimar incerteza — boa prática é examinar diagnóstico de outliers antes de confiar no IC. Não se aplica em parâmetros não-identificados pelo modelo: bootstrap herda os limites de identificabilidade do estimador subjacente.

Aplicações por área

Saúde e biomédicas: IC bootstrap para razões, riscos relativos ajustados, medidas-síntese em meta-análise. — Econometria: wild bootstrap para inferência em modelos com heterocedasticidade não-modelada. — ML aplicado: bagging (bootstrap aggregating) é a base de Random Forest; bootstrap para incerteza preditiva. — Psicometria: IC bootstrap para coeficientes em SEM e índices de fit (CFI, RMSEA).

Armadilhas comuns

A primeira armadilha é interpretar resultado bootstrap em amostra original viciada — bootstrap estima precisão da estimativa, não corrige viés sistemático. Se amostra é não-representativa, bootstrap herda o viés. A segunda é usar bootstrap percentílico padrão em distribuições assimétricas extremas — BCa (bias-corrected and accelerated) é correção apropriada. A terceira é BB pequeno: B=100B = 100 é insuficiente para IC; B1000B \geq 1000 é mínimo, B10.000B \geq 10.000 recomendado para precisão de cauda. A quarta é confundir bootstrap com permutação — permutação testa hipótese nula reordenando rótulos; bootstrap estima distribuição amostral. A quinta é usar bootstrap em dados agrupados (cluster sampling, medidas repetidas) sem cluster bootstrap — reamostragem deve respeitar estrutura de dependência ou IC é inválido.

Última atualização —