Engenharia de features — Glossário Aria Research

Definição estendida

Engenharia de features é o conjunto de práticas para transformar dados brutos em features informativas para modelos de aprendizado de máquina. Inclui: codificação de variáveis categóricas (one-hot, ordinal, target encoding, embeddings), normalização e padronização (min-max, z-score, robust scaler), criação de features derivadas (interações, polinômios, agregações temporais, decomposições calendar-aware), transformações para ajustar distribuição (log, Box-Cox, Yeo-Johnson), tratamento de missing values (imputação simples ou múltipla), seleção de subconjunto relevante (filter, wrapper, embedded), e redução de dimensão (PCA, autoencoders). Domingos (2012, CACM) articulou em “A few useful things to know about machine learning” que features eficazes são frequentemente o fator dominante de performance prática em ML — mais que escolha do algoritmo. Kuhn e Johnson (2019, Feature Engineering and Selection) consolidaram a referência prática técnica em livro. Em deep learning moderno (visão computacional e NLP), parte da engenharia migra para representation learning automático via redes profundas; em dados tabulares, engenharia manual continua decisiva.

Quando se aplica

Engenharia de features aplica-se em qualquer projeto de ML supervisionado em dados tabulares — competições Kaggle, sistemas de produção em saúde, finanças, marketing. É etapa típica entre análise exploratória e modelagem. Aplica-se especialmente quando o objetivo é interpretabilidade: features bem-engenheiradas em modelo simples (regressão logística, GAM) frequentemente competem com modelos black-box em performance e ganham em explicabilidade regulatória. Aplica-se em dados de séries temporais (lags, médias móveis, sazonalidade), em texto (TF-IDF antes de embeddings), em sinais e imagens quando deep learning não é viável (custo computacional, dados pequenos).

Quando NÃO se aplica

Não se aplica em deep learning sobre imagens, áudio ou texto não-estruturado — representation learning via CNNs, Transformers, modelos pré-treinados substitui parte do trabalho manual. Não se aplica como muleta para modelo mal-escolhido: features artificiais que tentam compensar limitação fundamental do modelo (linearidade onde relação é não-linear, por exemplo) são caminho fraco — trocar de modelo é mais eficaz. Não se aplica antes de divisão treino/teste sem cuidado: features baseadas em agregação dos dados (média, contagem) devem ser computadas APENAS no treino para evitar vazamento. Não substitui dados de qualidade: features sofisticadas em dados ruidosos amplificam ruído.

Aplicações por área

— Saúde: features clínicas derivadas (índice de comorbidade Charlson, escore APACHE), agregações temporais de sinais vitais. — Finanças: lags e médias móveis, ratios financeiros, indicadores de momento e volatilidade em risco e trading. — Marketing: features de RFM (Recência, Frequência, Valor Monetário), interações tempo×canal em propensão de compra. — NLP clássico: TF-IDF, n-gramas, features linguísticas (POS-tags, sentimento) antes da era de embeddings densos.

Armadilhas comuns

A primeira armadilha é vazamento de dados: features baseadas em informação posterior ao timestamp de predição (data leakage temporal) ou em agregações computadas sobre todo o dataset (incluindo teste) inflam performance espuriamente. A segunda é one-hot encoding de cardinalidade muito alta (centenas a milhares de categorias) sem agrupamento ou target encoding — explode dimensão e degrada performance. A terceira é não normalizar antes de algoritmos sensíveis a escala (k-means, SVM, redes neurais) e perder convergência ou estabilidade. A quarta é seleção de features no dataset completo (incluindo validação/teste) — produz seleção viciada; seleção deve ocorrer dentro de CV ou apenas no treino. A quinta é construir features sem entender o domínio: feature complexa derivada por intuição estatística pode capturar artefatos irrelevantes, enquanto feature simples baseada em conhecimento de domínio é frequentemente mais informativa.