Segmentação semântica e de instância — Glossário Aria Research

Definição estendida

Segmentação semântica e segmentação de instância são tarefas fundamentais de visão computacional que operam em granularidade de pixel — em contraste com classificação (que atribui rótulo à imagem inteira) ou detecção (que atribui bounding boxes). Segmentação semântica atribui um rótulo de classe a cada pixel da imagem, sem distinguir instâncias individuais: todos os pixels de “carro” recebem o mesmo rótulo, independente de serem três carros distintos. Long, Shelhamer e Darrell (2015, CVPR) introduziram Fully Convolutional Networks (FCN), substituindo camadas fully-connected por convolucionais e enabling segmentação end-to-end. Arquiteturas dominantes evoluíram: U-Net (Ronneberger et al., 2015, médico), SegNet, DeepLab (Chen et al., 2017, com atrous convolutions e CRF), Mask2Former (2022, transformer-based). Segmentação de instância vai além: distingue objetos individuais da mesma classe — três carros recebem máscaras distintas. He et al. (2017, ICCV) introduziram Mask R-CNN, estendendo Faster R-CNN com uma cabeça de máscara em paralelo à classificação e regressão de bounding box; padrão da área desde então. Panoptic segmentation unifica os dois (Kirillov et al., 2019). Métrica padrão: mean Intersection over Union (mIoU) calculada por classe e promediada:

\text{mIoU} = \frac{1}{C} \sum_{c=1}^{C} \frac{|P_c \cap G_c|}{|P_c \cup G_c|}

onde $C$ é o número de classes, $P_c$ a predição e $G_c$ a ground truth para classe $c$ . Para segmentação de instância, AP (Average Precision) calculada com IoU de máscara é o padrão (COCO instance segmentation benchmark).

Quando se aplica

Segmentação semântica aplica-se em tarefas que exigem delimitação precisa de regiões por pixel: análise de imagens médicas (tumor segmentation em MRI, CT; segmentação de tecidos histopatológicos), sensoriamento remoto (mapeamento de uso do solo, detecção de desmatamento, monitoramento de geleiras), agricultura de precisão (segmentação de plantas por talhão), robótica (compreensão de cena para navegação), realidade aumentada (segmentação de pessoas/objetos para overlay). Segmentação de instância aplica-se quando distinguir objetos individuais importa: contagem precisa de células em microscopia, identificação individual de animais em camera traps, análise de cluster de frutos para colheita robótica. Panoptic é apropriado quando cena completa importa (cenas urbanas em veículos autônomos).

Quando NÃO se aplica

Não se aplica quando bounding box suficiente: detecção via YOLO é muito mais barata e adequada. Não se aplica quando classificação de imagem inteira é o objetivo: ResNet/ViT são apropriados. Não se aplica diretamente sem dados de treino anotados em pixel — anotação é cara (10-30 minutos por imagem complexa); transfer learning a partir de modelos pré-treinados em COCO/Cityscapes/ADE20K + fine-tuning é estratégia padrão, mas domínios muito divergentes (radiologia especializada) podem exigir anotação extensa. Não se aplica em vídeo com requisito de coerência temporal forte sem extensão (vídeo segmentation tem literatura própria). Não se aplica como única ferramenta em tarefas que exigem entendimento semântico mais profundo (relações entre objetos, ações) — modelos visão-linguagem complementam.

Aplicações por área

— Imagem médica: tumor segmentation, segmentação de órgãos, histopatologia; benchmarks como BraTS, KiTS. — Sensoriamento remoto: segmentação de cobertura do solo (Sentinel-2, Landsat); monitoramento ambiental. — Veículos autônomos: segmentação semântica de cenas urbanas (Cityscapes); pipeline de percepção. — Pesquisa biológica: contagem de células em microscopia confocal; identificação de espécies vegetais em campo.

Armadilhas comuns

A primeira armadilha é confundir segmentação semântica e de instância em projetos de contagem: se o objetivo é contar células individuais, semântica retorna apenas área total — instância é necessária. A segunda é treinar em COCO e aplicar diretamente em domínio especializado (microscopia, radiologia): pré-treino genérico ajuda inicialização, mas fine-tuning em dados de domínio é praticamente obrigatório. A terceira é reportar apenas mIoU global ignorando classes raras: classes minoritárias podem ter IoU baixa mascarada na média; reportar por classe é boa prática editorial. A quarta é negligenciar custo de anotação na proposta de projeto: dataset de 1.000 imagens com 20 classes pode exigir 200-500 horas de anotação especializada. A quinta é assumir que máscara fina equivale a entendimento semântico: modelo pode segmentar precisamente sem capturar relação semântica relevante para a hipótese científica.