YOLO (You Only Look Once) — Glossário Aria Research

Definição estendida

YOLO (You Only Look Once) é uma família de modelos de detecção de objetos em tempo real que reformulou a tarefa de detecção como regressão direta: em uma única passada da imagem pela rede neural, o modelo prediz simultaneamente bounding boxes (caixas delimitadoras), confiança da detecção e classes dos objetos. Redmon et al. (2016, CVPR) introduziram a abordagem em contraste com pipelines anteriores em duas etapas (R-CNN, Fast R-CNN, Faster R-CNN) que primeiro propunham regiões e depois classificavam. Métrica central: Intersection over Union (IoU) entre bounding box predita e ground truth:

\text{IoU} = \frac{|A \cap B|}{|A \cup B|}

onde $A$ é a caixa predita e $B$ a ground truth. Threshold típico para detecção positiva: IoU > 0,5. mAP (mean Average Precision) é a métrica agregada padrão, calculando AP por classe e promediando — mAP@0.5 e mAP@0.5:0.95 (média sobre múltiplos thresholds de IoU) são reportes editoriais padrão em CVPR/ICCV. Evolução da família: YOLOv1 (2016), YOLOv2/v3 (Redmon, 2017-2018), YOLOv4 (Bochkovskiy et al., 2020, arXiv 2004.10934), YOLOv5 (Ultralytics, 2020), YOLOv7-v9 (2022-2024), YOLOv11 (2024) — cada versão otimiza trade-off velocidade-acurácia. Implementações dominantes: Ultralytics YOLO (PyTorch), Darknet original. Uso massivo em produção: surveillance, autonomous vehicles, robótica, varejo, agricultura.

Quando se aplica

YOLO aplica-se em qualquer tarefa de detecção de objetos que combine restrição de tempo real ou alto throughput com necessidade de bounding boxes. É padrão em sistemas de surveillance e segurança, em veículos autônomos para detecção de pedestres/veículos/sinais de trânsito, em robótica para identificação de objetos manipuláveis, em varejo automatizado (Amazon Go), em agricultura de precisão (detecção de pragas, frutos), em esportes (tracking de jogadores e bola), em pesquisa científica (contagem de células em microscopia, identificação de animais em camera traps, monitoramento ecológico via drones). Aplica-se em pipelines integrados com outras etapas: detecção via YOLO + reconhecimento via CNN/CLIP em sistemas multimodais.

Quando NÃO se aplica

Não se aplica diretamente em segmentação fina (pixel-by-pixel): bounding box é grosseira; Mask R-CNN ou DeepLab são apropriados. Não se aplica em detecção de objetos muito pequenos relativos à imagem (drones em céu, células minúsculas em micrografia ampla) sem ajuste arquitetural — pequenas escalas são desafio crônico em todas as versões. Não se aplica diretamente em detecção em vídeo com fortes dependências temporais entre frames: YOLO é per-frame; tracking (DeepSORT, ByteTrack) complementa. Não se aplica em domínios com objetos altamente sobrepostos onde caixa única não captura geometria (multidões densas, frutos em cacho) sem pós-processamento específico. Não se aplica como única solução em domínios sem dados de treino apropriados: fine-tuning em domínio é geralmente necessário (mesmo modelos pré-treinados em COCO precisam de fine-tuning para domínios específicos).

Aplicações por área

— Veículos autônomos: detecção de pedestres, veículos, sinais; YOLO é comum em pilhas de percepção. — Surveillance e segurança: monitoramento em tempo real com câmeras IP; integração com tracking. — Pesquisa científica: contagem automatizada em microscopia, ecologia (camera traps), agricultura de precisão. — Robótica e automação industrial: identificação de objetos para manipulação; controle de qualidade visual.

Armadilhas comuns

A primeira armadilha é reportar apenas mAP sem considerar trade-off velocidade-acurácia: YOLO domina na fronteira speed-accuracy; comparar com Faster R-CNN apenas em mAP é incompleto. A segunda é treinar em COCO genérico e aplicar diretamente em domínio especializado: pré-treino é ponto de partida; fine-tuning é quase sempre necessário. A terceira é usar threshold de IoU = 0,5 acriticamente: aplicações que exigem localização precisa (cirurgia robótica, manuseio fino) precisam IoU > 0,7. A quarta é não auditar viés do dataset de treino: COCO tem viés representacional documentado (objetos comuns em culturas ocidentais sobre-representados); modelo herda. A quinta é confundir versões: YOLOv5/v7/v8/v11 têm comunidades, formatos e licenças distintas — confundir documentação produz erros sutis em fine-tuning.