Anotação humana e inter-annotator agreement

Definição estendida

Anotação humana é o processo de rotulagem manual de dados (texto, imagem, áudio, vídeo) por anotadores humanos com instruções explícitas — base de praticamente todo dataset supervisionado em ML. Inter-annotator agreement (IAA, ou inter-rater reliability) mede a concordância entre dois ou mais anotadores aplicando o mesmo esquema, diagnosticando consistência da definição da tarefa e qualidade das instruções. Métricas centrais: percentual de concordância simples (sensível a frequência base, inflado em classes desbalanceadas); kappa de Cohen (1960, Educational and Psychological Measurement) para dois anotadores em escala nominal, corrigindo para concordância esperada por chance; kappa de Fleiss para múltiplos anotadores; alpha de Krippendorff para flexibilidade entre tipos de variável (nominal, ordinal, intervalar) e tratamento de dados faltantes. Artstein e Poesio (2008, Computational Linguistics) ofereceram revisão técnica canônica para NLP. Interpretação prática: kappa < 0,40 fraco; 0,40-0,60 moderado; 0,60-0,80 substancial; > 0,80 quase perfeito. Em datasets críticos (saúde, justiça), threshold > 0,70 é frequentemente exigido. Anotação adversarial e anotação por consenso (após discussão) são variantes para temas complexos.

Quando se aplica

Anotação humana aplica-se em criação de qualquer dataset supervisionado: classificação de imagens, NER (named entity recognition), análise de sentimento, classificação de tópicos, segmentação de imagens médicas, transcrição de áudio. IAA aplica-se sempre que dados anotados serão usados para treinar ou avaliar modelo: relatar IAA em datasets publicados é exigência editorial em ML/NLP top-tier (NeurIPS, ACL, EMNLP). Aplica-se em pesquisa qualitativa codificada (entrevistas categorizadas, análise de discurso): IAA dá rigor à categorização. Aplica-se em revisão sistemática: dois pesquisadores independentes triando títulos/abstracts e medindo concordância antes da resolução de divergência. Aplica-se em pesquisa em saúde com pareceres clínicos (kappa entre radiologistas, patologistas).

Quando NÃO se aplica

IAA não se aplica em tarefas com ground truth objetivo único e indisputável (e.g., qual é a soma de dois números) — concordância é trivial. Não substitui validade construto: anotadores podem concordar num esquema que não captura o fenômeno de interesse. Não se aplica de forma trivial em datasets gerados por crowdsourcing (Mechanical Turk, Prolific) sem instrução cuidadosa: anotações inconsistentes contaminam modelo. Não se aplica em domínios onde rotulagem requer expertise especializada e disponibilidade de múltiplos especialistas é cara (radiologia, jurisprudência) — alternativas incluem múltiplas rodadas com discussão de discordância. Não substitui validação de modelo: IAA mede qualidade dos rótulos, não desempenho do modelo treinado nesses rótulos.

Aplicações por área

— NLP: datasets canônicos (CoNLL para NER, SST para sentimento) têm IAA reportado; novo dataset publicado sem IAA é editorialmente questionável. — Visão computacional: anotação de bounding boxes em ImageNet, COCO; segmentação semântica é cara mas IAA é fundamental. — Saúde: kappa entre patologistas, radiologistas, em diagnósticos histológicos; estudos de concordância clínica. — Pesquisa qualitativa: análise de conteúdo, codificação aberta com IAA entre pesquisadores; alfa de Krippendorff em mídias.

Armadilhas comuns

A primeira armadilha é confiar em percentual de concordância simples em classes desbalanceadas: 90% de concordância em dataset com 90% da classe majoritária pode ser apenas chance. Kappa ou alpha são apropriados. A segunda é não treinar anotadores adequadamente: ambiguidades nas instruções produzem desacordos sistemáticos que contaminam o dataset. A terceira é não documentar protocolo de anotação: reprodutibilidade exige especificação de instruções, exemplos de fronteira, regras de desempate. A quarta é não auditar viés de anotadores: anotadores demograficamente homogêneos podem produzir rótulos com viés representacional sistemático. A quinta é tratar anotação como gargalo a ser eliminado: alguns campos (anotação especializada de saúde, jurídica) requerem expertise que nenhuma quantidade de crowdsourcing substitui.