Visualização publicável vs exploratória: dois objetos, duas regras

Uma visualização exploratória e uma visualização publicável são dois objetos diferentes, não dois acabamentos do mesmo gráfico. Têm públicos diferentes, prazos de validade diferentes e regras diferentes. Tratar a figura de um artigo como uma exportação direta do gráfico que o analista usou para pensar é um dos erros que mais se vê em submissão, e o parecerista percebe na primeira olhada: a figura foi feita para quem já conhece os dados, não para quem vai encontrá-la pela primeira vez.

A visualização exploratória é uma ferramenta de trabalho. Serve a uma pessoa, o analista, que conhece o conjunto, gera dezenas dela numa sessão e a descarta assim que respondeu à pergunta que a motivou. Defaults de biblioteca bastam, rótulos podem faltar, a estética é irrelevante. O que importa é a velocidade com que ela deixa um padrão aparecer. A escolha do tipo de gráfico aqui segue a tarefa do momento, e Saket e colegas (2019)⁴ mostram que essa correspondência é mensurável: barras para comparar valores, linhas para tendência, dispersão para correlação. O gráfico exploratório acerta quando responde rápido à pergunta de quem o desenhou, e nada mais se exige dele.

A visualização publicável é outro objeto. Ela é lida uma única vez, sem o autor por perto para explicar, por um leitor cujo sistema perceptivo decide em frações de segundo o que consegue extrair. Healey e Enns (2012)⁶ descrevem como atributos pré-atentivos governam essa extração antes de qualquer leitura consciente, e é por isso que a figura precisa ser projetada para a percepção, não para o gosto. A base empírica dessa projeção é antiga e estável: Cleveland e McGill (1984)² ordenaram as tarefas perceptivas elementares por acurácia, com a posição em escala comum no topo, depois comprimento, depois ângulo e inclinação, e área por último. Heer e Bostock (2010)³ replicaram essa ordenação em larga escala e confirmaram que ela se sustenta. A consequência é direta: a codificação de uma figura publicável é uma decisão defensável por evidência, não uma preferência.

A diferença fica concreta num exemplo banal. O mesmo conjunto de proporções que o analista inspeciona em três segundos com um gráfico de pizza, girando a tela e comparando fatias de relance, chega ao leitor do artigo como uma afirmação que ele não pode verificar: as fatias parecidas exigem que ele estime ângulos, e o ângulo é justamente a tarefa que o olho executa pior. Trocar essa pizza por um gráfico de barras ordenadas não muda os dados, muda a tarefa perceptiva que se pede do leitor, de estimar ângulos para comparar comprimentos alinhados a uma base comum. O analista podia se dar ao luxo da pizza porque já sabia a resposta; o leitor não sabe, e a figura é tudo o que ele tem. É por isso que a mesma informação exige objetos visuais distintos nas duas pontas: um que acelera a descoberta de quem conhece os dados, outro que protege a leitura de quem os encontra pela primeira vez.

Que o formato muda a interpretação não é intuição, foi medido. Brundage e colegas (2018)¹ randomizaram clínicos e pesquisadores entre formatos diferentes para os mesmos resultados de ensaio e mediram a acurácia e a clareza com que cada formato era interpretado.

Gráfico de intervalos (forest) com três razões de chance e IC de 95%: erro de interpretação pizza vs barra em 0,35 (IC 0,2-0,6); acurácia 'better' vs 'normed' em 1,55 (IC 1,01-2,38); clareza em 1,91 (IC 1,44-2,54). — Razões de chance com IC de 95% na medição de Brundage e colegas (2018): gráficos 'better' são interpretados com mais acurácia (OR 1,55) e mais clareza (OR 1,91) que os 'normed', e a pizza gera menos erro de interpretação que a barra para proporções (OR 0,35). A linha em OR = 1 é o ponto sem efeito.

A leitura da figura mostra três efeitos do formato. Apresentar o mesmo resultado com gráficos ‘better’, em que valores mais altos sempre significam melhor, foi interpretado com mais acurácia que a versão ‘normed’ (OR 1,55; IC de 95% 1,01-2,38) e avaliado como mais claro (OR 1,91; IC 1,44-2,54). E, para proporções, a pizza gerou menos erro de interpretação que a barra (OR 0,35; IC 0,2-0,6), um resultado que contraria a hierarquia perceptiva e, justamente por isso, ensina a lição: o efeito do formato é empírico e depende da tarefa, não se deduz de uma regra geral. Escolher como publicar um resultado é, portanto, uma decisão de integridade, não de estética: o formato muda o que o leitor entende, e o autor responde por isso.

O mesmo raciocínio condena os adereços que as ferramentas exportam por padrão. Grades densas, sombras, efeitos tridimensionais e paletas em arco-íris não acrescentam informação; competem com ela pela atenção pré-atentiva do leitor e, no caso do 3D, distorcem ativamente as magnitudes que a figura deveria comunicar. No gráfico exploratório esses elementos são inofensivos, porque o analista os ignora sem esforço. Na figura publicável, cada traço que não carrega dado é ruído que o leitor precisa filtrar antes de chegar ao argumento, e filtrar custa a atenção que deveria ir para o conteúdo. Remover o supérfluo não é minimalismo estético, é devolver ao dado o canal perceptivo que o enfeite havia tomado.

Há também o que a figura precisa dizer sem ajuda. No caderno de análise, o gráfico vive cercado de contexto: o código que o gerou, as variáveis na memória do analista, a pergunta que o motivou. A figura publicável perde tudo isso e precisa reconstruí-lo no próprio quadro. Um título que afirma o achado, eixos com unidades, uma legenda que não obrigue o olho a caçar correspondências e uma única pergunta por figura, em vez de seis painéis em que o leitor não sabe por onde começar. Borkin e colegas (2013)⁵ estudaram empiricamente o que torna uma visualização memorável, e o resultado importa porque o leitor de um artigo vê a figura uma vez e precisa carregá-la consigo.

Essas exigências se traduzem em decisões concretas que o parecerista verifica. O eixo de valor começa no zero quando a comparação é de magnitude, porque truncá-lo distorce a razão entre as barras que o leitor tenta estimar. A proporção entre largura e altura é escolhida para que as inclinações relevantes fiquem perto de quarenta e cinco graus, a condição em que a variação é lida com menos erro. O rótulo vai direto ao lado da série, em vez de exigir que o olho vá e volte a uma legenda distante, e a paleta sobrevive ao daltonismo porque a cor nunca é o único canal que separa duas categorias. Cleveland e McGill (1984)² já tratavam essas escolhas como parte da acurácia perceptiva, e Saket e colegas (2019)⁴ lembram que cada uma delas só faz sentido em relação à tarefa que a figura precisa servir.

A regra operacional separa os dois objetos sem ambiguidade. O gráfico exploratório fica no caderno de análise e nunca é exportado direto para o artigo. A figura publicável é reconstruída do zero, com a codificação escolhida pela tarefa e pela acurácia perceptiva, o eixo honesto começando onde deve começar, os rótulos completos, o contraste e o tamanho de fonte legíveis em impressão e em tela, e o daltonismo considerado na paleta. Cada figura responde a uma pergunta e se sustenta sozinha, sem a legenda do parágrafo a reboque. Quem trata a figura como a última etapa da análise entrega ao leitor o rascunho; quem a trata como um objeto próprio, projetado para o olho de quem lê, entrega o argumento.

Visualização publicável vs exploratória: dois objetos, duas regras

Referências

Esta análise reflete a operação da Aria em Visualização de Dados e Dashboards.

Referências

Esta análise reflete a operação da Aria em Visualização de Dados e Dashboards.

Missing data não é detalhe técnico: o que pareceristas leem com lupa

SEM em mediação múltipla: quando a regressão linear deixa de responder

Web scraping em pesquisa acadêmica: público não é o mesmo que coletável