Insights.
Métodos e produção científica.
Análises técnicas com tese, calibradas para pesquisadores que precisam publicar em periódicos indexados. Em português e inglês, sob registro institucional da Aria Research.
COPE, ICMJE e CRediT: a prática editorial padrão do reconhecimento
Reconhecer contribuição é importante demais para ficar na negociação informal. COPE, ICMJE e CRediT formam a prática editorial padrão que documenta quem fez o quê e torna a autoria auditável. Sem esse padrão, a má atribuição é comum: numa pesquisa em seis periódicos de alto impacto, um em cada quatro artigos de pesquisa tinha autor honorário, e a autoria fantasma também estava presente.
Detecção de objetos fora do ImageNet: quando o domínio sai do treino
Quase toda detecção de objetos é avaliada em ImageNet ou COCO, mas os domínios reais de aplicação têm distribuições próprias. Um detector com alto desempenho no benchmark padrão pode desabar quando o domínio sai do treino. Num estudo, o mesmo detector caiu de 96,79% para 60,18% de mAP fora do domínio. O benchmark padrão não é a validação do domínio de aplicação.
Embeddings e viés cultural: o que modelos pré-treinados aprendem e esquecem
Um embedding é uma impressão comprimida do texto que o treinou: aprende a cultura desse corpus, com seus estereótipos e seus silêncios. Pré-treinado não significa neutro. Para populações sub-representadas há duas falhas: o estereótipo codificado e a representação rala. E o viés é mensurável: num benchmark de saúde, um modelo biomédico codificou associações étnicas mais fortes que um jurídico.
IA generativa em revisão sistemática: ferramenta ou atalho?
A IA generativa acelera a revisão sistemática, mas vira atalho no instante em que substitui, em vez de assistir, o julgamento humano sob um protocolo documentado. Os dados mostram por quê: triadores baseados em LLM trocam sensibilidade por especificidade. O que torna o uso legítimo é o protocolo: pré-registro, validação, o modelo como segundo triador com arbitragem humana, e relato de prompt, modelo e versão.
Missing data não é detalhe técnico: o que pareceristas leem com lupa
Dados faltantes não são uma etapa de limpeza. A escolha entre deletar casos e imputar muda estimativas e erros padrão, e pareceristas Q1 leem essa decisão de perto. O que governa a validade é o mecanismo de ausência assumido, não a porcentagem que faltou. Numa simulação, o erro da imputação foi parecido sob MCAR e MAR, mas disparou sob NMAR, onde a ausência depende do próprio valor que falta.
Modelagem preditiva em ciências sociais: por que o AUC sozinho não basta
O AUC é a métrica que todo mundo relata e a que menos diz se o modelo presta. Ele mede ordenação, e é cego para a calibração, para o valor de decisão e para o teto de previsibilidade. Pior: a discriminação alta na derivação não sobrevive à validação externa. Em 158 validações externas de 104 modelos, a mediana do c-statistic cai de 0,76 para 0,64, de modo que um único número superestima o desempenho.
Visualização publicável vs exploratória: dois objetos, duas regras
A visualização exploratória serve ao analista: é rápida, descartável e otimizada para enxergar. A visualização publicável serve ao leitor: é lida uma vez e precisa decodificar sozinha. São objetos diferentes, não dois acabamentos do mesmo gráfico. E o formato de publicação muda a interpretação: um experimento achou gráficos 'better' lidos com mais acurácia (OR 1,55) e clareza (OR 1,91) que os 'normed'.
SEM em mediação múltipla: quando a regressão linear deixa de responder
A mediação múltipla pergunta por qual mecanismo um efeito acontece, e a quantidade de interesse é o efeito indireto, o produto de caminhos. A regressão linear estima caminhos isolados, não a inferência sobre esse produto nem mediadores simultâneos. A SEM estima tudo junto, acomoda variáveis latentes e cadeias. Para o intervalo, a escolha do bootstrap muda a taxa de falsos positivos de forma mensurável.
Web scraping em pesquisa acadêmica: público não é o mesmo que coletável
Que um dado esteja visível numa página aberta diz respeito ao acesso, não à permissão nem à ética. Web scraping força essa distinção: termos de uso, privacidade e risco de dano traçam a fronteira que a acessibilidade técnica ignora. Uma revisão de 367 estudos com dados públicos do Twitter mediu o problema: a maioria não relatou aprovação ética, e o consentimento informado foi tentado em zero deles.
Estudo estratégico de venue após a primeira rejeição
Resubmeter por reflexo a um periódico mais baixo trata a rejeição como veredito de qualidade. A evidência sobre fluxos de submissão mostra que o que preserva a trajetória de citação é o encaixe, não o tier, e que o salto entre comunidades distintas é onde as citações se perdem.
Tradução literal é a primeira causa de rejeição PT→EN em Q1
A rejeição de manuscritos traduzidos ao pé da letra raramente é problema de vocabulário. É a estrutura retórica do português, transportada intacta, que o parecerista anglófono lê como argumento mal construído. A correção é reconstrução no registro do idioma-alvo, não revisão palavra a palavra.
Abstract estruturado em 250 palavras: a arquitetura que define a leitura
Editor e parecerista triam no abstract; o leitor decide ler nele. A restrição de 250 palavras não é burocracia, é a compressão IMRaD que expõe se há contribuição declarável. Abstract estruturado supera o não estruturado em completude e clareza, e isso define a visibilidade do trabalho antes de qualquer mérito do corpo.