Insights · 21 ensaios

Insights.
Métodos e produção científica.

Análises técnicas com tese, calibradas para pesquisadores que precisam publicar em periódicos indexados. Em português e inglês, sob registro institucional da Aria Research.

Composição abstrata em papel e dourado, sem texto: três faixas de pesos diferentes convergem numa coluna de selos alinhados, um deles em dourado, e dois pontos ficam de fora.

Escrita e publicação 5 min

COPE, ICMJE e CRediT: a prática editorial padrão do reconhecimento

Reconhecer contribuição é importante demais para ficar na negociação informal. COPE, ICMJE e CRediT formam a prática editorial padrão que documenta quem fez o quê e torna a autoria auditável. Sem esse padrão, a má atribuição é comum: numa pesquisa em seis periódicos de alto impacto, um em cada quatro artigos de pesquisa tinha autor honorário, e a autoria fantasma também estava presente.

prática editorialautoriaICMJE

IA e machine learning 5 min

Detecção de objetos fora do ImageNet: quando o domínio sai do treino

Quase toda detecção de objetos é avaliada em ImageNet ou COCO, mas os domínios reais de aplicação têm distribuições próprias. Um detector com alto desempenho no benchmark padrão pode desabar quando o domínio sai do treino. Num estudo, o mesmo detector caiu de 96,79% para 60,18% de mAP fora do domínio. O benchmark padrão não é a validação do domínio de aplicação.

detecção de objetosdomínio fora da distribuiçãoImageNet

IA e machine learning 5 min

Embeddings e viés cultural: o que modelos pré-treinados aprendem e esquecem

Um embedding é uma impressão comprimida do texto que o treinou: aprende a cultura desse corpus, com seus estereótipos e seus silêncios. Pré-treinado não significa neutro. Para populações sub-representadas há duas falhas: o estereótipo codificado e a representação rala. E o viés é mensurável: num benchmark de saúde, um modelo biomédico codificou associações étnicas mais fortes que um jurídico.

embeddingsviés culturalpopulações sub-representadas

IA e machine learning 5 min

IA generativa em revisão sistemática: ferramenta ou atalho?

A IA generativa acelera a revisão sistemática, mas vira atalho no instante em que substitui, em vez de assistir, o julgamento humano sob um protocolo documentado. Os dados mostram por quê: triadores baseados em LLM trocam sensibilidade por especificidade. O que torna o uso legítimo é o protocolo: pré-registro, validação, o modelo como segundo triador com arbitragem humana, e relato de prompt, modelo e versão.

revisão sistemáticaIA generativatriagem de resumos

Dados e estatística 5 min

Missing data não é detalhe técnico: o que pareceristas leem com lupa

Dados faltantes não são uma etapa de limpeza. A escolha entre deletar casos e imputar muda estimativas e erros padrão, e pareceristas Q1 leem essa decisão de perto. O que governa a validade é o mecanismo de ausência assumido, não a porcentagem que faltou. Numa simulação, o erro da imputação foi parecido sob MCAR e MAR, mas disparou sob NMAR, onde a ausência depende do próprio valor que falta.

missing datadados faltantesimputação múltipla

IA e machine learning 5 min

Modelagem preditiva em ciências sociais: por que o AUC sozinho não basta

O AUC é a métrica que todo mundo relata e a que menos diz se o modelo presta. Ele mede ordenação, e é cego para a calibração, para o valor de decisão e para o teto de previsibilidade. Pior: a discriminação alta na derivação não sobrevive à validação externa. Em 158 validações externas de 104 modelos, a mediana do c-statistic cai de 0,76 para 0,64, de modo que um único número superestima o desempenho.

modelagem preditivaciências sociaisAUC

Dados e estatística 7 min

Visualização publicável vs exploratória: dois objetos, duas regras

A visualização exploratória serve ao analista: é rápida, descartável e otimizada para enxergar. A visualização publicável serve ao leitor: é lida uma vez e precisa decodificar sozinha. São objetos diferentes, não dois acabamentos do mesmo gráfico. E o formato de publicação muda a interpretação: um experimento achou gráficos 'better' lidos com mais acurácia (OR 1,55) e clareza (OR 1,91) que os 'normed'.

visualização publicávelvisualização exploratóriapercepção gráfica

Dados e estatística 5 min

SEM em mediação múltipla: quando a regressão linear deixa de responder

A mediação múltipla pergunta por qual mecanismo um efeito acontece, e a quantidade de interesse é o efeito indireto, o produto de caminhos. A regressão linear estima caminhos isolados, não a inferência sobre esse produto nem mediadores simultâneos. A SEM estima tudo junto, acomoda variáveis latentes e cadeias. Para o intervalo, a escolha do bootstrap muda a taxa de falsos positivos de forma mensurável.

mediação múltiplaSEMefeito indireto

Dados e estatística 5 min

Web scraping em pesquisa acadêmica: público não é o mesmo que coletável

Que um dado esteja visível numa página aberta diz respeito ao acesso, não à permissão nem à ética. Web scraping força essa distinção: termos de uso, privacidade e risco de dano traçam a fronteira que a acessibilidade técnica ignora. Uma revisão de 367 estudos com dados públicos do Twitter mediu o problema: a maioria não relatou aprovação ética, e o consentimento informado foi tentado em zero deles.

web scrapingética em pesquisadados públicos

Escrita e publicação 5 min

Estudo estratégico de venue após a primeira rejeição

Resubmeter por reflexo a um periódico mais baixo trata a rejeição como veredito de qualidade. A evidência sobre fluxos de submissão mostra que o que preserva a trajetória de citação é o encaixe, não o tier, e que o salto entre comunidades distintas é onde as citações se perdem.

estratégia de submissãorejeição editorialseleção de periódico

Escrita e publicação 5 min

Tradução literal é a primeira causa de rejeição PT→EN em Q1

A rejeição de manuscritos traduzidos ao pé da letra raramente é problema de vocabulário. É a estrutura retórica do português, transportada intacta, que o parecerista anglófono lê como argumento mal construído. A correção é reconstrução no registro do idioma-alvo, não revisão palavra a palavra.

tradução acadêmicarejeição editorialretórica contrastiva

Escrita e publicação 4 min

Abstract estruturado em 250 palavras: a arquitetura que define a leitura

Editor e parecerista triam no abstract; o leitor decide ler nele. A restrição de 250 palavras não é burocracia, é a compressão IMRaD que expõe se há contribuição declarável. Abstract estruturado supera o não estruturado em completude e clareza, e isso define a visibilidade do trabalho antes de qualquer mérito do corpo.

abstract estruturadoescrita acadêmicatriagem editorial