TRANSPARÊNCIA RADICAL · CÓDIGO ABERTO
METODOLOGIA
Como o Reverbera mede ressonância entre discursos, quais lentes usa, como calibra, de onde vêm as fontes, e — crucialmente — o que ainda não funciona bem.
"Reverbera é uma ferramenta de análise comparativa que mostra ressonâncias entre discursos de políticos brasileiros contemporâneos e textos de figuras históricas — usando múltiplas metodologias de similaridade textual. Todas as fontes são verificáveis e todas as metodologias são abertas e explicadas."
SEÇÃO 01
As 4 lentes
Cada par político × figura histórica é avaliado por quatro lentes independentes. Nenhuma lente sozinha é suficiente — a leitura exige as quatro juntas, sempre com os trechos verificáveis.
Vocabulário e estilo
Mede vocabulário e estilo compartilhados — as mesmas palavras com os mesmos pesos relativos. Captura citação indireta, linguagem de comunidade e repertório retórico comum.
TF-IDF ponderado por frequência inversa no corpus. Jaccard/overlap de n-gramas 1-3. Score por par de parágrafos; agrega pelo máximo.
Temas e conceitos
Mede sinônimos e paráfrases que a lente lexical perde. "Filhos da fome" e "humildes" recebem alta similaridade aqui, ainda que zero na lexical.
Embeddings multilíngues (multilingual-e5-base, dim 1024), normalizados. Distância cosseno por parágrafo. Figuras históricas estrangeiras: corpus em tradução pt-BR.
Enquadramento discursivo
Mede padrões de enquadramento retórico: como o orador constrói identidade de grupo, inimigos, ameaças e soluções.
4 dimensões anotadas por LLM (Claude Sonnet 4.x): in_group (nós), out_group (eles), ameaça (o perigo), solução (o remédio). Score = cosseno entre vetores de dimensão 4.
Marcadores ideológicos
Mede densidade comparada de termos-marcadores em 7 categorias: messiânica, populista, autoritária, militarista, conspiracionista, vitimária, restauracionista.
Léxicos curados em duplas paralelas — para cada termo de manifestação direita há um paralelo de esquerda (Decisão 70). ~35–45 termos por categoria. Versão v1.1.
SEÇÃO 02
Calibração estratificada
Como sabemos que a ferramenta funciona — e como evitamos que a validação confirme circularmente os resultados que vamos exibir.
DECLARAÇÃO DE NÃO-CIRCULARIDADE
"Nenhum dos pares de calibração compara um político brasileiro vivo com uma figura histórica. Calibramos a ferramenta com pares de tipos diferentes — figuras históricas entre si, políticos contemporâneos entre si, e textos de domínios externos — para evitar que a validação confirme circularmente os resultados que vamos exibir."
(A) Histórico × Histórico
ANCORADOS EM LITERATURA QUANDO POSSÍVEL
Pares entre figuras históricas onde há literatura acadêmica comparativa publicada. Expectativa ancorada em estudos, não em intuição.
- → Hitler × Mussolini (fascismo europeu — literatura extensa)
- → Lenin × Mao (marxismo-leninismo)
- → Gandhi × Mandela (resistência não-violenta)
- → Mussolini × Vargas (autoritarismo populista 1930s)
(B) Contemporâneo × Contemporâneo
INTUIÇÃO CONSENSUAL DECLARADA COMO TAL
Pares entre políticos contemporâneos com expectativa baseada em posicionamento público declarado. Menos rigoroso — documentado como tal.
- → Lula × Dilma (alinhamento programático PT)
- → Bolsonaro × Trump (discurso populista de direita)
- → Lula × Chávez (populismo de esquerda latino-americano)
(C) Controles Externos
PARES DE DOMÍNIOS DIFERENTES — ESPERA-SE SCORE BAIXO
Pares entre textos de domínios sem relação discursiva. Serve para calibrar o piso: score alto aqui indicaria falso positivo sistemático.
- → Bula de remédio × discurso político (controle léxico)
- → Texto técnico de engenharia × discurso eleitoral (controle semântico)
SEÇÃO 03
Agregação por máximo
Cada lente opera no nível de pares de parágrafos. Para chegar ao score de um par figura A × figura B, usamos o máximo — não a média.
Ressonância discursiva não exige que todo o texto seja similar — basta um trecho representativo. A agregação por máximo captura o momento de maior alinhamento entre os discursos, que é o dado analiticamente relevante.
Por isso, o score nunca aparece sozinho. Cada número tem um par de trechos âncora — os parágrafos específicos que produziram o máximo — sempre linkados para verificação na fonte original.
LIMITAÇÃO CONHECIDA
Um único parágrafo extremo pode dominar o score agregado. Mitigação: drill-down sempre disponível para ver exatamente qual par de parágrafos produziu o máximo. Veja a seção 05 para lista completa de limitações.
SEÇÃO 04
Fontes e tiers
Três tiers de qualidade de fonte. Todos os textos no corpus têm tier declarado — scores publicados usam apenas tier 1 e tier 2.
Fonte primária com controle editorial. Máxima confiabilidade.
- → Diário Oficial / site do governo
- → Biblioteca da Presidência
- → Portal da Câmara / Senado
- → Transcrição oficial do pronunciamento
Mídia com cadeia editorial verificável. Confiável para uso em scores.
- → Folha, Estadão, Globo, UOL
- → Agências (AP, Reuters, AFP)
- → Revistas de referência
- → Transcrição por veículo reconhecido
Obras publicadas por editoras. Usado para figuras históricas cujas fontes primárias não estão online.
- → Livros de discursos coletados
- → Coleções de obras publicadas
- → Citações verificadas em obras acadêmicas
EXCLUÍDO EXPLICITAMENTE
Redes sociais e canais sem cadeia editorial verificável (Tier 3) são explicitamente excluídos do corpus de scores publicados. Quando aparecem como contexto (ex.: live no Telegram), o tier 3 é declarado mas o trecho não entra no cálculo. Decisão revisada anualmente.
SEÇÃO 05
Limitações declaradas
Lista pública e atualizada do que ainda não funciona bem. Não é marketing reverso — é o estado real da ferramenta.
Auditor único dos léxicos no MVP
Os léxicos das 7 categorias de marcadores foram construídos por uma única pessoa (Carlos Eduardo Batista), seguindo procedimento de duplas paralelas para bilateralizar cobertura ideológica. Pós-handover, comitê de auditoria substitui auditor único.
Não testamos diretamente o eixo presente × passado
A calibração estratificada elimina circularidade, mas como consequência não exercita diretamente a comparação que o site exibe. Confiamos que a validação dentro de cada gênero (histórico, contemporâneo) e nos controles externos cobre os riscos suficientes.
Viés de cobertura por exclusão de Tier 3
Não capturamos discurso informal (lives, comícios, podcasts sem transcrição publicada). Sub-representação reconhecida — favorece políticos com forte presença em mídia institucional sobre os com forte presença em mídia digital alternativa.
Agregação por máximo é suscetível a outliers
Um único parágrafo extremo pode dominar o score agregado de uma figura. Mitigação: drill-down sempre disponível para ver exatamente qual par de parágrafos produziu o máximo.
Embeddings multilíngues com performance assimétrica
O modelo multilingual-e5-base tem qualidade desigual entre idiomas. Para figuras históricas estrangeiras citadas via tradução pt-BR, há ruído residual de tradução incorporado nos embeddings.
Cobertura de framing parcial
Framing anotado por LLM apenas para Lula e Bolsonaro (snapshot v2026.05). Os demais 13 políticos têm score framing = 0. Cobertura 11%. Framing será expandido em Fase 2.
SEÇÃO 06
Decisões adiadas
O que está deliberadamente fora do MVP, com critério para revisitar.
Framing para 13 políticos restantes
Após validação da cobertura de corpus para cada figura (mínimo 20 textos publicados).
Embeddings fine-tuned para português político
Fase 3 — requer dataset de 10k+ pares anotados.
Auditoria coletiva dos léxicos de marcadores
Após handover: comitê de 3+ auditores independentes revisam os 7 lexicons.
Score de citação direta (quote detection)
Fase 3 — requer sistema separado de detecção de paráfrase próxima.
Corpus de discurso informal (Tier 3)
Pós-MVP: requer pipeline de transcrição e processo editorial explícito para validar tier.
Comparação entre políticos vivos
Fora do escopo do projeto. Redefiniria o produto como tracker político.
Snapshot v2026.05 · AGPL-3.0 · Léxicos: marcadores v1.1 · Embeddings: multilingual-e5-base · Repositório →