TRANSPARÊNCIA RADICAL · CÓDIGO ABERTO

METODOLOGIA

Como o Reverbera mede ressonância entre discursos, quais lentes usa, como calibra, de onde vêm as fontes, e — crucialmente — o que ainda não funciona bem.

"Reverbera é uma ferramenta de análise comparativa que mostra ressonâncias entre discursos de políticos brasileiros contemporâneos e textos de figuras históricas — usando múltiplas metodologias de similaridade textual. Todas as fontes são verificáveis e todas as metodologias são abertas e explicadas."

Reverbera · Declaração de propósito · v1.0

SEÇÃO 01

As 4 lentes

Cada par político × figura histórica é avaliado por quatro lentes independentes. Nenhuma lente sozinha é suficiente — a leitura exige as quatro juntas, sempre com os trechos verificáveis.

LENTE 01

LEXICAL

Vocabulário e estilo

Mede vocabulário e estilo compartilhados — as mesmas palavras com os mesmos pesos relativos. Captura citação indireta, linguagem de comunidade e repertório retórico comum.

TF-IDF ponderado por frequência inversa no corpus. Jaccard/overlap de n-gramas 1-3. Score por par de parágrafos; agrega pelo máximo.

FÓRMULA · max(TF-IDF cosine) sobre pares de parágrafos

LENTE 02

SEMÂNTICA

Temas e conceitos

Mede sinônimos e paráfrases que a lente lexical perde. "Filhos da fome" e "humildes" recebem alta similaridade aqui, ainda que zero na lexical.

Embeddings multilíngues (multilingual-e5-base, dim 1024), normalizados. Distância cosseno por parágrafo. Figuras históricas estrangeiras: corpus em tradução pt-BR.

FÓRMULA · max(cos(emb_a, emb_b)) por parágrafo

LENTE 03

FRAMING

Enquadramento discursivo

Mede padrões de enquadramento retórico: como o orador constrói identidade de grupo, inimigos, ameaças e soluções.

4 dimensões anotadas por LLM (Claude Sonnet 4.x): in_group (nós), out_group (eles), ameaça (o perigo), solução (o remédio). Score = cosseno entre vetores de dimensão 4.

FÓRMULA · cosine(vetor[in_group, out_group, ameaça, solução])

LENTE 04

MARCADORES

Marcadores ideológicos

Mede densidade comparada de termos-marcadores em 7 categorias: messiânica, populista, autoritária, militarista, conspiracionista, vitimária, restauracionista.

Léxicos curados em duplas paralelas — para cada termo de manifestação direita há um paralelo de esquerda (Decisão 70). ~35–45 termos por categoria. Versão v1.1.

FÓRMULA · cosine(vetor[7 categorias de densidade])

SEÇÃO 02

Calibração estratificada

Como sabemos que a ferramenta funciona — e como evitamos que a validação confirme circularmente os resultados que vamos exibir.

DECLARAÇÃO DE NÃO-CIRCULARIDADE

"Nenhum dos pares de calibração compara um político brasileiro vivo com uma figura histórica. Calibramos a ferramenta com pares de tipos diferentes — figuras históricas entre si, políticos contemporâneos entre si, e textos de domínios externos — para evitar que a validação confirme circularmente os resultados que vamos exibir."

(A) Histórico × Histórico

ANCORADOS EM LITERATURA QUANDO POSSÍVEL

Pares entre figuras históricas onde há literatura acadêmica comparativa publicada. Expectativa ancorada em estudos, não em intuição.

→ Hitler × Mussolini (fascismo europeu — literatura extensa)
→ Lenin × Mao (marxismo-leninismo)
→ Gandhi × Mandela (resistência não-violenta)
→ Mussolini × Vargas (autoritarismo populista 1930s)

(B) Contemporâneo × Contemporâneo

INTUIÇÃO CONSENSUAL DECLARADA COMO TAL

Pares entre políticos contemporâneos com expectativa baseada em posicionamento público declarado. Menos rigoroso — documentado como tal.

→ Lula × Dilma (alinhamento programático PT)
→ Bolsonaro × Trump (discurso populista de direita)
→ Lula × Chávez (populismo de esquerda latino-americano)

(C) Controles Externos

PARES DE DOMÍNIOS DIFERENTES — ESPERA-SE SCORE BAIXO

Pares entre textos de domínios sem relação discursiva. Serve para calibrar o piso: score alto aqui indicaria falso positivo sistemático.

→ Bula de remédio × discurso político (controle léxico)
→ Texto técnico de engenharia × discurso eleitoral (controle semântico)

SEÇÃO 03

Agregação por máximo

Cada lente opera no nível de pares de parágrafos. Para chegar ao score de um par figura A × figura B, usamos o máximo — não a média.

POR QUÊ MÁXIMO

Ressonância discursiva não exige que todo o texto seja similar — basta um trecho representativo. A agregação por máximo captura o momento de maior alinhamento entre os discursos, que é o dado analiticamente relevante.

DRILL-DOWN OBRIGATÓRIO

Por isso, o score nunca aparece sozinho. Cada número tem um par de trechos âncora — os parágrafos específicos que produziram o máximo — sempre linkados para verificação na fonte original.

LIMITAÇÃO CONHECIDA

Um único parágrafo extremo pode dominar o score agregado. Mitigação: drill-down sempre disponível para ver exatamente qual par de parágrafos produziu o máximo. Veja a seção 05 para lista completa de limitações.

SEÇÃO 04

Fontes e tiers

Três tiers de qualidade de fonte. Todos os textos no corpus têm tier declarado — scores publicados usam apenas tier 1 e tier 2.

TIER 1

OFICIAL

Fonte primária com controle editorial. Máxima confiabilidade.

→ Diário Oficial / site do governo
→ Biblioteca da Presidência
→ Portal da Câmara / Senado
→ Transcrição oficial do pronunciamento

TIER 2

JORNALÍSTICO

Mídia com cadeia editorial verificável. Confiável para uso em scores.

→ Folha, Estadão, Globo, UOL
→ Agências (AP, Reuters, AFP)
→ Revistas de referência
→ Transcrição por veículo reconhecido

TIER 4

HISTÓRICO PUBLICADO

Obras publicadas por editoras. Usado para figuras históricas cujas fontes primárias não estão online.

→ Livros de discursos coletados
→ Coleções de obras publicadas
→ Citações verificadas em obras acadêmicas

EXCLUÍDO EXPLICITAMENTE

Redes sociais e canais sem cadeia editorial verificável (Tier 3) são explicitamente excluídos do corpus de scores publicados. Quando aparecem como contexto (ex.: live no Telegram), o tier 3 é declarado mas o trecho não entra no cálculo. Decisão revisada anualmente.

SEÇÃO 05

Limitações declaradas

Lista pública e atualizada do que ainda não funciona bem. Não é marketing reverso — é o estado real da ferramenta.

Auditor único dos léxicos no MVP

Os léxicos das 7 categorias de marcadores foram construídos por uma única pessoa (Carlos Eduardo Batista), seguindo procedimento de duplas paralelas para bilateralizar cobertura ideológica. Pós-handover, comitê de auditoria substitui auditor único.

Não testamos diretamente o eixo presente × passado

A calibração estratificada elimina circularidade, mas como consequência não exercita diretamente a comparação que o site exibe. Confiamos que a validação dentro de cada gênero (histórico, contemporâneo) e nos controles externos cobre os riscos suficientes.

Viés de cobertura por exclusão de Tier 3

Não capturamos discurso informal (lives, comícios, podcasts sem transcrição publicada). Sub-representação reconhecida — favorece políticos com forte presença em mídia institucional sobre os com forte presença em mídia digital alternativa.

Agregação por máximo é suscetível a outliers

Um único parágrafo extremo pode dominar o score agregado de uma figura. Mitigação: drill-down sempre disponível para ver exatamente qual par de parágrafos produziu o máximo.

Embeddings multilíngues com performance assimétrica

O modelo multilingual-e5-base tem qualidade desigual entre idiomas. Para figuras históricas estrangeiras citadas via tradução pt-BR, há ruído residual de tradução incorporado nos embeddings.

Cobertura de framing parcial

Framing anotado por LLM apenas para Lula e Bolsonaro (snapshot v2026.05). Os demais 13 políticos têm score framing = 0. Cobertura 11%. Framing será expandido em Fase 2.

SEÇÃO 06

Decisões adiadas

O que está deliberadamente fora do MVP, com critério para revisitar.

DECISÃO ADIADA

Framing para 13 políticos restantes

CRITÉRIO PARA REVISITAR

Após validação da cobertura de corpus para cada figura (mínimo 20 textos publicados).

DECISÃO ADIADA

Embeddings fine-tuned para português político

CRITÉRIO PARA REVISITAR

Fase 3 — requer dataset de 10k+ pares anotados.

DECISÃO ADIADA

Auditoria coletiva dos léxicos de marcadores

CRITÉRIO PARA REVISITAR

Após handover: comitê de 3+ auditores independentes revisam os 7 lexicons.

DECISÃO ADIADA

Score de citação direta (quote detection)

CRITÉRIO PARA REVISITAR

Fase 3 — requer sistema separado de detecção de paráfrase próxima.

DECISÃO ADIADA

Corpus de discurso informal (Tier 3)

CRITÉRIO PARA REVISITAR

Pós-MVP: requer pipeline de transcrição e processo editorial explícito para validar tier.

DECISÃO ADIADA

Comparação entre políticos vivos

CRITÉRIO PARA REVISITAR

Fora do escopo do projeto. Redefiniria o produto como tracker político.

Snapshot v2026.05 · AGPL-3.0 · Léxicos: marcadores v1.1 · Embeddings: multilingual-e5-base · Repositório →