Metodología — Clave

El método de doble vía

Cada informe de Clave se estructura alrededor de una sola pregunta: ¿cuál es la distancia entre lo que un actor declara públicamente y lo que verificablemente hace? Ese gap — puntuado de 0 a 10 por dominio — es donde se genera el riesgo geopolítico y donde ocurre la mala valoración del mercado.

Mapeo de dominios

Cada país, sector o régimen regulatorio se descompone en 4-6 dominios estructurales elegidos por apalancamiento analítico, no por exhaustividad. Las omisiones son deliberadas. El estrechamiento es el trabajo.

Puntuación de gap retórica-vs-realidad

Cada dominio recibe una puntuación numérica de gap 0-10 en la tabla §IV — la celda REALIDAD lleva un número específico, una fecha o un valor contractual, no un adjetivo. Las filas de complemento bilateral son canónicas: cada afirmación anti-narrativa tiene fila contraria con steelman O razonamiento explícito de por qué ninguna contra-narrativa amerita tratamiento simétrico (por EDITORIAL-PREDICTION-RHETORIC-VS-REALITY-STEELMAN-DISCIPLINE-01).

Bucles de retroalimentación + diagramas Mermaid

Contradicciones estructurales modeladas como bucles autorreforzantes con mecanismos nombrados, renderizados como diagramas Mermaid (estándar visual canónico desde el Informe 7). Cada bucle termina con un veredicto que articula por qué la contradicción es duradera.

Psicología política (condicional)

Cuando la conducta del actor no se explica por el interés declarado, el informe recurre a un marco diagnóstico nombrado — competencia por estatus, aversión a la pérdida, captura de coalición, Prospect Theory. Se usa cuando es central para la tesis analítica; menos central en informes financiero-regulatorios. El marco se nombra explícitamente cuando se usa; afirmaciones "psicológicas" sin diagnóstico nombrado son rechazadas.

Registro de predicciones formales

Los umbrales observables no son sólo analíticos — se escriben en data/predictions.yaml como predicciones puntuables por Brier siguiendo el patrón estructural Tier 1: razonamiento Path 1/2/3 + Convergencia + Tasa Base + Modo de Fallo + Independencia + Clase + Documento de Verificación + Anclaje de Calibración Externa. La disciplina de ampliación de banda pre-publicación aplica cuando la evidencia de tasa-base está marcada [SD-estimate] o n≤3 (por BRIER-N-LE-3-BAND-DISCIPLINE-01). No se emiten recomendaciones de inversión.

Arquitectura de escenarios

Tres escenarios ponderados por probabilidad que suman 100 % cierran cada informe (§II ESCENARIOS). Cada uno activado por eventos observables específicos; cada uno nombra exposición sectorial. Probabilidades heterogéneas (60-80 típico, no 85-95 uniforme) por disciplina de rango-honesto-sobre-punto-confiado.

Patrón estructural canónico Tier 1 (desde el Informe 7). Los seis componentes analíticos anteriores componen cada informe. El sobre estructural numerado §-X dentro del cual se publican — bloqueado en el Informe 7 (DORA, 2026-05-20) y aplicado retroactivamente a los Informes 1-6 — es: §I RESUMEN EJECUTIVO (3 párrafos + bridge) → §II ESCENARIOS → §III LAS TRES TRAMPAS OPERATIVAS (consecuencias sectoriales) → §IV PUNTUACIÓN DE GAP RETÓRICA-VS-REALIDAD (la tabla de doble lectura con filas de complemento bilateral) → §V BUCLES DE RETROALIMENTACIÓN (diagramas Mermaid) → §VI ESCENARIOS DE RIESGO GEOPOLÍTICO → §VII HISTORIAL (cross-references entre informes vía Reconocimiento de Patrones por EDITORIAL-PATTERN-XREF-01) → §XIV PREDICCIONES FORMALES — HORIZONTE DE VERIFICACIÓN 2026 → CONCLUSIÓN. La superficie de presentación brief-tab refleja estas como etiquetas compactas. La sección LA OTRA LECTURA emerge deliberadamente lo que el informe declina cubrir (temas diferidos + complemento bilateral steelman) — la disciplina de admitir lo no analizado es parte del reclamo de credibilidad.

Cómo se produce un informe

Cada informe de Clave se produce mediante un pipeline híbrido: recuperación y generación automatizadas, seguidas de revisión editorial humana. Lo declaramos explícitamente porque la transparencia sobre el método es parte de la credibilidad.

El pipeline

1. Recuperación — RAG sobre un corpus curado. Una base vectorial que indexa aproximadamente 44.000 fragmentos de más de 394 documentos fuente provenientes de más de 66 organizaciones fuente (Informes Anuales de la NATO, IMF World Economic Outlook, IEA WEO, BIS, Stanford HAI AI Index, investigaciones de red de ENTSO-E, textos regulatorios de la UE, briefings de defensa industrial de EPRS / MERICS / Carnegie / Bruegel / Atlantic Council / CSIS, USGS Mineral Commodity Summaries, Cochilco, gacetas de MOFCOM, filings de reguladores financieros UE de EBA / ESMA / ECB Banking Supervision, entre otros) se consulta para encontrar evidencia relevante por tema. Los fragmentos mejor recuperados se convierten en contexto para la siguiente capa.

2. Generación — API de LLM frontera con un prompt editorial versionado. Los fragmentos del corpus recuperados más un prompt editorial estructurado — que define la estructura del informe ejecutivo, las secciones de doble vía, los escenarios, las predicciones formales y las convenciones de etiquetado de fuente — se envían a una API de modelo grande de lenguaje de un proveedor externo. El prompt está versionado en git y se refina con cada lección por informe; hoy contiene un conjunto versionado de reglas editoriales — entre ellas: cada informe debe contener predicciones falsables, debe articular su contribución primaria, y el encuadre estructural sigue prioridades de inversor europeo. El modelo escribe el borrador en prosa en inglés y español.

3. Aseguramiento de calidad — seis capas, heurísticas por diseño. La veracidad se aborda en capas, no en un único disparo. Cada capa atiende a un modo de fallo distinto y cada una tiene varianza medible:

Capa 1 — heurística de contrato de cita. Una verificación automática sobre afirmaciones numéricas sustantivas comprueba que cada una lleve una etiqueta de fuente adyacente. Se dispara como advertencia cuando el conteo de afirmaciones no citadas supera el umbral.
Capa 2 — integridad de URL. Cada URL citada se sondea con HEAD para verificar accesibilidad.
Capa 3 — LLM-judge. La capa de judge evalúa cada borrador contra un pequeño conjunto nombrado de criterios estructurales — entre ellos si la tesis central está articulada, si la lógica de secuenciación se sostiene, si las predicciones son falsables, si la voz es neutral, y si el análisis es defensible frente a output genérico de LLM. Algunos criterios bloquean publicación; otros se exponen como advertencias durante calibración. Cada veredicto se registra en un ledger público con razonamiento y confianza. La capa LLM-judge tiene varianza medible — el mismo borrador puede puntuar de forma distinta en ejecuciones consecutivas — y la tratamos como heurística con telemetría, no como gate determinista.
Capa 4 — verificación externa por afirmación. Las afirmaciones numéricas se buscan contra fuentes externas en el momento de promover, con el LLM-judge corroborando proximidad numérica. El runner aplica criterios de bloqueo más estrictos al contenido de alto riesgo (verdict box, predicciones formales) que al análisis de soporte.
Capa 5 — registro de hechos críticos. Un registro curado de hechos donde informes anteriores han mostrado deriva — incluyendo umbrales y cronologías que recurren entre temas. Cada entrada lleva patrones prohibidos y guardas de contexto; las coincidencias bloquean publicación.
Capa 6 — retrospectiva semanal. Un agente programado lee cada fallo de calidad de la semana, agrupa patrones y recomienda nuevas reglas de prompt o entradas de registro. Los informes aterrizan en el directorio público de reportes; el humano revisa — no hay auto-aplicación.

El runner aplica mecánicamente múltiples capas de controles bloqueantes y de advertencia en cada borrador. Los borradores que pasan aterrizan en staging. El editor humano revisa entonces cada informe antes de promover staging → published: lee el resumen ejecutivo entero, verifica las cifras más importantes contra fuentes primarias, confirma que las predicciones son falsables, firma.

Modelo de atención paralela de tres clases de revisor

La pila de seis capas se lee como secuencia vertical pero el modelo operativo real es de superficies de atención paralelas con cobertura de clases de defecto diferenciadas. El QA pre-publicación requiere tres clases de revisor distintas atendiendo a superficies distintas: (a) revisión externa por LLM (contradicciones de afirmación de carga estructural, fabricaciones numéricas, imprecisión de encuadre); (b) auditoría de sustancia (verificación de comparables históricos, anclaje en fuentes); (c) revisión crítica (presentación, coherencia de calibración, consistencia entre secciones, paridad semántica bilingüe). Cada clase captura una clase distinta de defecto; el QA pre-publicación completo requiere las tres. Ver paper completo §6.4 para evidencia empírica.

Disciplina de calibración pre-publicación

Dos reglas editoriales nombradas codifican la disciplina pre-publicación. Ampliación de banda: cuando la evidencia de tasa-base de una predicción está marcada como [SD-estimate] / [SD-inference] o está respaldada por n≤3 comparables verificados, la banda de probabilidad de cabecera debe abarcar ≥15 puntos porcentuales. Aplicar en revisión crítica ANTES de la publicación — la ampliación pre-publicación preserva opcionalidad de pérdida-Brier; el ajuste post-fallo es metodológicamente sospechoso. Universalidad de complemento bilateral: cada afirmación anti-narrativa en encuadres retórica-vs-realidad debe tener o una fila de complemento bilateral (el steelman de la posición contraria) O razonamiento explícito de por qué ninguna contra-narrativa amerita tratamiento simétrico. Universal entre todas las entidades; no específico a donde la asimetría surge primero. Prosa completa de regla nombrada en paper §6.5 + §6.6.

Honestidad sobre los límites

Los modelos grandes de lenguaje pueden alucinar — inventar cifras concretas, atribuir afirmaciones a fuentes que no las hicieron, o desalinear fechas. La pila de calidad de seis capas captura la mayor parte de esto. Algo se escapa. La capa LLM-judge en particular tiene varianza medible: cuando el mismo borrador se juzga varias veces, los veredictos pueden variar, por lo que publicamos el ledger de veredictos y tratamos el gate como heurística con telemetría en lugar de pass/fail determinista. Cuando algo se escapa, publicamos una errata sobre el informe afectado y registramos el incidente; las correcciones pasadas son visibles en el historial de git de /briefs/.

Una distinción adicional que divulgamos explícitamente: la disciplina de formato es necesaria pero no suficiente. Una predicción puede seguir el patrón estructural Tier 1 completo (Path 1/2/3 + Convergencia + Tasa Base + Modo de Fallo + Independencia + Clase + Verificación + Anclaje de Calibración Externa) y aún apoyarse en comparables históricos que no verifican contra fuentes externas. Brief 8 Payments (mayo 2026) fue auditado en ambos ejes: formato 8,13/9 dimensiones PASS por predicción; sustancia ~6,06/9 — un delta de −2,07 derivado de comparables históricos no verificados o mal-encuadrados. La respuesta disciplinaria: una nueva regla del prompt editorial (EDITORIAL-PREDICTION-COMPARABLE-VERIFICATION-01) que requiere que cada comparable histórico citado verifique contra una fuente primaria o secundaria nombrada, con las estimaciones analíticas de Shadow Dynamics marcadas explícitamente. La divulgación en sí — reportar sustancia por debajo del formato — es la jugada de credibilidad; suprimirla conflictuaría la disciplina de formato con la fiabilidad Brier-grade. Auditoría completa en paper de metodología §5.

Límite de revisor sin estado en verificación recurrente. La capa de revisión externa por LLM es sin estado entre ciclos de revisión: cada ciclo re-marca las mismas afirmaciones de carga estructural porque el revisor no tiene memoria de lo que ciclos anteriores verificaron. Evidencia empírica de la activación de Phase D en Brief 8: 5 ciclos cada uno re-marcaron las mismas 4–5 afirmaciones de carga estructural pese a que las correcciones de cada ciclo habían sido WebSearch-verificadas entre iteraciones. La convergencia por regla estricta (cero nuevos hallazgos críticos en dos ciclos consecutivos) es estructuralmente inalcanzable bajo revisión sin estado. La convergencia por regla flexible (ruido recurrente + ningún issue sustancial nuevo) es el estado-final realista.

El mecanismo duradero de credibilidad no es la pila de gates — los gates son andamiaje necesario — sino el ledger público de predicciones, donde cada umbral observable que publicamos se rastrea contra su resultado y el Brier score acumulado se calcula a medida que las predicciones se resuelven. Un lector que quiera evaluar esta publicación debería mirar el ledger, no el número de gates.

Declaramos el pipeline no como disculpa sino como contrato: la automatización en capas aporta consistencia y cobertura a escala que ningún analista individual puede igualar; el revisor humano aporta juicio de dominio y rendición de cuentas que ningún modelo puede aportar; y el ledger de predicciones aporta la única credencial que no se puede fabricar — el marcador público de aciertos pasados. Para los decisores institucionales, este marcador junto con el ledger público de veredictos y el CHANGELOG constituyen el rastro de evidencia para decisiones: los artefactos que hacen defendible la dependencia analítica frente a LPs, consejos y auditorías.

Jerarquía de fuentes

Cada afirmación factual en un informe de Clave lleva una etiqueta de fuente estructurada adyacente a la afirmación — antes de la puntuación de cierre de la frase. La etiqueta permite la verificación post-publicación sin mediación editorial. Las fuentes se ponderan en este orden de prioridad:

Corpus autoritativo. Documentos primarios indexados — BIS, IMF, NATO, IEA, ENTSO-E, OECD, publicaciones de bancos centrales, registros de reguladores, gacetas oficiales. Mayor peso. Citados en línea como [SOURCE | DOC | PAGE].
Fuentes web de autoridad. Sitios oficiales de reguladores y actores primarios consultados en la fecha del análisis — DG COMP / EUR-Lex, La Moncloa, BOE, Bundesanzeiger, MOFCOM, Federal Register, etc. Citados como [WEB: fuente] con URL.
Prensa financiera Tier-1. FT, Reuters, Bloomberg, Wall Street Journal — cuando adelantan un desarrollo regulatorio o corporativo antes de la publicación primaria. Citados como [WEB: medio] con URL.
Datos de encuestas. Encuestadora nombrada, fecha nombrada, metodología verificada cuando es ambigua. Citados como [POLL: encuestadora].
Inferencia a partir de las anteriores. Juicio del analista derivado de las capas superiores. Menor autoridad. Citada como [INFERENCE: based on X + Y] con la base nombrada explícitamente. Una etiqueta [INFERENCE] sin base declarada es rechazada por el runner.

El runner aplica un límite máximo a la proporción de afirmaciones etiquetadas como inferencia respecto al total de números-ancla. Si la proporción supera el umbral, el informe no puede promover — un análisis dominado por inferencia es estructuralmente indistinguible de comentario, y mantenemos la línea sobre esa diferencia.

Etiquetas de fuente

[SOURCE | DOC | PAGE N]

Corpus autoritativo. Copiado exactamente de la cabecera del documento recuperado para documentos indexados en el corpus curado (BIS, IMF, IEA, Informes Anuales NATO, publicaciones de bancos centrales, WEF Global Risks Report, Eurasia Group Top Risks, etc.). De-énfasis en los Informes 7+8 financiero-regulatorios donde la cobertura de tier-autoridad procede mayoritariamente vía reguladores primarios web-sourced.

ej. [NATO | NATO_Annual_Report_2025 | p.34] · [IMF | WEO_April_2026 | p.12]

[WEB: source]

Fuentes web en tiempo real recuperadas en la fecha del análisis — publicaciones de reguladores primarios, gacetas oficiales, comunicados de bancos centrales, prensa financiera Tier-1 cuando adelantan un desarrollo antes de la publicación primaria. URL proporcionada en §FUENTES de cada informe.

ej. [WEB: BIS Federal Register] · [WEB: SWIFT] · [WEB: Comisión Europea, Programa de Trabajo mayo 2026] · [WEB: Comité Mixto, JC 2026 10, p.2, publicado el 24 de abril de 2026] · [WEB: US Treasury] · [WEB: ECB] · [WEB: MOFCOM] · [WEB: FT] · [WEB: Reuters]

[POLL: pollster] (condicional)

Datos de encuestas. Encuestadora y fecha nombradas — CIS (España), Forschungsgruppe Wahlen (Alemania), YouGov (Reino Unido). Usado en informes de estabilidad política; no usado en informes financiero-regulatorios.

ej. [POLL: CIS] · [POLL: YouGov] · Fecha citada

[INFERENCE: based on X + Y]

Razonamiento analítico a partir de las fuentes anteriores — el juicio del analista, identificado claramente como tal. Una etiqueta [INFERENCE] sin descripción de la base es rechazada por el runner de calidad.

ej. [INFERENCE: basada en datos cuantitativos del documento de consulta de la ABE 2022] · [INFERENCE: basada en datos de cadencia de aplicación de reglamentos comparables]

[SD-*: ...] (canónico Informes 7+8)

Familia de marcadores derivados-del-analista explícita desde v1.2: [SD-estimate: ...] (cifra o tasa derivada de patrón nombrado; fuente externa no localizada), [SD-aggregate: ...] (cifra compilada de fuentes públicas; no un valor único publicado externamente), [SD-attribution: ...] (atribución a persona/entidad donde el comunicado primario no es localizable directamente; marcado como atribución agregada pendiente de verificación), [SD-pattern: ...] (razonamiento analógico basado en patrón), [SD-inference: ...] (observación analítica no agregada externamente). Cada marcador DEBE llevar una razón explícita en el corchete — [SD-*] vacío es rechazado.

ej. [SD-estimate: categoría de referencia limitada a n=2 casos verificados] · [SD-aggregate: lista de adoptantes institucionales compilada de fuentes públicas] · [SD-attribution: según cobertura sectorial; SD no ha localizado comunicado primario]

Una afirmación etiquetada [INFERENCE] o [SD-*] es el juicio del analista — puede estar equivocada, y se informa al lector explícitamente con la base nombrada en el corchete. Una afirmación etiquetada [WEB] con URL puede verificarse en 30 segundos. Una afirmación etiquetada [SOURCE | DOC | PAGE N] puede verificarse recuperando el mismo párrafo en la misma publicación. El sistema de etiquetado existe para que los lectores puedan cuestionar cada afirmación de forma independiente, no para que la publicación se esconda detrás de prosa impresionista.

Transparencia

Cada capa descrita arriba es verificable. El código fuente del runner y los judges, el registro de veredictos que registra cada decisión de gate, el registro de predicciones con fechas de falsabilidad, y el CHANGELOG con cada cambio metodológico están servidos desde el endpoint público de archivos del sitio en /api/file/<ruta> (manifiesto completo en /api/files). Los recibos son la credencial. Ver Acerca → Lo que es público para la lista completa y la lista (más corta) de lo que es deliberadamente no público.

Historial de predicciones

Cada umbral observable publicado en un informe de Clave se rastrea contra resultados. Para los primeros informes — el inicio de esta serie — no existen predicciones previas que verificar. A medida que la serie se desarrolla, esta sección acumulará tanto predicciones verificadas como fallidas. Ambas se publican.

El registro también es un canal de retroalimentación. Cuando una clase de predicciones falla sistemáticamente — tres o más fallos con una característica común, no ruido — se examina la causa y se aplica una de cuatro correcciones: se revisa una regla del prompt editorial, se añade una entrada al registro de hechos críticos, la clase de predicción se retira por no ser falsable en la forma previamente usada, o el gate que debería haberlo detectado se recalibra. Sin tuning automático; cada ajuste es revisado por el editor y fechado. El CHANGELOG público registra cada modificación, de modo que los lectores pueden verificar que las mejoras siguieron a los fallos, no los precedieron.

Esta publicación es sólo con fines informativos. No constituye asesoramiento de inversión ni una recomendación personal. Clave no es un asesor de inversión regulado. Este contenido no constituye investigación de inversión bajo MiFID II, FINRA ni regulaciones equivalentes. Los lectores deben buscar asesoramiento financiero independiente regulado antes de tomar decisiones de inversión.

Cómo trabajamos