Producto 1 junio 2026 · 16 min lectura · Actualizado

ResonIA: mapas de conversación para humanos, chatbots y voicebots

Una conversación no falla solo cuando alguien se queja. Falla antes: en un bucle, una retirada, una transferencia sin contexto, una respuesta defensiva o un bot que vuelve a preguntar lo que ya sabe. ResonIA nace para hacer visible ese comportamiento.

Durante mucho tiempo hemos tratado las conversaciones como texto final: se transcriben, se resumen, se etiquetan y se archivan. Pero una conversación no es solo contenido. Es una secuencia de turnos, energía, silencios, repeticiones, reparaciones y cambios de dirección.

Eso aplica a una reunión interna, a una llamada de soporte, a una conversación de ventas, a un chat entre cliente y agente, a un chatbot de texto y a un voicebot telefónico. El problema de fondo es el mismo: necesitamos entender dónde se rompe la interacción, con evidencia suficiente para mejorarla.

La tesis

ResonIA no intenta diagnosticar personas ni declarar intenciones ocultas. Convierte conversaciones humanas y conversaciones mediadas por IA en mapas temporales de comportamiento observable: intensidad, fricción, bucles, reparación, handoff, contexto perdido y momentos críticos.

Mapa temporal de ResonIA con las 10 capas conductuales por tramos de la conversación — Una conversación real desplegada en ResonIA: 10 capas conductuales — intensidad, fricción, bucle, handoff, reparación, apertura, retirada, espacio, sincronía y momentos críticos — segmentadas por tramos temporales.

Por qué ahora

Las empresas ya no hablan solo con personas

Una empresa moderna conversa por muchas capas: equipos humanos en reuniones, agentes de soporte, comerciales, chatbots de texto, voicebots telefónicos, formularios conversacionales, CRM summaries y eventos de sistema. Cada capa puede ayudar, pero también puede romper el hilo.

Conversaciones humanas

Reuniones, soporte, ventas, mediación interna o conversaciones difíciles donde importa detectar escalada, retirada, escucha y reparación.

Chatbots de texto

Flujos donde el usuario reformula la misma intención, el bot responde fuera de contexto o el prompt no sabe cuándo escalar.

Voicebots

Llamadas donde además del contenido aparecen tono, pausas, interrupciones, latencia, frustración y handoff humano tardío.

El cambio

Del resumen al mapa

Un resumen responde a "qué se dijo". Un mapa conversacional responde a preguntas más operativas: dónde se repitió la intención, dónde subió la fricción, dónde el sistema perdió contexto, dónde alguien intentó reparar, dónde convenía transferir a humano y qué tramo merece revisión primero.

Intensidad

Bucle

Handoff

Reparación

Representación conceptual: cada fila es una capa observable y cada tramo conserva evidencia revisable.

Casos de uso

El mismo motor, distintos contextos

Contexto	Que observa ResonIA	Que mejora
Equipo humano	Interrupciones, dominancia, retirada, ventanas de reparación, temas que elevan tensión.	Feedback, retrospectivas, liderazgo, cultura de conversación y seguimiento de acuerdos.
Soporte y ventas	Fricción, esfuerzo del cliente, claridad de respuesta, intentos de cierre, escalada.	QA de llamadas, entrenamiento, playbooks y priorización de revisiones.
Chatbot de texto	Reformulaciones, loops, intenciones no cubiertas, respuestas fuera de contexto.	Prompts, intents, retrieval, fallback y reglas de transferencia.
Voicebot	Bucle vocal, frustración, silencio, latencia, handoff tardío y pérdida de datos ya aportados.	Diseño conversacional, memoria de transferencia, prompts de agente y rutas de escalado.

Arquitectura de producto

Una conversación compuesta, no un archivo aislado

En la práctica, una conversación no siempre vive en un solo audio. Puede empezar con una llamada, seguir con un resumen CRM, continuar con mensajes, volver a voz y terminar con un agente humano. Por eso ResonIA trabaja con montajes: bloques de audio, texto y eventos en orden temporal.

Audio 01

Intención inicial

Chat

Contexto escrito

Audio 02

Reformulación

Evento CRM

Handoff

Audio 03

Cierre

Cada bloque se analiza localmente, pero el contexto validado se arrastra hacia delante. El segundo audio no empieza desde cero si antes hubo un mensaje importante.

Estado real · junio 2026

Qué hay construido hoy

En las últimas semanas ResonIA ha pasado de prototipo de UI a un estudio funcional con análisis real, no maquetas. El studio corre como SPA en resonia.cadences.app y todo el cómputo pesado vive en el navegador. Estas son las piezas que ya están dentro:

DSP local

Análisis acústico real en el navegador

Pipeline propio sin red ni descarga de modelos: re-muestreo a 16 kHz, ventanas de 32 ms con hop de 12 ms, RMS, ZCR, F0 con YIN (70-450 Hz) con corrección de octava, centroide / flujo / planitud / rolloff85 espectral, sonoridad A-weighted y VAD multi-criterio con hangover. La energía y la prosodia son medidas, no inventadas.

STT WebGPU

Whisper local vía Transformers.js

Transcripción 100% en el equipo del usuario sobre WebGPU, con alineamiento palabra a palabra contra la señal acústica. Cada palabra hereda su F0 medio, su rango tonal y su energía, lo que permite resaltar tramos enfáticos con base prosódica, no por adivinación.

Diarización

Carriles de hablante con k-means heurístico

V1 sin huellas vocales y sin enviar nada a servidor: clustering local sobre vector de tono, energía, ritmo y rango pitch por chunk, con selección de k por silueta, suavizado y umbral mínimo de coherencia. Etiquetas pensadas como navegación de evidencia, no como identidad biométrica.

LLM · Capas

10 capas semánticas con cita literal

intensity, discord, loop, repair, handoff, openness, avoidance, dominance, synchrony, critical. DeepSeek a través del proxy de Cadences (sin API keys del usuario), con JSON estricto y cada hallazgo respaldado por una frase literal del transcript. Si no hay cita, el hallazgo se descarta.

Heurística + IA, no IA sola

Sobre cada bloque corren dos motores en paralelo: el heurístico (rápido, transparente, basado en léxico con coincidencia por palabra completa para evitar falsos positivos del tipo "cancelar" disparando por aparecer dentro de "encantado") y el semántico IA (DeepSeek con prosodia inyectada en el prompt). Los hallazgos se muestran fusionados pero marcados por origen, para que cualquier evaluador pueda separar qué viene de regla y qué viene de inferencia.

Montaje multimodal

Conversaciones compuestas, ya en producción

El estudio acepta cargas reales: audios de WhatsApp (incluyendo el contenedor de iPhone, que rompe a la mitad de los players), MP3, WAV, OGG, y bloques de texto plano para representar el hilo escrito que rodeó a las llamadas. El orden temporal se mantiene, el contexto se arrastra y la batería de pruebas incrementales — desde un audio aislado hasta montajes mixtos con eventos de sistema — corre como red de seguridad antes de cada release.

Entrada	Procesamiento	Dónde corre
Audio (mp3, wav, ogg, m4a iPhone)	Decode → re-sample 16 kHz → DSP → Whisper → alineamiento → diarización.	Navegador (WebGPU + WASM)
Texto / evento CRM	Normalización + carry-forward hacia bloques posteriores.	Navegador
Análisis semántico	Prompt con transcript + prosodia → JSON con 10 capas + cita literal.	DeepSeek vía proxy Cadences
Heatmap temporal	Tiras RADIA-style + evidencia clickable por tramo.	Navegador (render local)

Panel de contexto incremental y hallazgos con cita literal en ResonIA — Contexto incremental (*antes de bucle bot*, *antes de evento CRM*, *antes de handoff*, *antes de cierre*) que arrastra lo validado entre bloques, y hallazgos con timestamp, capa, porcentaje de confianza y cita literal del transcript: cada tarjeta es revisable contra la evidencia.

Privacidad por arquitectura

El audio no sale del equipo

El decodificado, el DSP, el Whisper y la diarización ocurren íntegramente en el navegador. A la nube solo viaja, cuando el usuario lo solicita, el transcript ya generado junto a las métricas de prosodia agregadas — no el audio. Para los usos donde ni siquiera eso es aceptable (sanidad, RRHH internos, conversaciones sensibles), las capas heurísticas locales son funcionales por sí solas y dan ya un mapa revisable sin LLM.

Guardrails

No medir personas. Medir interacciones.

La frontera importa. ResonIA no debe decir "esta persona manipula", "este empleado es conflictivo" o "la IA sabe lo que siente el cliente". Ese lenguaje es peligroso y falso. Lo correcto es hablar de señales observables y evidencia temporal.

Evitar

Diagnosticar personalidad o intenciones ocultas.
Usar el informe para vigilar o culpar.
Convertir hipótesis en veredictos.
Separar una frase de su contexto temporal.

Preferir

Mostrar tramo, evidencia y capa activada.
Hablar de patrones observables.
Permitir confirmar, descartar o comentar hallazgos.
Separar mejora de proceso de juicio sobre personas.

Por qué Cadences

De RADIA a ResonIA

RADIA nos enseñó que una información compleja se entiende mejor como un espacio navegable: capas, calor, hallazgos y recorridos guiados. ResonIA aplica esa misma idea a conversaciones. Donde RADIA tiene cortes, volumen y hallazgos clínicos revisables, ResonIA tiene turnos, tramos, contexto incremental y hallazgos conversacionales revisables.

La oportunidad

El mercado ya tiene transcriptores, resúmenes y dashboards de contact center. Falta una capa de observabilidad conversacional que explique cómo se comporta una interacción, por qué se degrada y qué se puede mejorar: una reunión humana, un chat de soporte, un bot de texto o un voicebot.

Human conversations Text chatbots Voicebots Contact center QA Conversation design

Pruébalo

El estudio está abierto: sube un audio (puede ser tuyo, de WhatsApp, de una llamada con consentimiento) y compruébalo. Verás las 10 capas, los hallazgos con cita literal y el mapa temporal en pocos segundos. El audio no sale de tu navegador. La meta no es automatizar conclusiones, sino dar al equipo una interfaz donde cada hallazgo se pueda revisar contra la evidencia.

Abrir ResonIA