Verificando acceso interno...
ElevenLabs — explicado simple
Para CEO, SSM y cualquier persona del equipo que tenga que contar al cliente o a un partner qué hacemos con la voz, sin entrar en cómo. Si quieres el detalle técnico, lee ElevenLabs · configuración técnica.
1. ¿Qué es ElevenLabs?
ElevenLabs es una empresa que hace voces de IA hiperrealistas. Empezaron clonando voces y ahora también ofrecen "agentes conversacionales": una IA que escucha, entiende y responde por voz en tiempo real, como si hablaras con una persona.
No son los únicos (Google, OpenAI y Azure tienen lo suyo), pero hoy son los mejores en español natural y los más fáciles de integrar con telefonía. Por eso los elegimos.
2. ¿Por qué lo usamos nosotros?
Porque resuelven solos tres cosas que son complicadísimas de hacer bien:
- Que la voz suene humana, no de robot. Y si el cliente quiere, podemos clonar la voz del dueño.
- Que el agente sepa cuándo hablar y cuándo callarse: las pausas, las interrupciones, los "ajá". Eso se llama turn-taking y es donde el 90 % de los asistentes de voz fallan.
- Que la latencia sea baja (menos de 1 segundo entre que el cliente termina de hablar y el asistente responde). Si tarda 3 segundos, el cliente cuelga.
Si tuviéramos que hacer esto nosotros desde cero, serían 6 meses de un equipo de 3 personas. ElevenLabs nos lo da hecho por unos céntimos por minuto.
3. El reparto: qué pone ElevenLabs y qué ponemos nosotros
Esto es lo más importante de entender. Nosotros no somos ElevenLabs y no vendemos ElevenLabs. Vendemos un asistente que usa ElevenLabs por dentro, igual que un coche usa motor Bosch sin ser un Bosch.
| Lo pone ElevenLabs | Lo ponemos nosotros (Cadences) |
|---|---|
| La voz que se oye (clonada o de catálogo). | El número de teléfono y la integración con Twilio. |
| El motor que entiende lo que dice el cliente y genera la respuesta (basado en GPT-4o-mini de OpenAI). | El cerebro de negocio: qué sabe el asistente del cliente, del catálogo, de la agenda, de las alergias, de los pedidos… |
| Que las pausas e interrupciones suenen naturales. | Que el asistente haga cosas de verdad: crear pedido, mandar WhatsApp, reservar mesa, escalar a una persona. |
| Grabación de audio crudo. | Transcripción analizada, resumen, intención (queja / consulta / pedido), nivel de urgencia, lead score, panel para que el cliente lo vea. |
| — | Memoria multi-canal: si el cliente llamó ayer y hoy escribe por WhatsApp, el asistente lo sabe. |
| — | Onboarding del cliente, formación, panel, soporte y todo lo que tiene que pasar para que esto funcione en su negocio real. |
4. La vida de una llamada (en román paladino)
- Suena el teléfono del restaurante. En vez de descolgar la dueña, descuelga nuestro número de Twilio.
- Twilio nos dice: "tienes una llamada, ¿qué hago con ella?".
- Nosotros le decimos: "abre un canal de audio en directo y mándalo a este otro sitio" — ese sitio es ElevenLabs, donde está el agente del cliente configurado con su voz y su personalidad.
- Mientras hablan, ElevenLabs nos pregunta cositas que no sabe: "¿cuál es el horario hoy?", "¿este pedido existe?", "¿hay mesa para 4 a las 21:00?". Nosotros le respondemos consultando la base de datos del cliente.
- Si en algún momento toca actuar (crear el pedido, mandar el link de pago por WhatsApp, reservar la mesa), ElevenLabs nos dice "haz esto" y nosotros lo hacemos en la herramienta del cliente (Shopify, su calendario, etc.).
- Cuando la llamada termina, otra IA nuestra escucha la transcripción y genera un resumen + qué hay que hacer después. Eso aparece en el panel del cliente al instante.
5. ¿Qué ve el cliente final?
- Un número de teléfono propio (o el suyo de siempre redirigido). Quien llame oye la voz del asistente.
- Un panel web (
voice.cadences.app) donde ve todas las llamadas con resumen, transcripción, audio y "qué hay que hacer". - Notificaciones por WhatsApp si hay algo urgente (queja, escalado).
- Estadísticas: cuántas llamadas se atienden solas, cuántas escalan, intenciones más frecuentes, horas pico.
6. ¿Cuánto cuesta y qué cobramos?
Por dentro pagamos a ElevenLabs ~ 0,08 € por minuto de conversación (incluye su modelo + OpenAI). Twilio aparte (~ 0,01 € / minuto en España). Es decir, una llamada de 5 min nos cuesta ~ 0,45 €.
Al cliente le cobramos por plan mensual (no por minuto, lo cual es clave para vender):
- Inbox / Esencial: 99–149 €/mes. Asistente en 1 canal, hasta X minutos/mes.
- Pro / Multi-canal: 249–399 €/mes. Voz + WhatsApp + memoria cross-canal.
- Implantación: tarifa única de alta (1.500–7.500 € según complejidad) que cubre voz clonada, conectores, formación.
Margen sano en planes mensuales con uso normal (~500 min/mes → ~25 € de coste real, cobramos 99–399 €). Picos de uso se cobran aparte como packs de minutos.
7. Cómo contarlo en una llamada de ventas
Frase de elevator (memorizar):
"Te montamos un asistente de voz con tu propia voz, que coge el teléfono cuando tú no puedes, sabe de tu negocio (catálogo, agenda, clientes), y hace cosas de verdad: reservar, crear pedidos, mandar WhatsApp. Y todo lo que pasa lo ves en tu panel con resumen y qué hay que hacer."
Lo que NO contar nunca:
- "Es ElevenLabs". El cliente no quiere comprar piezas, quiere comprar el resultado. Si pregunta, decimos: "por dentro usamos los mejores motores de voz del mercado, ElevenLabs y OpenAI, y los conectamos con tu negocio".
- "Es ChatGPT que habla". Es mucho más: es ChatGPT + voz natural + telefonía + tu base de datos + acciones.
- Detalles de coste interno (los céntimos por minuto). No aporta nada y mata el valor percibido.
Lo que SÍ contar:
- Voz clonada propia (es lo que más impresiona en la demo).
- Multi-canal: "hoy te coge el teléfono, mañana también el WhatsApp y el email".
- Que aprende: cuanto más se usa, más sabe del negocio.
- Que el cliente sigue siendo el dueño de su voz, sus datos y su número.