Verificando acceso interno...

ElevenLabs — explicado simple

Publicado:28 abr 2026

Para CEO, SSM y cualquier persona del equipo que tenga que contar al cliente o a un partner qué hacemos con la voz, sin entrar en cómo. Si quieres el detalle técnico, lee ElevenLabs · configuración técnica.

Índice

¿Qué es ElevenLabs?
¿Por qué lo usamos nosotros?
El reparto: qué pone ElevenLabs y qué ponemos nosotros
La vida de una llamada (en román paladino)
¿Qué ve el cliente final?
¿Cuánto cuesta y qué cobramos?
Cómo contarlo en una llamada de ventas

1. ¿Qué es ElevenLabs?

ElevenLabs es una empresa que hace voces de IA hiperrealistas. Empezaron clonando voces y ahora también ofrecen "agentes conversacionales": una IA que escucha, entiende y responde por voz en tiempo real, como si hablaras con una persona.

No son los únicos (Google, OpenAI y Azure tienen lo suyo), pero hoy son los mejores en español natural y los más fáciles de integrar con telefonía. Por eso los elegimos.

2. ¿Por qué lo usamos nosotros?

Porque resuelven solos tres cosas que son complicadísimas de hacer bien:

Que la voz suene humana, no de robot. Y si el cliente quiere, podemos clonar la voz del dueño.
Que el agente sepa cuándo hablar y cuándo callarse: las pausas, las interrupciones, los "ajá". Eso se llama turn-taking y es donde el 90 % de los asistentes de voz fallan.
Que la latencia sea baja (menos de 1 segundo entre que el cliente termina de hablar y el asistente responde). Si tarda 3 segundos, el cliente cuelga.

Si tuviéramos que hacer esto nosotros desde cero, serían 6 meses de un equipo de 3 personas. ElevenLabs nos lo da hecho por unos céntimos por minuto.

3. El reparto: qué pone ElevenLabs y qué ponemos nosotros

Esto es lo más importante de entender. Nosotros no somos ElevenLabs y no vendemos ElevenLabs. Vendemos un asistente que usa ElevenLabs por dentro, igual que un coche usa motor Bosch sin ser un Bosch.

Lo pone ElevenLabs	Lo ponemos nosotros (Cadences)
La voz que se oye (clonada o de catálogo).	El número de teléfono y la integración con Twilio.
El motor que entiende lo que dice el cliente y genera la respuesta (basado en GPT-4o-mini de OpenAI).	El cerebro de negocio: qué sabe el asistente del cliente, del catálogo, de la agenda, de las alergias, de los pedidos…
Que las pausas e interrupciones suenen naturales.	Que el asistente haga cosas de verdad: crear pedido, mandar WhatsApp, reservar mesa, escalar a una persona.
Grabación de audio crudo.	Transcripción analizada, resumen, intención (queja / consulta / pedido), nivel de urgencia, lead score, panel para que el cliente lo vea.
—	Memoria multi-canal: si el cliente llamó ayer y hoy escribe por WhatsApp, el asistente lo sabe.
—	Onboarding del cliente, formación, panel, soporte y todo lo que tiene que pasar para que esto funcione en su negocio real.

4. La vida de una llamada (en román paladino)

Suena el teléfono del restaurante. En vez de descolgar la dueña, descuelga nuestro número de Twilio.
Twilio nos dice: "tienes una llamada, ¿qué hago con ella?".
Nosotros le decimos: "abre un canal de audio en directo y mándalo a este otro sitio" — ese sitio es ElevenLabs, donde está el agente del cliente configurado con su voz y su personalidad.
Mientras hablan, ElevenLabs nos pregunta cositas que no sabe: "¿cuál es el horario hoy?", "¿este pedido existe?", "¿hay mesa para 4 a las 21:00?". Nosotros le respondemos consultando la base de datos del cliente.
Si en algún momento toca actuar (crear el pedido, mandar el link de pago por WhatsApp, reservar la mesa), ElevenLabs nos dice "haz esto" y nosotros lo hacemos en la herramienta del cliente (Shopify, su calendario, etc.).
Cuando la llamada termina, otra IA nuestra escucha la transcripción y genera un resumen + qué hay que hacer después. Eso aparece en el panel del cliente al instante.

5. ¿Qué ve el cliente final?

Un número de teléfono propio (o el suyo de siempre redirigido). Quien llame oye la voz del asistente.
Un panel web (voice.cadences.app) donde ve todas las llamadas con resumen, transcripción, audio y "qué hay que hacer".
Notificaciones por WhatsApp si hay algo urgente (queja, escalado).
Estadísticas: cuántas llamadas se atienden solas, cuántas escalan, intenciones más frecuentes, horas pico.

6. ¿Cuánto cuesta y qué cobramos?

Por dentro pagamos a ElevenLabs ~ 0,08 € por minuto de conversación (incluye su modelo + OpenAI). Twilio aparte (~ 0,01 € / minuto en España). Es decir, una llamada de 5 min nos cuesta ~ 0,45 €.

Al cliente le cobramos por plan mensual (no por minuto, lo cual es clave para vender):

Inbox / Esencial: 99–149 €/mes. Asistente en 1 canal, hasta X minutos/mes.
Pro / Multi-canal: 249–399 €/mes. Voz + WhatsApp + memoria cross-canal.
Implantación: tarifa única de alta (1.500–7.500 € según complejidad) que cubre voz clonada, conectores, formación.

Margen sano en planes mensuales con uso normal (~500 min/mes → ~25 € de coste real, cobramos 99–399 €). Picos de uso se cobran aparte como packs de minutos.

7. Cómo contarlo en una llamada de ventas

Frase de elevator (memorizar):

"Te montamos un asistente de voz con tu propia voz, que coge el teléfono cuando tú no puedes, sabe de tu negocio (catálogo, agenda, clientes), y hace cosas de verdad: reservar, crear pedidos, mandar WhatsApp. Y todo lo que pasa lo ves en tu panel con resumen y qué hay que hacer."

Lo que NO contar nunca:

"Es ElevenLabs". El cliente no quiere comprar piezas, quiere comprar el resultado. Si pregunta, decimos: "por dentro usamos los mejores motores de voz del mercado, ElevenLabs y OpenAI, y los conectamos con tu negocio".
"Es ChatGPT que habla". Es mucho más: es ChatGPT + voz natural + telefonía + tu base de datos + acciones.
Detalles de coste interno (los céntimos por minuto). No aporta nada y mata el valor percibido.

Lo que SÍ contar:

Voz clonada propia (es lo que más impresiona en la demo).
Multi-canal: "hoy te coge el teléfono, mañana también el WhatsApp y el email".
Que aprende: cuanto más se usa, más sabe del negocio.
Que el cliente sigue siendo el dueño de su voz, sus datos y su número.

Última actualización: 2026-04-28 · Versión técnica para implementación: → ElevenLabs · configuración técnica.