La voz de la casa: cómo entrenar un concierge digital para que no suene a call center

Una respuesta correcta entregada con el tono equivocado destruye la experiencia tanto como una respuesta errónea. Esta guía documenta las seis capas que componen la voz de un restaurante de alta gama, el método para extraerla del maître antes de tocar IA, cómo se traslada al concierge digital con prompts y few-shot, y la validación mensual que evita que la herramienta drift hacia tono de call center.

David CabezaCofundador HIRO · 20+ años en hostelería

3 de mayo de 202614 min de lectura

La voz de la casa: cómo entrenar un concierge digital para que no suene a call center

HIRO · Insights

Las 21:45 de un martes

Una clienta habitual escribe por WhatsApp a las 21:45 de un martes. Lleva quince años viniendo al restaurante. Acaba de recibir una noticia familiar dura. Quiere reservar para el sábado siguiente, una cena íntima con su marido, y deja el mensaje:

"Hola, querría reservar para el sábado por la noche. Una mesa tranquila si es posible. Va a ser una semana complicada y nos apetece estar bien."

El concierge digital del grupo responde en cuatro segundos. Hay dos versiones plausibles del mensaje. Las dos transmiten exactamente la misma información. La diferencia está en la voz.

Versión A:

"Hola María, hemos procesado correctamente tu solicitud para el sábado a las 21:00 para 2 personas. Te confirmamos la reserva en una mesa tranquila según tu preferencia. ¡Estamos encantados de recibirte! Si necesitas cualquier modificación, no dudes en contactarnos."

Versión B:

"Hola María, será un placer recibiros el sábado. Os hemos guardado la mesa de la esquina, junto al ventanal. Confirmamos a las 21:00. Que la semana se haga corta. Hasta el sábado."

Ambas confirman. Ambas son correctas. Una suena a confirmación automática de banca online y la otra suena al maître. La diferencia entre A y B es lo que define si tu concierge digital suma cubiertos o los erosiona en silencio. No es el contenido. Es la voz.

Esta guía es para quien ya tiene claro que un agente conversacional puede formar parte de la operación de una casa de alta gama, y se enfrenta a la pregunta práctica que viene después: cómo se entrena para que hable como tu maître y no como un call center.

La voz de la casa no es un detalle estético: es la marca

El error frecuente es tratar la voz como decoración del producto. Como si la herramienta se eligiera por sus integraciones y luego se le pusiera "un tono cercano" como quien añade una capa de barniz. Eso produce el agente A.

En alta gama, la voz funciona al revés. La voz es lo primero que el cliente percibe y lo último que recuerda. Es la promesa silenciosa de qué tipo de relación va a tener con la casa. La carta de bienvenida, la cadencia con la que el maître describe la mesa, las palabras que escoge la sumiller, la firma del email de confirmación: todo eso pertenece a una misma voz, y esa voz es la marca operando en el oído del cliente.

Cuando la casa contrata un maître nuevo, no le entrega una hoja de instrucciones que diga "usa tono cercano pero profesional". Le pasa los primeros tres meses bajo el ala del maître senior, observando cómo se reciben las mesas, cómo se gestionan las quejas, cómo se felicitan los cumpleaños, qué fórmulas se usan y cuáles están vetadas en la casa. Esa transmisión es densa, oral y silenciosa. Funciona porque el maître nuevo es humano y la casa es un entorno donde se aprende mirando.

Un agente conversacional no aprende mirando. Aprende leyendo lo que le pongas en el prompt. Si lo que le pones son tres bullet points genéricos sobre tono, el agente reproducirá la voz de cualquier marca con tres bullet points genéricos sobre tono, que es la voz por defecto del modelo. Y la voz por defecto del modelo es la de un agente de soporte SaaS bien intencionado, neutro, optimizado para no ofender a nadie. Esa voz no es la tuya. Y cuando aterriza en un WhatsApp de un cliente que paga 200 euros por cubierto, comunica una experiencia que el cliente no firmó.

Si has leído la guía sobre chatbot vs concierge digital, recordarás que la voz era una de las siete dimensiones donde un chatbot genérico se cae en alta gama. Esta guía es esa dimensión vista por dentro: qué la compone, cómo se documenta, cómo se traslada al agente y cómo se mantiene viva.

Definición operativa: qué es la voz de la casa

Para construir un documento útil, conviene una definición que no sea de marketing.

La voz de la casa es el conjunto documentado, repetible y firmado de decisiones sobre cómo la marca habla al cliente, en cada canal, en cada momento del cliente y en cada situación emocional.

Tres atributos importan en esa definición. Documentado significa que existe un texto al que el equipo y el agente pueden referirse, no una intuición compartida. Repetible significa que dos personas distintas, leyendo el documento, escribirían el mismo tipo de mensaje. Firmado significa que la dirección, el maître y comunicación se han comprometido con esas decisiones y aceptan defender la coherencia ante el equipo y ante el cliente.

Sin documento, no hay voz auditable: hay un conjunto de hábitos del maître que el grupo confunde con la voz porque coinciden con la persona. Cuando esa persona cambia, la voz cambia. Cuando entra una sede nueva, la voz se diluye. Cuando se contrata un agente conversacional, la voz se evapora porque no había nada que cargar al prompt.

Las seis capas de la voz de la casa

La voz no es una variable. Es una pila de decisiones organizadas en capas. Cada capa se documenta por separado y se mantiene por separado. En los grupos con los que trabajamos, seis capas cubren más del 95% de los casos. Documentar menos deja huecos donde el agente improvisa; documentar muchas más produce un manual que nadie usa.

1. Registro

La primera capa es la más obvia y la que más se da por sentada. Tú o usted. Formal o cercano. Distancia o complicidad. Esta capa se decide una vez para el grupo y se aplica con coherencia.

La regla práctica que aplicamos: la voz por defecto del agente es la que el maître usa en presencial cuando recibe a un cliente nuevo en sala. Si la casa trata de usted en presencial, el agente trata de usted. Si el maître tutea desde la entrada, el agente tutea. La excepción es el cliente recurrente con relación construida: el agente puede bajar a tú si el maître ya lo hace y la decisión queda registrada en la ficha del cliente.

Lo que rompe esta capa: cambiar de tú a usted dentro de la misma conversación, o usar tú en WhatsApp y usted en email para el mismo cliente. La incongruencia comunica falta de criterio y el cliente la nota aunque no la verbalice.

2. Cadencia y longitud

La segunda capa es la que más delata la generación automática cuando se descuida. El modelo, por defecto, produce respuestas perfectamente equilibradas: tres frases de longitud similar, estructura simétrica, párrafos del mismo peso. La voz humana es asimétrica. Tiene frases largas seguidas de una de tres palabras. Tiene pausas. Permite respuestas breves cuando el contexto las pide.

La regla operativa: el agente tiene permiso explícito para responder corto. Si el cliente pregunta si la cocina puede adaptar el menú a una intolerancia, la respuesta puede ser "Sí, sin problema. Tomamos nota". No hace falta el párrafo de cinco líneas que el modelo querrá escribir por defecto.

Documentar esta capa significa decidir, por canal, cuál es la longitud media aceptable, cuál el máximo, y en qué situaciones se permite ser breve sin parecer brusco.

3. Léxico

La tercera capa es la lista. Palabras que la casa usa siempre, palabras que la casa no usa nunca, decisiones sobre anglicismos, jerga de oficio que se mantiene y jerga que se traduce.

Ejemplos del tipo de decisiones que esta capa contiene en una casa con voz definida: ¿se dice "menú degustación" o "experiencia"?, ¿"reserva" o "mesa reservada"?, ¿"chef" o "jefe de cocina"?, ¿"vino" o "referencia"?, ¿se permite "súper" como intensificador o se considera fuera de voz?, ¿la disculpa estándar empieza con "lamentamos" o con "disculpe"? Cada una de esas decisiones, multiplicada por cien interacciones al día, define la textura del trato.

La voz humana del maître es coherente porque el maître ha tomado esas decisiones miles de veces y ya no las piensa. La voz del agente es coherente solo si esas decisiones están en el prompt.

4. Fórmulas de cortesía

La cuarta capa son los mensajes recurrentes con voz propia: aperturas, cierres, agradecimientos, disculpas, confirmaciones, despedidas, felicitaciones de fechas señaladas. Estos son los momentos donde el cliente nota antes que en ningún sitio si el agente conoce la casa o no.

La diferencia entre "Estamos encantados de poder atenderle" y "Será un placer recibiros" no es preferencia estilística. La primera es una fórmula transferible que sirve a cualquier negocio del mundo. La segunda es la voz de una casa concreta que ha decidido cómo recibe. Cuando esa fórmula viene firmada por el maître durante diez años y aparece en cada email de confirmación, se convierte en una marca reconocible. Cuando el agente la reproduce, el cliente percibe continuidad.

Documentar esta capa significa escribir literalmente las fórmulas: cinco aperturas modelo, cinco cierres, cinco mensajes de felicitación, cinco disculpas. El agente las usa como banco de referencia, no como copia literal, pero le dan el centro de gravedad del que el modelo carece por defecto.

5. Manejo emocional

La quinta capa es la más difícil de delegar y la que más diferencia. Cómo trata la casa una queja. Cómo responde a una felicitación. Cómo escribe una condolencia. Cómo gestiona un conflicto sin ceder ni endurecerse. Cómo le habla a un cliente que llega con buena noticia y a otro que llega con un problema.

Esta capa rara vez se delega del todo al agente. Lo que sí se delega es la primera respuesta empática y la captura limpia del contexto antes de escalar al maître. Documentar esta capa significa decidir tres cosas: qué tipo de mensajes nunca contesta el agente y siempre escala (típicamente, condolencias y conflictos abiertos), qué tipo de mensajes contesta con un tono específico antes de escalar, y qué fórmulas usa para escalar sin que el cliente se sienta despachado.

El error frecuente: dejar al modelo improvisar empatía. La empatía improvisada por defecto suena a manual de habilidades blandas. La empatía documentada en cinco fórmulas concretas suena a la casa.

6. Coherencia multicanal

La sexta capa es la que une las anteriores. La voz de la casa es la misma en WhatsApp, en email, en la web, en la respuesta a una reseña y en presencial, con adaptaciones legítimas por canal.

Adaptaciones legítimas: el WhatsApp permite menos formalidad ortotipográfica que el email; la web permite más narrativa que un mensaje transaccional; la respuesta a una reseña en público requiere un nivel de cuidado distinto al privado. Lo que no es legítimo: cambiar de registro entre canales, usar fórmulas de cortesía distintas en email y WhatsApp para el mismo cliente, o tener una voz aspiracional en la web y otra funcional en las confirmaciones.

Cuando el concierge digital opera en varios canales, esta capa es la que evita que el cliente perciba a la casa como dos negocios distintos según por dónde le llegue el mensaje.

Por qué un concierge digital sin documento de voz hereda voz de call center por defecto

Esta sección suele ser incómoda porque la respuesta es contraintuitiva: el problema no es el modelo, es lo que se le pone delante.

Los modelos conversacionales modernos, sin instrucciones específicas, producen una voz reconocible: cortés, equilibrada, ligeramente formal, optimizada para no ofender. Es la voz de un agente de soporte de SaaS bien intencionado. No es mala voz. Es voz de nadie.

Esta voz por defecto existe porque el modelo se ha entrenado con cantidades masivas de texto donde esa voz domina (atención al cliente, soporte técnico, comunicación corporativa) y porque el ajuste fino posterior la refuerza para evitar respuestas problemáticas. Cuando un proveedor te entrega un agente "listo para usar", lo que estás recibiendo es esa voz por defecto con el nombre de tu casa puesto delante.

Para que el agente hable con la voz de tu casa, alguien tiene que decirle explícitamente, con instrucciones prescriptivas y ejemplos concretos, cómo es tu voz. Sin esas instrucciones, el modelo no improvisará tu voz. Improvisará la voz por defecto, que es la que ha visto miles de millones de veces en su entrenamiento.

La consecuencia operativa: si no tienes documento de voz, no contrates concierge digital. Lo que vas a desplegar es la voz por defecto vendida como tuya, y vas a pagar por degradar tu marca ante tus clientes recurrentes. Documenta primero, despliega después.

El método para extraer la voz del equipo antes de tocar IA

Documentar la voz no es una sesión de creatividad. Es un trabajo de extracción. La voz ya existe en el equipo; lo que no existe es el documento. El método de cuatro pasos que aplicamos cuando entramos en un grupo:

Recopilación de evidencia. Antes de redactar nada, el equipo exporta cien o más mensajes reales escritos por el maître, el responsable de reservas y los camareros senior al cliente: WhatsApp, email, respuestas a reseñas, confirmaciones, gestión de quejas, felicitaciones, recordatorios. Anonimizados. La regla es cantidad y diversidad de canal, no calidad estética. La voz que estamos buscando es la real, no la aspiracional.

Sesiones de extracción. Dos sesiones de dos horas con cuatro personas: dirección, maître, jefe de reservas y un camarero senior con criterio. Sobre los mensajes recogidos, el grupo extrae patrones por capa, identifica decisiones tomadas implícitamente y resuelve las que no estaban resueltas. Lo que sale de estas sesiones son reglas escritas, no impresiones.

Lo más útil que pasa en estas sesiones: descubrir que la casa no tiene una voz definida en una capa concreta. Por ejemplo, la mitad del equipo tutea por WhatsApp y la otra mitad trata de usted, sin criterio claro. Esa es información valiosa: una decisión que la casa nunca había tomado y que ahora hay que cerrar antes de cargarla al prompt.

Redacción del documento. El resultado es un documento de entre cuatro mil y siete mil palabras estructurado en las seis capas. Cada capa contiene reglas duras (esto siempre, esto nunca), tres a cinco ejemplos concretos (mensajes modelo y mensajes rechazados) y excepciones documentadas. Cada capa termina con una sección breve de "qué hacer en duda".

Validación con tres firmas. Dirección firma porque define la marca. Maître firma porque encarna la voz en presencial y va a auditar la coherencia. Comunicación firma porque la voz cruza canales que él gestiona. Sin las tres firmas, el documento se queda sesgado y nadie se siente dueño de defenderlo.

El documento no es un PDF muerto. Se versiona como archivo vivo, con historial. La voz del grupo cambia con el grupo: nuevas sedes, nuevos clientes, nuevos canales, evolución del oficio.

Cómo se traslada el documento al concierge digital

El documento no se pega entero en el prompt. Si lo haces, el modelo se pierde, prioriza mal, y la respuesta sigue siendo neutra. La traslación al agente requiere una arquitectura concreta.

Bloque 1: system prompt con reglas duras de las tres primeras capas. Registro, cadencia y léxico van como instrucciones imperativas en el system prompt. "Trata de usted siempre, salvo cuando la ficha del cliente marque tuteo confirmado." "Permite respuestas de una sola frase cuando el contexto sea transaccional." "No uses las siguientes palabras: ... No uses las siguientes fórmulas: ... ." Estas son reglas binarias, evaluables, que el modelo puede aplicar sin interpretar.

Bloque 2: ejemplos few-shot de las capas 4 y 5. Fórmulas de cortesía y manejo emocional se entregan como cinco a diez conversaciones modelo escritas por el maître que el agente usa como referencia de tono y estructura. Estos ejemplos importan más que ningún adjetivo abstracto. La diferencia entre un agente que suena a la casa y un agente que suena a manual la dan los ejemplos few-shot, no los adjetivos del prompt.

Bloque 3: restricciones negativas explícitas. Al final del prompt, una lista de vetos. Marcas tipográficas que delatan IA (rayas largas, ciertos emojis, comillas curvadas inconsistentes). Fórmulas vetadas ("estaré encantado de", "no dudes en contactarnos", "espero haberte ayudado"). Tipos de afirmación que el agente no puede hacer ("garantizamos", "es un placer absoluto", "te lo aseguro"). Las restricciones negativas hacen más por la voz que cualquier instrucción positiva.

Bloque 4: anexo por sede, si aplica. Si el grupo tiene varias sedes con voces ligeramente distintas, el agente recibe el documento maestro más un anexo de quinientas palabras como máximo con las desviaciones permitidas para esa sede, leído de la ficha del cliente o de la conversación.

Este trabajo lo hace el partner técnico junto con el maître. El partner técnico sabe cómo se construye un prompt con jerarquía y few-shot. El maître sabe cuándo el resultado suena a la casa. Ninguno de los dos puede hacerlo solo.

Errores típicos al "entrenar" voz y por qué fallan

Los siete errores que vemos repetidos cuando una casa intenta entrenar voz sin método:

Pegar el documento entero en el prompt sin priorizar. El modelo no jerarquiza. Lo que va al principio del system prompt importa más que lo que va al final. Sin priorización, la respuesta media se vuelve un compromiso entre todas las reglas y deja de tener voz reconocible.

Usar adjetivos vagos en lugar de ejemplos concretos. "Cercano pero profesional" no significa nada al modelo. Tres mensajes que el maître firmaría y tres que rechazaría enseñan más en cinco líneas que un párrafo de adjetivos.

Confiar en que el modelo "lo capte solo" si la marca es clara. No lo capta. El modelo reproduce lo que tiene delante. Lo que no esté en el prompt no existe para el agente.

No actualizar el documento cuando cambian el menú, la marca o el equipo. El documento desactualizado produce un agente que habla de cosas que la casa ya no es. El cliente lo nota en la primera incongruencia entre la conversación digital y la experiencia presencial.

Dejar que el agente use marcas tipográficas que delatan IA. La raya larga, esa que el modelo coloca por defecto entre cláusulas en lugar de coma o paréntesis, es una de las más obvias. Ciertos emojis. Comillas curvadas inconsistentes. Estructuras tripartitas perfectamente equilibradas. Estas marcas hacen que el cliente, sin saber por qué, sienta que está hablando con una máquina.

Falsa cercanía corporativa. "¡Hola Marta! ¿Cómo va tu día?" no es voz humana, es voz de bot pretendiendo ser cercano. La voz humana de un maître en alta gama no abre así. Si la casa abre con "buenos días" y un saludo medido, el agente abre así.

Comprometerse a más de lo que la casa puede cumplir. El modelo, optimizado para ser servicial, tiende a prometer ("garantizamos", "por supuesto que sí", "será exactamente como deseas"). La voz de la casa promete con cuidado. Si la cocina no garantiza una mesa concreta, el agente no la garantiza. Esta restricción se documenta y se vigila en auditoría.

El comité mensual de tono: la validación que evita el drift

El concierge digital no se entrena una vez y se deja correr. Sin auditoría, drift hacia la voz por defecto en seis a doce semanas y el equipo no nota cuándo empezó a sonar distinto.

La validación que aplicamos es un comité mensual de noventa minutos con tres asistentes: maître, F&B Director y partner técnico. Se eligen veinte conversaciones aleatorias del último mes y se puntúan contra las seis capas. La puntuación no es subjetiva: cada capa tiene reglas duras del documento que se cumplen o no se cumplen.

El umbral aceptable es 85% de adherencia agregada. Por debajo, hay un problema. Si el fallo es concentrado en una capa (todas las conversaciones fallan en cadencia, por ejemplo), esa capa se refuerza en el prompt. Si el fallo es transversal, conviene revisar el documento maestro: puede ser que la voz haya evolucionado y el documento esté desactualizado.

El comité produce dos tipos de output. Decisiones técnicas (ajustes al prompt o al few-shot) y decisiones de voz (ajustes al documento). Ambas se documentan, ambas se versionan y ambas se revisan en el comité del mes siguiente.

Este es el trabajo invisible que separa al concierge digital que envejece bien del que se descompone en silencio. No es glamuroso, no se vende en la propuesta comercial, y es exactamente lo que la mayoría de proveedores no incluye en el contrato base.

Cuándo no es la IA, es la falta de documento

El último frame práctico, para el F&B Director que está leyendo esto y se pregunta si su agente actual tiene problema de modelo o de método.

Tres preguntas diagnósticas. Si las tres respuestas son "no", el problema es de documento, no de IA.

¿Existe un documento de voz firmado por dirección, maître y comunicación, con menos de doce meses de antigüedad y estructurado en al menos cuatro capas?

¿El equipo técnico que mantiene el agente tiene acceso a ese documento y lo ha trasladado al system prompt y a los ejemplos few-shot, no solo a un brief de tres líneas?

¿Existe un comité mensual de tono que audita conversaciones reales contra ese documento y produce ajustes documentados?

Si las tres respuestas son "no", cambiar de proveedor no resolverá el problema. El nuevo proveedor reproducirá la voz por defecto sobre el mismo vacío de documento. El trabajo está en la casa, no en la herramienta.

Si las tres respuestas son "sí" y el agente sigue sin sonar a la casa, ahí sí, el problema puede ser técnico: prompt mal construido, modelo desactualizado, integración que pierde contexto. Esa conversación es legítima. Pero llega después.

Cierre

El concierge digital de un restaurante de alta gama no es un producto de catálogo. Es la voz de la casa operando en canales digitales con la misma coherencia con la que opera en sala. Esa voz no nace en el prompt: nace en el equipo, se documenta con método, se traslada con arquitectura y se mantiene con auditoría.

Saltarse cualquiera de esos cuatro pasos produce un agente correcto que no es de la casa. El cliente lo nota. Y deja de venir, no por una mala respuesta, sino por la sensación acumulada de que la marca ha empezado a hablar con voz prestada.

Si tu grupo está evaluando un concierge digital y todavía no tiene documento de voz, el orden correcto es claro. Documento primero, herramienta después. Y si el partner que te ha vendido el agente no te ha pedido el documento antes de empezar, es información sobre el partner.

Preguntas frecuentes

Lo que la gente pregunta sobre este protocolo

¿Por qué la voz pesa más que el contenido de la respuesta en alta gama?

Porque el cliente que paga 200 euros por cubierto no compra solo comida, compra una relación con la casa. Esa relación se construye y se rompe en el tono. Una confirmación de reserva entregada con "hemos procesado correctamente su solicitud" comunica una experiencia distinta a la entregada con "será un placer recibirla el viernes, Marta". El contenido es el mismo, la promesa es otra. En casual de volumen alto el tono pesa menos porque la transacción es funcional. En alta gama, el tono es la marca: si el agente digital habla como un call center, el cliente concluye que la casa es un call center con buena cocina. Y deja de venir.

¿Cuánto tiempo lleva documentar la voz de la casa antes de tocar IA?

Entre dos y cuatro semanas si la casa ya tiene un maître con criterio firme y un equipo dispuesto a sentarse a documentar. La primera semana se dedica a recoger evidencia: cien o más mensajes reales del maître y del equipo de reservas, cribados por canal y por momento del cliente. La segunda semana se hacen las sesiones con dirección, maître y dos personas senior de sala para extraer reglas, vetos y fórmulas. La tercera y cuarta se redacta el documento estructurado en seis capas, se valida con el equipo y se versiona. Las casas que intentan saltarse este paso y entrenan la IA con un brief de tres bullet points terminan con un agente que habla como un genérico, lo que es el mismo problema que tenían antes.

¿Quién tiene que firmar el documento de voz?

Tres firmas, no una. La dirección firma porque el documento define la marca y compromete recursos para mantenerlo. El maître firma porque es quien encarna la voz en presencial y va a auditar la coherencia mensual. El responsable de marketing o de comunicación firma porque la voz cruza canales que él gestiona (web, email, RRSS) y debe ser coherente. Si solo firma uno, el documento se queda sesgado: dirección sin maître produce voz corporativa, maître sin dirección produce voz personal no escalable, marketing sin maître produce voz aspiracional desconectada del servicio real. Las tres firmas obligan a una conversación incómoda que el documento necesita para ser útil.

¿Tú o usted? ¿Cómo se decide?

La regla operativa que aplicamos: la voz por defecto es la que el maître usa en presencial cuando recibe a un cliente nuevo en sala. Si la casa trata de usted en presencial, el agente trata de usted; si tutea, tutea. La excepción es el cliente recurrente con relación construida: ahí el agente baja a tú si el maître ya lo hace, y la decisión queda registrada en la ficha del cliente. Mezclar registros en la misma conversación, o cambiar de tú a usted entre canales, comunica falta de criterio. La decisión hay que tomarla una vez, dejarla escrita y aplicarla con coherencia. Y conviene revisarla cada vez que entra una sede nueva al grupo, porque la voz de Madrid puede no ser la voz de Marbella.

¿Cómo evito que el agente suene a IA?

Cuatro reglas concretas que cubren el 80% del problema. Una, prohibir explícitamente las marcas tipográficas y léxicas que delatan la generación automática (rayas largas, ciertos emojis, fórmulas como "estaré encantado de" o "no dudes en"). Dos, sustituir adjetivos vagos del estilo "cercano pero profesional" por ejemplos concretos en el prompt: tres mensajes que el maître firmaría y tres que rechazaría. Tres, limitar la longitud y la simetría: las respuestas humanas son irregulares, las del modelo tienden a ser perfectamente equilibradas en estructura. Cuatro, dar al modelo permiso para responder corto cuando el contexto lo pide; el agente que siempre escribe párrafos elegantes suena tan robótico como el que solo emite confirmaciones. La voz humana se permite ser breve.

¿Y si tengo varias sedes con voces ligeramente distintas?

El documento maestro define la voz del grupo, lo que es innegociable. Cada sede añade un anexo de quinientas palabras como máximo con las desviaciones permitidas: una sede más informal, una sede con un sumiller con vocabulario técnico característico, una sede que tutea por contexto turístico. El concierge digital recibe el documento maestro más el anexo de la sede que está atendiendo en cada conversación, leyendo de la ficha del cliente la sede asociada. Es el mismo principio que en sala: el grupo tiene una voz reconocible, cada sede tiene matices, y el cliente percibe coherencia con personalidad. Lo que no funciona es tener seis voces distintas sin documento maestro: el cliente que reserva en dos sedes recibe dos casas diferentes y deja de confiar en la marca.

¿Cuándo conviene revisar el documento de voz?

Tres disparadores fijos. Cuando entra una sede nueva al grupo, porque hay que decidir si se adapta o se mantiene la voz maestra. Cuando cambia el maître responsable, porque su criterio se ha incorporado al documento y conviene confirmar que la nueva persona suscribe esa voz o requiere ajustes. Cuando el modelo conversacional del concierge digital se actualiza, porque las versiones nuevas a veces drift en tono por defecto y el equipo nota que el agente ha empezado a sonar distinto sin que se haya tocado nada. Más allá de esos tres, una revisión anual ligera es saludable: confirmar que el documento sigue siendo el espejo de cómo habla la casa, no una foto antigua que el equipo ya no reconoce.

¿Cómo mido si la voz del concierge digital está funcionando?

Cuatro mediciones, mensual. Una, auditoría de muestra aleatoria: veinte conversaciones puntuadas contra cada una de las seis capas del documento por el maître; el umbral aceptable es ochenta y cinco por ciento de adherencia, por debajo se ajusta. Dos, NPS específico de la conversación digital comparado con NPS del cliente que solo pasó por humano; una diferencia mayor de diez puntos a la baja indica problema de tono. Tres, tasa de "esto no parece la casa" capturada en feedback abierto del cliente y en quejas que llegan al equipo de sala. Cuatro, lectura cualitativa del propio maître: si al revisar conversaciones siente que tiene que reescribir más de tres frases por mensaje, hay que volver al documento o al prompt. Las cuatro se llevan a comité; las cuatro juntas dicen más que cualquiera por separado.

¿Puedo copiar la voz de un competidor con buena reputación?

No, y la razón es operativa, no romántica. La voz de la casa no es un estilo elegible de catálogo: es el resultado acumulado del trato del maître, del léxico de la cocina, de las decisiones de la dirección sobre qué se promete y qué no. Copiar la voz de otro restaurante produce un agente que habla de algo que tu casa no es, y el cliente lo nota en la primera incongruencia entre la conversación digital y la experiencia presencial. Lo que sí se puede hacer, y conviene hacer, es estudiar cómo otras casas estructuran su voz para identificar capas que tú no habías documentado. Pero la voz que va al prompt es la tuya, extraída del equipo, no la prestada. Si la casa no tiene voz propia identificable, el problema es anterior a la IA y no se resuelve con un concierge digital.

¿Quieres ver cómo lo aplicamos en tu grupo?

Construimos el perfil unificado del cliente y el concierge digital que captura la información desde la primera conversación.

Agenda una demo de 20 min Ver cómo funciona

AnteriorKPIs del concierge digital: cómo medir si funciona o erosiona la experiencia en alta gama

SiguienteChatbot vs concierge digital: por qué un bot genérico falla en un restaurante de 200 € de cubierto