Alberto de Torres, profesor de ESIC

¿Qué es Google Duplex?

©Google Duplex

Actualizado 19 | 08 | 2021 11:52

Google Duplex

Google Duplex es un sistema integrado en el asistente de Google que, basado en inteligencia artificial, crea nuevas experiencias de voz que ayudan a realizar tareas por teléfono, permitiéndonos realizar muchas de estas gestiones de forma sencilla.

Solo tenemos que pedirle, mediante voz, que haga una reserva en un determinado restaurante, por ejemplo, e introducir algunos parámetros como el número de personas, la fecha, la hora y el nombre de quien reserva. Una vez hecho esto, el Asistente de Google utilizará automáticamente Duplex para hacer una llamada telefónica a ese restaurante y reservar por nosotros. Después, el sistema enviará una confirmación.

A la hora de realizar la reserva, Duplex imitará la voz humana para que la conversación telefónica sea natural, añadiendo incluso interjecciones como “hum” para que parezca más humano. Asimismo, Duplex reproduce fielmente las cadencias de las conversaciones, como puede ser la latencia en las respuestas. Así, con Duplex, Google ha logrado un sistema de voz muy avanzado, aunque en algunos momentos hace alguna inflexión poco natural y robótica.

¿Qué tecnología utiliza Duplex?

La tecnología que usa Duplex está basada en el procesamiento del lenguaje natural. Para ello, se necesita un traductor de voz a texto preciso con el que entender lo que le dice la persona al teléfono.

A continuación, otro modelo tiene que interpretar el contexto del objetivo de la llamada telefónica y luego hay que crear una respuesta adecuada.

Finalmente, un modelo de conversión de texto a voz traduce esta respuesta en una voz similar a la humana que la diga por teléfono. Estos pasos deben repetirse constantemente a lo largo de la llamada telefónica en tiempo real, por lo que los modelos deben ser precisos y rápidos.

Google Duplex utiliza una red neuronal recurrente combinada con la tecnología de reconocimiento automático del habla (RAH o, en inglés, ASR: automatic speech recognition) de Google, los parámetros de la conversación (por ejemplo: la hora deseada, los nombres) y un sistema de conversión de texto a voz (TTS: text-to-speech en inglés).

Me interesa

 


Cargando noticia...