top of page
  • Writer's pictureJaime González Gasque

¿Es la voz la interfaz del metaverso?

Updated: May 27, 2022


¿Es Voice la interfaz del futuro, en el mundo real y en el Metaverso? Si asistió a Voice Summit 2022 a principios de este mes, seguramente lo creería. La simulación de voz sintética, la clonación de voz y el procesamiento y análisis del lenguaje natural basado en la voz han progresado hasta un nivel de madurez en el que vemos que la interacción del cliente basada en la voz comienza a pasar a la interacción entre humanos y computadoras, no solo en el extremo más bajo del espectro de interacción. – IVR básico, hasta interacciones comerciales complejas altamente interactivas. Hoy en día, los bots sintéticos basados ​​en voz pueden reemplazar a los humanos en una amplia gama de aplicaciones hasta las transacciones de comercio electrónico del mundo real. El predominio de los asistentes digitales basados ​​en la voz (Alexa, Siri, Google, por nombrar algunos) y los parlantes inteligentes multipropósito han llevado las interfaces de voz al hogar, el trabajo y el automóvil del hombre común. Los avances en inteligencia artificial y aprendizaje automático están trayendo transacciones conversacionales que pueden imitar con precisión las interacciones humanas e incluso las emociones a la corriente principal. Y apenas estamos comenzando a arañar la superficie de lo que es posible con una interfaz de computadora basada en voz. Más importante aún, el Metaverso pronto cambiará todo eso. Para muchos de mi generación, especialmente aquellos que crecieron fuera del mundo desarrollado donde las computadoras Tandy se vendían en el Radio Shack local, la primera exposición a las computadoras provino del mayor programa de ciencia ficción de todos los tiempos: Star Trek (La serie original)*. ¡Todavía recuerdo haber visto mi primer episodio de Star Trek y al principio del episodio el Capitán Kirk se dirige a la computadora hablándole! ¡Y ella también responde vocalmente, y tienen una conversación compleja! Para mí, la expectativa de las computadoras se estableció en ese momento. Imagínese mi sorpresa cuando pude ver a un ser humano en el mundo real interactuar con una computadora por primera vez (no se me permitió tocar la computadora. Incluso tuve que quitarme los zapatos afuera para poder entrar a la sala de computadoras). Vi al humano (mi maestro de escuela) escribir en la computadora usando un teclado (ni siquiera un mouse todavía). Sé cómo se sintió Scotty cuando en Star Trek: La película viaja en el tiempo y tiene que interactuar con una computadora en la actualidad, toma el mouse y habla confundiéndolo con un micrófono. Ahora, más de cuatro décadas después, podemos hablar con una computadora como lo hizo el Capitán Kirk. Y haz que la computadora responda. Watson de IBM venció a un humano en Jeopardy hace años, y su Debate Bot puede defenderse (sí, ella, usa una voz femenina) contra algunos de los mejores debatientes del mundo. Uso Siri para interactuar con múltiples aplicaciones en mi teléfono mientras conduzco. Múltiples sitios de compras me permiten agregar artículos a mis pedidos con solo hablar con mi altavoz inteligente. No es necesario lavarse las manos mientras cocina para contestar un teléfono. Las celebridades y los embajadores de la marca pueden crear voces en off de respaldo sin siquiera despertarse, utilizando tecnología de clonación de voz con licencia. Ahora estamos llevando 'ganar dinero mientras duermes' al siguiente nivel.


Voice Summit 2022, una de las conferencias de tecnología de voz más grandes del planeta, creada y organizada por mi buen amigo de más de una década, Pete Erickson, tenía toda esta tecnología y más a la vista. Clonación de voz sintética y ética, reconocimiento de emociones por bots de voz impulsados ​​por IA, diseño de experiencia de usuario conversacional completo para transacciones comerciales complejas y escala, escala para hacer más rápido y mejor. El mundo de la interfaz de voz ya está aquí. Dicho esto, quedan varios desafíos serios y hasta que no puedan abordarse adecuadamente, no veremos que la voz se convierta en la interfaz predominante. La mayoría de estos están parcialmente resueltos o están próximos a ser resueltos. Y algunos de ellos tienen la tecnología para resolverlos, pero las regulaciones y los estándares aún no se han puesto al día para permitir que se implementen correctamente. Aquí hay algunos en los que reflexioné mientras escuchaba a un orador tras otro hablar sobre lo que estaba disponible hoy y la promesa del mañana en un mundo centrado en la voz:


Identidad: la biometría mediante voz no es nueva. Las impresiones de voz se pueden grabar con una fidelidad lo suficientemente alta como para identificar con precisión al hablante. Pero, ¿es una huella de voz lo suficientemente confiable como para ser un mecanismo de identidad de un solo factor? - obviamente no. Pero, ¿qué tal si es lo suficientemente confiable como para ser un factor en la autenticación de múltiples factores? No realmente, en mi opinión. Hay varias razones: la primera y más importante son, por supuesto, las falsificaciones profundas y la clonación de voz. Si podemos clonar voces de celebridades para obtener licencias para patrocinios, ciertamente pueden clonarse de manera poco ética. Recopilar muestras de voz de personas normales no es difícil de hacer, y una vez que tenga suficientes muestras, puede clonar oraciones completas mediante un software disponible comercialmente. E incluso si uno descubre una manera de detectar si una voz es sintética o real, y esta tecnología existe pero está siendo superada a medida que mejora la tecnología de clonación, el desafío sigue siendo que la voz humana está sujeta a demasiadas variaciones. Nuestra voz puede cambiar debido a una enfermedad, o incluso debido al estrés. ¡Intenta iniciar sesión en la aplicación de tu aerolínea mientras llegas tarde a un vuelo y grita en ella! ¿Reconocerá el sistema mi "tarde para un vuelo" del yo "Acabo de tomar una taza de té de manzanilla relajante antes de grabar esta muestra de voz"? Y la voz humana también cambia con la edad. Un ejemplo extremo compartido por un orador en la conferencia mostró cómo la voz del ex presidente Obama cambió a medida que envejecía (rápidamente) durante los primeros años de su presidencia, ¡lo que en realidad provocó que el reconocimiento de voz fallara!


Prevención de pérdida de datos: "Por favor, hable o escriba su número de cuenta" es una frase que hemos estado escuchando en los sistemas IVR durante años. Esto funciona si estoy en un entorno seguro donde nadie puede escucharme, o si estoy en un dispositivo con un teclado donde puedo escribir mi número de cuenta. Pero, ¿qué sucede si estoy interactuando en un altavoz inteligente o en un quiosco sin dispositivo de entrada físico? ¿Digo mi # en voz alta para que la persona detrás de mí lo escuche y tal vez incluso lo grabe? ¿Qué sucede cuando el programa de interfaz de voz quiere compartir conmigo información que no quiero que nadie más a mi alrededor escuche: transacciones, saldos, información de registros médicos? ¿Cómo evitamos que los datos PII o PHI se filtren al entorno que nos rodea mientras interactuamos y otros pueden escucharnos a nosotros y al agente de voz sin darse cuenta? También está el tema de Data Loss Prevention de una conversación que ya se ha producido. Puedo tener una conversación desde un entorno seguro y compartir libremente con el agente de voz y el agente de voz conmigo. Pero, ¿cómo se almacena y protege esa conversación? ¿Se ofuscan los datos confidenciales de la grabación a medida que se almacenan? ¿Ocurre la ofuscación en Edge, lo que garantiza que mi información confidencial nunca abandone el punto de interacción, o ocurre en el extremo del servidor? ¿Se utilizan los metadatos de la conversación para entrenar la IA de voz? Y en caso afirmativo, ¿qué medidas se están tomando para evitar la ingeniería inversa de los metadatos para recuperar mi identidad? ¿Con quién se comparte la grabación de mi conversación y cómo?


Normas y estándares: ¿Quién es el propietario de los datos de voz? ¿Se considera que una grabación de mi interacción con un agente de voz es mi información y controlo cómo se almacena, usa y comparte? ¿Dónde se almacena y cómo se asegura? ¿Recibe el mismo tratamiento regulatorio que otra información sensible? En algunos regímenes regulatorios como GDPR, la respuesta es sí, la voz es información personal y recibe el mismo tratamiento que cualquier otra información mía, incluido el "derecho al olvido". Pero no todos los regímenes regulatorios son iguales, como bien sabemos. Las grabaciones de voz en los Estados Unidos que no tienen requisitos de residencia de datos pueden residir en un servidor extranjero y estar sujetas al régimen de las regulaciones y leyes de ese país (nota: esto no es exclusivo de la voz para los Estados Unidos, sino de todos los datos personales) . Además, se deben desarrollar regulaciones y estándares para definir cómo se puede usar la voz: ¿cuáles son los requisitos mínimos para poder usar una huella de voz biométrica como un solo factor para la autenticación de múltiples factores (MFA)?

Se viene el Metaverso


Eso me lleva a la conclusión n.° 1 con la que me fui de Voice Summit 2022: el metaverso está llegando. Digan lo que se pueda del lanzamiento reciente de Metaverse de Mark Zuckerberg y de la compañía matriz de Facebook que cambió su nombre a Meta, Metaverse está llegando, y su interfaz serán gafas VR/AR y, lo adivinaron, ¡voz! Una vez dentro del Metaverse, ya sea en VR completa como 'Ready Player One' o en un Metaverse híbrido usando una interfaz AR, mientras interactúo con el mundo virtual que me rodea, lo último que probablemente haga es acercarme a un teclado. y tipo La idea general es liberarse de la consola, la computadora de escritorio/portátil y los dispositivos portátiles. Para usar todos los sentidos y moverse libremente en el meta-universo. Por lo tanto, la interacción principal será a través de la voz. Las interacciones con otros ciudadanos (no solo jugadores) del metauniverso y con los agentes y bots en este mundo virtual deberán realizarse a través de la voz. Tenemos que estar preparados para esto. Desde consumidores que desconfían de interactuar a través de la voz hasta empresas que desean aprovechar Metaverse para interactuar con los clientes en lo virtual. Los activos virtuales y las identidades virtuales, las monedas virtuales existen hoy en día. El dinero fiduciario se negocia todos los días para adquirir y comercializar activos virtuales, desde avatares hasta criptomonedas. Estos serán la norma en el Metaverso y requerirán que todas las empresas y marcas establezcan sus identidades virtuales y basadas en la voz. ¿Quién será la voz de su marca en el metaverso: una celebridad para un sintetizador? Esto no es diferente a desarrollar una guía de estilo para su marca o empresa como lo hace hoy en día en el mundo físico. Esto será imperativo para establecer una identidad en el Metaverso. Y la carrera por la presencia de acaparamiento de tierras en el Metaverso ya ha comenzado.


por Sanjeev Sharma

10 views
bottom of page