• Jaime González Gasque

Por qué la tecnología de voz es clave para un metaverso completo


Los gigantes tecnológicos de Silicon Valley están apostando fuerte por el metaverso, pero ¿qué es exactamente el metaverso? Depende de a quién le preguntes, pero en pocas palabras, el metaverso se concibe como una Internet de próxima generación donde los mundos físico y virtual se combinan a la perfección para crear experiencias inmersivas. Al igual que Internet actual no es una sola cosa sino una aglomeración de varias tecnologías, este metaverso futurista también es un tapiz de varias tecnologías y campos. El metaverso utiliza realidad aumentada, realidad virtual, videojuegos, inteligencia artificial y tecnología blockchain para crear mundos virtuales en 3D donde los usuarios pueden jugar, aprender, trabajar, socializar, etc. ¿En qué se diferencia esto de lo que ya tenemos? Hay varias diferencias, pero destacaré algunas que son relevantes desde la perspectiva de la tecnología del habla:


  • Las experiencias de metaverso están destinadas a ser multisensoriales, más inmersivas y, en última instancia, más satisfactorias para los usuarios.

  • Los usuarios pueden controlar las experiencias del metaverso con interfaces más intuitivas, no solo el teclado predeterminado o un dispositivo de apuntar y hacer clic como el mouse.

  • Los usuarios entran y salen de estos mundos virtuales persistentes utilizando avatares digitales. Los avatares digitales pueden ser más interesantes que los perfiles de usuario 2D planos actuales compuestos por imágenes y texto. Brindan una oportunidad para la autoexpresión creativa y la hacen más divertida.


En todos los casos anteriores, las tecnologías del habla tienen un papel importante que desempeñar. El papel de la tecnología del habla en el metaverso Los juegos serán una gran parte del metaverso, y agregar voz a los juegos ha sido durante mucho tiempo una búsqueda para los desarrolladores de juegos. Con controles de voz integrados, el flujo del juego es más natural. Los jugadores pueden controlar la acción y los personajes del juego simplemente usando sus voces. La curva de aprendizaje para los nuevos usuarios también se reduce, ya que los controles de voz pueden ser más intuitivos. Pero desarrollar juegos ya es un esfuerzo enorme y costoso.


Agregar controles de voz que funcionan bien para audiencias globales se suma a esta complejidad, y la voz no se ha convertido en la corriente principal de los juegos. Pero los avances en la tecnología del habla posibilitados por la inteligencia artificial hacen que agregar elementos de voz a los juegos sea más fácil que nunca. Por ejemplo, Facebook/Meta está mejorando las capacidades de reconocimiento de voz de sus auriculares de realidad virtual Oculus. Más elementos de voz en el juego e incluso juegos basados ​​​​en voz en el metaverso son algo que esperamos. Los avatares digitales serán un elemento clave del metaverso, y dado que los avatares pasan el rato e interactúan con otros avatares, la comunicación basada en texto no será suficiente; habrá una necesidad de comunicaciones de voz. Se debe implementar una variedad de tecnologías de voz (reconocimiento automático de voz, texto a voz, voz a texto y traducción automática) en segundo plano para permitir interacciones de voz fluidas.


Una palabra de precaución aquí: las redes sociales de hoy emplean una variedad de herramientas de moderación de contenido para marcar contenido abusivo o filtrar contenido que viola las políticas de prevención de acoso y seguridad de la plataforma. Estas herramientas de moderación de contenido son principalmente para contenido de texto e imagen, pero necesitaremos herramientas similares para las conversaciones en tiempo real que ocurren en el metaverso. La venta de productos del juego y artículos como máscaras que se utilizan para personalizar los avatares de los usuarios ya genera miles de millones de dólares cada año. Los entusiastas de las criptomonedas están apostando a que los tokens no fungibles (o NFT, bienes digitales cuya procedencia se puede verificar en la cadena de bloques) aumentarán aún más el comercio en torno a tales bienes digitales. Un mercado próspero para los avatares digitales basados ​​en NFT podría despegar o no, ya que algunos grandes desarrolladores de juegos no parecen entusiasmados con la idea, pero un avatar digital necesita su propia voz para la personalización. Las herramientas de voz sintética han madurado en los últimos años y los usuarios podrán agregar fácilmente las voces de los clientes a sus avatares de metaverso según sus preferencias.


La primera era de las películas fueron las películas mudas. No tenían sonido grabado sincronizado y no tenían diálogos audibles. Los “talkies” llegaron mucho más tarde, cuando la tecnología maduró y las expectativas de la audiencia evolucionaron. De manera similar, la adopción de la tecnología de voz en el metaverso ocurrirá gradualmente a medida que el propio metaverso madure con el tiempo.


Kashyap Kompella es director ejecutivo de rpa2ai Research, una firma global de analistas de la industria de IA, y coautor de Practical Artificial Intelligence: An Enterprise Playbook.

2 views