
La tecnología de voz es una de las tecnologías más interesantes que se utilizan ampliamente en la actualidad. Desde la introducción de los asistentes de voz en el uso generalizado en la década de 2010, la tecnología de voz ha seguido impresionando y ayudando a millones de personas en todo el mundo. Y ahora, con la incorporación de nuevas tecnologías como el aprendizaje profundo y las redes neuronales, cada día se descubren más casos de uso de la tecnología de voz.
Actualmente, muchos estadounidenses utilizan la tecnología de voz para controlar automóviles, sistemas de seguridad, electrodomésticos como televisores y aspiradoras y otros dispositivos inteligentes. Las empresas no se quedan atrás y utilizan la tecnología para todo, desde automatizar las líneas de atención al cliente hasta proporcionar alternativas asistidas por voz a sus productos.
Con todas las herramientas y productos innovadores e impresionantes que nos ha proporcionado la tecnología de voz, puede resultar un poco difícil imaginar una época en la que no los tuviéramos. Antes de la década de 2010, por ejemplo, los asistentes de voz no existían y cada consulta o tarea tenía que escribirse en un motor de búsqueda o ser realizada por una persona. Para poder apreciar plenamente la tecnología que tenemos hoy y entender cómo podría ser el futuro, tenemos que reconocer cuánto ha evolucionado la tecnología de voz a lo largo de los años.
Hace 10 años, no tendríamos la capacidad ni la habilidad para crear tecnologías de voz como GPT 4o de OpenAI o el modelo de transcripción médica de Deepgram. En este artículo, exploraremos cuánto ha cambiado la tecnología de voz a lo largo de la historia y descubriremos cómo se está utilizando para el bien.
Antecedentes históricos
La historia de la tecnología de voz es fascinante y tiene múltiples vínculos con fenómenos de la cultura pop. Uno de los primeros intentos de crear un sistema de tecnología de voz se produjo en los Laboratorios Bell en 1957, cuando algunos científicos construyeron un sistema para aislar el reconocimiento de dígitos de un hablante.
Los Laboratorios Bell, conocidos por el desarrollo de múltiples tecnologías, entre ellas el láser y el transistor, aparecen con bastante frecuencia a lo largo de la historia de la tecnología de voz y son el lugar de uno de esos vínculos con la cultura pop (Abraham Weissman, un personaje principal de la premiada serie ambientada en los años 50, La maravillosa Sra. Maisel, es un investigador de los Laboratorios Bell que trabaja en tecnología de voz). Los Laboratorios Bell también fueron el lugar de uno de los incidentes más conocidos en la historia de la tecnología de voz, la recreación de la canción "Daisy Bell" por parte de una computadora IBM 704 que inspiró una escena de la exitosa película 2001: Odisea del espacio.
En la década de 1970, las investigaciones en laboratorios como NEC Laboratories, Bell Labs e IBM Labs habían dado como resultado avances en el reconocimiento continuo de voz y el reconocimiento de palabras aisladas basado en plantillas. La Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) también financió múltiples investigaciones de tecnología de voz que dieron como resultado muchos sistemas y tecnologías que todavía utilizamos hoy.
En 1975, se lanzó MUSA (Multichannel Speaking Automaton), uno de los primeros sistemas de síntesis de voz. El sistema estaba compuesto por hardware de computadora y software especializado. La investigación en la década de 1980 consistió principalmente en desarrollar sistemas que fueran capaces de reconocer un grupo complejo de palabras. Uno de los desarrollos más notables fue la introducción del enfoque del modelo oculto de Markov (HMM) para el reconocimiento de voz. A mediados de la década de 1980, todos los laboratorios de tecnología de voz del mundo usaban el enfoque. La década de 1980 también vio la reintroducción de redes neuronales en los sistemas de tecnología de voz.
La investigación en tecnología de voz creció rápidamente en la década de 1990, especialmente después de la introducción de microprocesadores más rápidos. Más tarde, en esa década, se lanzó Dragon Dictate, el primer sistema de tecnología de voz del mundo dirigido a los consumidores. Dragon Dictate era un sistema de voz a texto para dictado de propósito general y fue un éxito que ganó numerosos premios de consumo. Los años 90 también fueron geniales para las mujeres investigadoras, como Ann Srydal en AT&T Bell
Laboratorios que creó la primera voz femenina.
La década siguiente vio un cambio hacia la investigación que desarrollaba sistemas de tecnología de voz más precisos y conversacionales. Esto incluía sistemas de reconocimiento de voz espontáneo y modelos de reconocimiento de voz robustos. En 2011, Apple lanzó Siri, un producto de una de las investigaciones de DARPA y un hito en ese momento. La aplicación podía admitir comandos básicos y citas del calendario. Poco después, en octubre de 2012, Google lanzó su función de búsqueda por voz de Google mejorada que estaba destinada a competir con Siri.
Hitos importantes en la evolución de la tecnología de voz
La tecnología de voz ha pasado por una serie de hitos importantes que cambiaron por completo la forma en que abordamos y construimos sistemas de tecnología de voz. Uno de los primeros hitos fue la invención del fonógrafo de Thomas Edison en 1877 y el posterior desarrollo del Voder. El fonógrafo fue el primer dispositivo capaz de grabar y reproducir sonido y fue un gran avance en su momento. En 1936, un equipo de investigadores e ingenieros de Bell Labs comenzó a trabajar en el primer sintetizador de voz electrónico y finalmente produciría el Voder en 1939. Estas dos invenciones dieron inicio a las primeras etapas de la investigación de la tecnología de voz que condujeron al desarrollo de herramientas y tecnologías que todavía se utilizan en la actualidad.
Otro hito importante en el desarrollo de la tecnología de voz que se utiliza hoy en día fue la introducción de los asistentes de voz en la década de 2010. En 2003, DARPA financió el proyecto Asistente cognitivo que aprende y organiza (CALO) en un intento de desarrollar el primer asistente virtual del mundo. Liderados por el Stanford Research Institute (SRI) con tecnología de Nuance Communications, comenzaron los trabajos para construir un asistente virtual que pudiera manejar tareas y solicitudes básicas.
Al darse cuenta del potencial de su tecnología, algunos investigadores del SRI crearon su propia empresa, Siri, para lanzar la herramienta que crearon. Esta empresa fue comprada por Apple y lanzada al público en octubre de 2011. El desarrollo de Siri inició una carrera de las principales empresas tecnológicas para crear su propia herramienta de asistente virtual, marcando el comienzo de una nueva era en la investigación y el desarrollo de tecnología de voz.
Innovaciones actuales en tecnología de voz
La tecnología de voz ha recorrido un largo camino desde la era de los fonógrafos y vodors o los primeros años de la tecnología de asistente virtual. Con la introducción del aprendizaje automático y el procesamiento del lenguaje natural, ahora tenemos una tecnología más avanzada, similar a la humana, que es capaz de comprender, analizar y replicar los matices y las complejidades del lenguaje y las interacciones humanas. Incluso los asistentes virtuales como Siri, Alexa y Google Assistant son mucho más avanzados de lo que solían ser, lo que permite a los usuarios realizar tareas complejas y controlar dispositivos inteligentes (construidos con tecnología de voz) en sus hogares. Los asistentes interactivos pueden programar y administrar llamadas y citas, tomar y transcribir notas y realizar llamadas telefónicas, además de cientos de otras tareas.
Además de los asistentes virtuales, la tecnología de voz también se está utilizando en diferentes industrias para crear alternativas efectivas y confiables a los procesos de trabajo tradicionales. Por ejemplo, la personalización de voz basada en tecnología de voz permite a los clientes crear interacciones personalizadas y personalizadas para sus clientes, lo que les permite tener una experiencia inmersiva y atractiva al usar un producto. Esto hace que la personalización de voz sea una tecnología solicitada por las empresas y las nuevas empresas que tratan con el cliente.
Otras formas de utilizar la tecnología de voz incluyen el uso de la tecnología para agilizar las experiencias e interacciones de servicio al cliente. La tecnología de voz también ha demostrado ser útil en la detección de fraudes, la gestión minorista y de comercio electrónico, las traducciones y transcripciones y una mejor gestión de inventario. El modelo de voz a texto de Deepgram, por ejemplo, ofrece tiempos de respuesta más rápidos con velocidades de transcripción que son de 4 a 40 veces más rápidas que otros modelos del mercado.
El futuro de la tecnología de voz
Aunque la tecnología de voz todavía es relativamente nueva, ya tenemos muchas aplicaciones para la tecnología que brindan formas más simples y eficientes de trabajar y realizar tareas diarias. Con el crecimiento continuo de la tecnología de voz, podemos esperar que la tecnología solo mejore y se vuelva más avanzada, lo que dará como resultado experiencias más parecidas a las humanas. Según el informe State of Voice Technology de Opus Research, el 54% de los líderes empresariales encuestados estuvo de acuerdo en que los robots de voz de IA similares a los humanos están a solo uno o tres años de distancia. Esto significaría que los robots de voz serían indistinguibles de las voces humanas y podrían mantener conversaciones inteligentes similares a las de los humanos.
El avance de la tecnología de IA de voz también daría como resultado la integración continua de la tecnología de voz en diferentes industrias. Si bien industrias como la atención médica y la educación ya están utilizando la tecnología de voz para administrar y agilizar de manera efectiva los servicios al cliente y brindar servicios accesibles a pacientes y clientes discapacitados, todavía hay muchas más formas en que se podría utilizar la tecnología de voz. Con el uso de la tecnología de voz, las industrias podrán mejorar su eficiencia y la experiencia del usuario. En el futuro, también tendremos acceso a tecnología de reconocimiento y traducción de voz aún más avanzada que nos permitirá llegar a una audiencia más amplia, rompiendo las barreras del idioma o los acentos en tiempo real.
Conclusión
La tecnología de voz es una tecnología en constante evolución que proporciona continuamente formas nuevas e innovadoras de comprender y analizar el habla. Desde sus humildes comienzos, que nos dieron el vodor y el fonógrafo, hasta los robots de voz súper precisos y similares a los humanos que tenemos hoy, la tecnología de voz avanza constantemente para mejor. Si tomamos en cuenta cómo comenzó la investigación sobre tecnología de voz, podemos ver que la tecnología de voz ha mejorado significativamente a lo largo de los años y seguirá haciéndolo.
Por Tife Sanusi
Comments