El reciente vídeo viral que muestra a Lionel Messi hablando un inglés impecable gracias a la inteligencia artificial pone de relieve no solo el asombroso progreso en síntesis de voz.
l reciente vídeo viral que muestra a Lionel Messi hablando un inglés impecable gracias a la inteligencia artificial pone de relieve no solo el asombroso progreso en síntesis de voz, sino también las crecientes inquietudes éticas y legales. Mientras el algoritmo detrás de esta hazaña técnica despierta admiración, también genera preguntas críticas sobre el futuro de la IA en la comunicación, el periodismo y más allá.
Recientemente, un vídeo de Lionel Messi, el renombrado futbolista argentino, hablando en inglés ha capturado la atención de millones de personas en todo el mundo. Sin embargo, hay un giro: Messi no está hablando inglés; es un algoritmo de inteligencia artificial el que ha sincronizado su voz y movimientos labiales para que parezca que lo hace. Este vídeo, publicado en diversas plataformas de redes sociales, ha suscitado tanto admiración como preguntas sobre la tecnología que lo hizo posible. Aunque Messi ha jugado en la Major League Soccer (MLS) de Estados Unidos, nunca se le ha escuchado hablar en inglés. Sin embargo, el vídeo presenta un escenario tan convincente que muchos podrían confundirlo con la realidad.
La viralidad de este vídeo y su casi indistinguible apariencia de realidad subrayan la importancia de entender y contextualizar los rápidos avances en la tecnología de síntesis de voz basada en inteligencia artificial. Estamos en una era donde los límites entre lo real y lo artificial son cada vez más difusos, lo que plantea desafíos significativos en términos de ética, legislación y periodismo. No es simplemente una cuestión de asombrarse ante lo que la tecnología puede hacer, sino también de evaluar críticamente las implicaciones de su uso, tanto positivas como negativas. En este contexto, el vídeo de Messi sirve como un caso de estudio oportuno que invita a la reflexión sobre el potencial y las limitaciones de la inteligencia artificial en la comunicación humana y más allá.
¿Cómo lo han hecho?
HeyGen es una herramienta en línea diseñada para generar videos con avatares de IA que hablan de manera sincronizada con el movimiento de los labios. Proporciona diversas funcionalidades, desde personalizar un avatar de IA hasta acceder a la herramienta a través de una API. El proceso es simplificado: se elige un avatar, se ingresa el guión deseado y se obtiene un video de portavoz perfectamente sincronizado en minutos.
Una vez que se ha iniciado el proceso de creación, se pueden añadir múltiples avatares en diferentes escenas, y también es posible incluir efectos de transición para que el video sea más fluido. HeyGen guarda automáticamente el borrador del video, permitiendo editar más tarde si es necesario.
El tiempo necesario para procesar el video depende del número de usuarios en línea. En períodos de alta demanda, la generación del video podría tardar más tiempo de lo habitual, de hecho, con la fama que tiene ahora HeyGen, los tiempos están siendo más altos de lo habitual.
No es la primera vez que la IA habla por Messi
Mira el video https://cdn.jwplayer.com/previews/yANnTkD8
El 1 de enero de 2023, el software de IA Synthesia se utilizó para hacer que Lionel Messi, el futbolista argentino y estrella del Paris Saint-Germain, hablara varios idiomas diferentes. Entre los idiomas estaba el inglés, lo que generó una gran reacción en las redes sociales. Synthesia usó cinco minutos de metraje del capitán de Argentina para crear una “representación sintética” de Messi, empleando algoritmos de aprendizaje profundo que le permitieron hablar en múltiples idiomas.
Las reacciones al video variaron desde la fascinación hasta la preocupación. Un fan comentó que Messi, que ya jugaba “como un extraterrestre”, ahora también “suena como un robot”. Otro señaló que pronto sería difícil distinguir entre la versión real y la falsa de Messi. También hubo comentarios sobre lo realista que se veía el movimiento de la boca de Messi durante la conversación sintetizada.
El estado actual de la Inteligencia Artificial en síntesis de voz
La síntesis de voz es un subcampo de la inteligencia artificial que se centra en convertir texto en habla humana audible. Aunque sus inicios se remontan a varios años atrás con resultados notablemente robóticos, los algoritmos actuales han logrado un realismo asombroso. Las técnicas más avanzadas suelen utilizar redes neuronales profundas y aprendizaje automático para analizar miles de horas de grabaciones de voz humana. Estas redes neuronales son entrenadas para entender las complejidades del lenguaje, tono, inflexiones y otros elementos que constituyen el habla humana.
Además de la simple conversión de texto a voz, los últimos avances permiten ahora la sincronización de voz con movimientos faciales y labiales, como se vio en el vídeo de Messi. Esto se logra generalmente mediante el uso de técnicas de aprendizaje profundo aplicadas al análisis de video para sincronizar los labios y los gestos con el audio generado.
En términos de avances recientes, las tecnologías de síntesis de voz han encontrado aplicaciones en una variedad de sectores:
- Asistentes virtuales: La voz sintetizada es un componente crítico en asistentes como Siri, Google Assistant y Alexa, haciendo la interacción más natural y efectiva.
- Salud: En el campo médico, la tecnología se está utilizando para mejorar las comunicaciones entre médicos y pacientes con discapacidades del habla.
- Entretenimiento: Los creadores de contenido están comenzando a utilizar la síntesis de voz para narración de audiolibros, generación de diálogos en videojuegos y más.
- Accesibilidad: La síntesis de voz mejora la accesibilidad en sitios web y aplicaciones, permitiendo a los usuarios con discapacidades visuales interactuar de manera más efectiva.
Automatización en centros de llamadas: La tecnología está reemplazando los sistemas de IVR (Respuesta de Voz Interactiva) más rudimentarios con respuestas más naturales y contextuales.
- Traducción y localización: La capacidad de convertir texto traducido en voz sintetizada permite romper las barreras idiomáticas de forma más eficiente.
Estos avances no son exhaustivos pero destacan el alcance y el impacto creciente de la tecnología de síntesis de voz