Sora, la herramienta de conversión de texto en vídeo de OpenAI, tendrá un "profundo" impacto en el mercado

La IA generativa presentada por OpenAI, capaz de convertir texto en vídeo, tendrá un impacto "profundo" en múltiples campos, aseguran los expertos, que subrayan que, aunque ya existen otras tecnologías similares, Sora es una de las más avanzadas hasta el momento.

También te puede interesar:

Lucas Mearian
21 FEB 2024

OpenAI presentó la semana pasada una nueva función de su plataforma de inteligencia artificial generativa que puede utilizar un texto para generar vídeo. El nuevo modelo IA generativa, llamado Sora, es capaz de crear escenas en movimiento complejas y realistas con varios personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo "manteniendo al mismo tiempo la calidad visual y la adecuación a la indicación del usuario".

Sora no sólo entiende lo que el usuario pide en la instrucción, sino también cómo existen esas cosas en el mundo físico. Según Bernard Marr, futurólogo tecnológico y consultor de negocios y tecnología, la tecnología traduce descripciones escritas en contenido de vídeo mediante modelos de inteligencia artificial que comprenden la información textual y generan los elementos visuales y auditivos correspondientes.

"En este proceso intervienen algoritmos de aprendizaje profundo capaces de interpretar el texto y sintetizar vídeos que reflejen las escenas, acciones y diálogos descritos", explica Marr. Aunque no es una capacidad nueva para los motores de IA que ofrecen otros proveedores, como Gemini de Google, se espera que el impacto de Sora sea profundo, según Marr.

Como cualquier tecnología avanzada de IA generativa, el impacto de Sora ayudará a remodelar la creación de contenidos, mejorando la narración y democratizando la producción de vídeo.
"Las capacidades de conversión de texto a vídeo tienen un inmenso potencial en campos tan diversos como la educación, donde pueden crear materiales de aprendizaje inmersivos; el marketing, para generar contenidos atractivos; y el entretenimiento, para la creación rápida de prototipos y la narración de historias", apunta el experto.

Sin embargo, advierte Marr, la capacidad de los modelos de IA para traducir descripciones textuales en vídeos completos también subraya la necesidad de rigurosas consideraciones éticas y protecciones contra el uso indebido.

"La aparición de la tecnología de conversión de texto en vídeo plantea cuestiones complejas en relación con la infracción de los derechos de autor, sobre todo porque puede generar contenidos muy similares a obras protegidas por derechos de autor", afirma Marr. "El panorama jurídico en este ámbito se está resolviendo actualmente a través de varios pleitos en curso, por lo que es prematuro afirmar definitivamente cómo se resolverán estos problemas de derechos de autor".

Potencialmente más preocupante es la capacidad de la tecnología para producir deepfakes muy convincentes, lo que plantea graves problemas éticos y de privacidad, lo que subraya la necesidad de un estrecho escrutinio y regulación, añade el experto.

Hace cinco años, Dan Faggella, fundador e investigador principal de Emerj Artificial Intelligence, realizó en la ONU una presentación centrada en estas 'falsificaciones profundas'. Ya entonces hizo hincapié en que, a pesar de las advertencias sobre estas deepfakes, "la gente querrá creer lo que quiera creer".

Sin embargo, hay una consideración más importante: en breve, las personas podrán vivir en mundos de IA generativa en los que se pondrán unos auriculares y le dirán a un modelo de IA que cree un mundo único para satisfacer sus necesidades emocionales, ya sea en materia de relajación, humor, acción... todo construido con programación y de forma específica para ese usuario.

"Y lo que la máquina va a ser capaz de hacer es aunar experiencias visuales y auditivas y, con el tiempo, hápticas para mí, que se basan en las [experiencias anteriores] con los auriculares", explicaba Faggella. "Tenemos que pensar en esto desde un punto de vista político; ¿cuánto de ese escapismo permitimos?".

Los modelos de texto a vídeo también pueden crear aplicaciones que generen experiencias de IA que ayuden a que las personas sean productivas, se formen y se mantengan centradas en su labor más importante. "Quizás se les entrenará para ser un gran comercial, se les ayudará a escribir un buen código y generar más programas que los que pueden hacer ahora mismo", decía.

Tanto Sora, de OpenAI, como el modelo de IA multimodal Gemini 1.5, de Google, son por ahora proyectos de investigación interna que sólo se ofrecen a un grupo específico de académicos externos y otras personas que prueban la tecnología. A diferencia del popular ChatGPT de OpenAI, según Google, los usuarios pueden introducir en su motor de consulta una cantidad de información mucho mayor para obtener respuestas más precisas.

Aunque Sora y Gemini 1.5 son actualmente proyectos de investigación internos, muestran ejemplos reales e información detallada, lo que incluye vídeos, fotos, gifs y trabajos de investigación que estén relacionados.

Además del motor de IA multimodal Gemini de Google, Sora tiene como precedentes varios modelos de conversión de texto a vídeo, como Emu de Meta, Gen-2 de Runway y Stable Video Diffusion de Stability AI.

Google tiene dos proyectos de investigación concurrentes que avanzan en lo que un portavoz denominó "el estado del arte en modelos de generación de vídeo". Se trata de Lumiere y VideoPoet. Lanzada a principios de este mes, Lumiere es la tecnología de generación de vídeo más avanzada de Google; ofrece 80 fotogramas por segundo, frente a los 25 fotogramas por segundo de competidores como Stable Video Diffusion.

"Gemini, diseñada para procesar información y automatizar tareas, ofrece una integración perfecta de las modalidades desde el principio, lo que la hace potencialmente más intuitiva para los usuarios que buscan una experiencia directa y orientada a las tareas", afirma Marr. "Por otro lado, el enfoque por capas de GPT-4 permite una mejora más granular de las capacidades a lo largo del tiempo, proporcionando flexibilidad y profundidad en las habilidades conversacionales y la generación de contenidos".

En una comparación cara a cara, Sora parece más potente que los modelos de generación de vídeo de Google. Mientras que Lumiere de Google puede producir un vídeo con una resolución de 512x512 píxeles, Sora afirma alcanzar resoluciones de hasta 1920×1080 píxeles o calidad HD. Los vídeos de Lumiere están limitados a unos 5 segundos de duración; los de Sora pueden llegar a un minuto. Además, Lumiere no puede hacer vídeos compuestos de varias tomas, mientras que Sora sí. Al igual que otros modelos, Sora también es capaz de realizar tareas de edición de vídeo, como crear vídeos a partir de imágenes u otros vídeos, combinar elementos de distintos vídeos y alargar vídeos en el tiempo.

"En la competición entre Sora, de OpenAI, y startups como Runway AI, la madurez puede ofrecer ventajas en términos de fiabilidad y escalabilidad", afirma Marr. "Aunque las startups suelen aportar enfoques innovadores y agilidad, OpenAI, con una gran financiación de empresas como Microsoft, podrá ponerse al día y, potencialmente, adelantarse rápidamente".

Imprimir Subir

TE PUEDE INTERESAR...

EMPRESAS

Nvidia compra Run:ai, proveedor de software de orquestación

Juan Fernando Muñoz (Ministerio de Sanidad)

ENTREVISTAS

“El futuro de la asistencia sanitaria pasa por el uso de los datos y de la IA”

EMPRESAS

IBM pone sus ojos en HashiCorp para reforzar su apuesta por la nube híbrida y la IA

ENTREVISTAS

“Las leyes deberían considerar el valor de la información que hace poderosa la IA”

EMPRESAS

Snowflake lanza Arctic, su LLM de código abierto

TECNOLOGÍA

Digitalización de la gestión de los viajes corporativos: retos y oportunidades

EMPRESAS

SAS Viya sube de escalafón al incorporar IA generativa y grandes modelos de lenguaje

EMPRESAS

Qualcomm avanza en su particular revolución del entorno del PC con Snapdragon X Plus

TENDENCIAS

La economía digital ya pesa un 24,2% en el PIB

TENDENCIAS

La transformación de la salud digital impulsada por la inteligencia artificial

TENDENCIAS

El futuro de la salud: avances tecnológicos y oportunidades en el sector sanitario

OPINIÓN

España debe acelerar la Administración digital a pesar de la complejidad de los desafíos

TENDENCIAS

'ComputerWorld' y SEIS analizan la inversión TIC en sanidad en 2023

Mayte Ledo, secretaria de Estado de Digitalización e IA; José Luis Escrivá, ministro para la Transformación Digital; Mercedes Oblanca, presidenta de Accenture España y Portugal; y Alberto García Arrieta, managing director y responsable de AI & Data.

Accenture cimenta su apuesta por la IA y lanza sus nuevos GenAI Studios en Madrid y Barcelona

EMPRESAS

Miguel Sánchez Galindo, nuevo director general de DigitalES

EMPRESAS

José Andrés García Bueno dirigirá el negocio de Qlik en Iberia

Contenido Patrocinado

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

18 ABR 2024

En la edición de este año, que se celebrará el próximo 7 de mayo en Berlín, la tecnológica reunirá a diversas industrias y ecosistemas para debatir en torno al proceso de adopción de infraestructuras de datos capaces de acelerar la IA.

Forma parte de nuestra comunidad

¿Te interesan nuestras conferencias?

Especial Administraciones Públicas

No te pierdas...

Sora, la herramienta de conversión de texto en vídeo de OpenAI, tendrá un "profundo" impacto en el mercado

TE PUEDE INTERESAR...

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

La transformación digital en España como motor hacia una economía próspera y sostenible

Geografía y copilotos, aliados para los CIO de la Administración

Asegurando la integridad de los datos en la Administración pública: el papel crucial de la tecnología

La IA y los datos se alzan como protagonistas del 'Digital Government Forum' 2024

España debe acelerar la Administración digital a pesar de la complejidad de los desafíos

32 años de Linux y su comunidad

MareNostrum 5 conquista los 314.000 billones de cálculos por segundo

El gasto global en nube soberana llegará a 258.000 millones de dólares en 2027

Los 'CIO 100 Awards Spain 2023' distinguen los proyectos de innovación tecnológica del año

Gemini, de Google, a la conquista de las últimas capacidades de IA generativa

Por qué la mitad de los desarrolladores adoptarán software mejorado con inteligencia artificial

ChatGPT: 365 días después, el mundo parece otro

'Superapps': ¿La próxima gran novedad de las TI empresariales?

Las mujeres se hacen su camino en el ecosistema 'startupero' español

Grandes modelos lingüísticos: los cimientos de la IA generativa

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

Líderes de futuro: ingeniería de telecomunicación

Guía esencial de Microsoft 365