La noticia tecnológica del mes tiene nombre propio: Sora, la última IA de OpenAI que puede crear vídeos casi perfectos a partir de textos. El programa fue presentado hace una semana en redes por la compañía y viene para causar una revolución en el mundo de la creación de contenidos al ser capaz de crear clips de alta calidad mediante
instrucciones textuales. ¿Será la nueva forma de hacer películas en un futuro? ¿Se acabaron los bancos de videos de pago? ¿habrá una regulación especial para los contenidos creados de esta manera? Esta y muchas otras preguntas se abren en un mundo, el de la IA, que avanza a pasos agigantados cada día.
¿Qué es y cómo funciona Sora?
Sora, la novedosa creación de OpenAI, la misma empresa de ChatGPT o DALL-E, es una IA que genera vídeos a partir de texto, de forma que tú le escribes lo que quieres ver mediante un promp o comando textual y genera imágenes coherentes de la nada. Como ocurre con otros modelos de IA, Sora es un sistema capaz de entender lo que le pides con un lenguaje natural, ya que ha sido entrenada para conocer la manera en la que solemos hablar en el día a día las personas y cómo nos expresamos para solicitar o preguntar algo. La gran diferencia respecto a otros modelos que ya crean imágenes, es que Sora genera imágenes en movimiento con mucha precisión y verosimilitud.
Esto se ha logrado entrenando a Sora con una ingente biblioteca de vídeos, de forma que sabe reconocer movimientos, descripciones y cualquier cosa que le pidan los usuarios. La herramienta identifica cada elemento del que se le habla, ya sean tipos de personas, vestimentas, accesorios, lugares, animales o hasta efectos visuales. De este
modo Sora es capaz de producir vídeos enteros de una sola vez o de ampliar los vídeos generados para hacerlos más largos. Por si fuera poco, el modelo puede coger una imagen fija ya existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles.
Comprender y simular el mundo físico en movimiento
El consejero delegado de OpenAI, Sam Altman, explicó en la presentación que “estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real”. Por el momento Sora tiene la capacidad de crear videos de hasta 1 minuto de duración, pero los avances en el campo de la IA son tan rápidos que la industria audiovisual puede sentirse amenazada.
El sistema está aún en manos de unos pocos, equipos que tratan de llevar a Sora al límite, poniéndola a prueba para detectar fallos y buscar posibles riesgos y daños. En este sentido, y como ocurre con toda nueva tecnología, existen campos que generan polémica o al menos serias dudas ya que Sora podría utilizarse para la desinformación, los contenidos que incitan al odio o la parcialidad.
Altman también anunció que ha puesto la herramienta en manos de varios artistas, diseñadores y cineastas para que den su opinión y propongan mejoras para que Sora sea aún más efectiva y útil para los profesionales creativos. El objetivo es perfeccionar a Sora lo máximo posible antes de que llegue al gran público como en su día llegó ChatGPT.
Una mujer caminando por las calles de Tokio.
Entre los videos que se mostraron como ejemplo en la presentación de Sora, el que más repercusión ha tenido en los medios de comunicación, es uno que muestra una mujer elegantemente vestida paseando entre los neones de la capital nipona. La compañía compartió también el promt con el que este clip de video fue creado:
«Una mujer elegante camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean».
El resultado es preciso y deja claro que Sora entiende contextos y refleja perfectamente lo que se le pide. No sólo es capaz de generar con detalle a la persona y de reflejar cómo se le ha pedido que esté vestida, sino que interpreta que al estar en Tokio la mujer ha de ser asiática.
Ahora bien, Sora no está libre de fallos y en esta etapa aún tiene algunos problemas a la hora de recrear con exactitud ciertas condiciones físicas y también le cuesta entender casos concretos de causa y efecto.
¿Cuánto costará Sora y quién es su competencia?
Aún no existe una fecha de lanzamiento oficial para esta nueva IA pero se rumorea que es probable que esta aplicación se incluya dentro del modelo premium que ya tiene DALL-E y ChatGPT. Su sistema de APIs funcionaría parecido. Es decir, OpenAI cobraría a los desarrolladores por incluir su IA dentro sus aplicaciones mediante un sistema de tokens como el existente en ChatGPT.
Aunque la presentación de Sora ha sido revolucionaria, no es la única herramienta generadora de videos que existe. Stability Diffusion Video, por ejemplo, es una IA más antigua que ya tenía por objetivo pasar texto a video y además con código abierto.
Por su parte, Google también está trabajando en Lumiere una IA que tiene exactamente el mismo objetivo y que también podría modificar vídeos ya existentes para darles otro estilo diferente, aunque actualmente tampoco está disponible.