Sora se presenta como una herramienta disruptiva para el mundo de la fotografía, ya que abre un sinfín de posibilidades para la creación de contenido visual. A través de prompts o indicaciones textuales, los fotógrafos podrán dar vida a imágenes y escenas que antes solo podían imaginar.
Sora es un modelo de IA que puede crear videos realistas e imaginativos de hasta 60 segundos a partir de instrucciones de texto. El modelo comprende no solo lo que el usuario ha pedido en el texto, sino también cómo existen esas cosas en el mundo físico.
Cómo funciona Sora
Sora es un modelo de difusión, que genera un video a partir de uno que parece ruido estático y lo transforma gradualmente al eliminar el ruido en muchos pasos. Sora usa una arquitectura de transformador, similar a los modelos GPT, que le permite escalar mejor su rendimiento. Sora también usa la técnica de recaptioning de DALL·E, que consiste en generar descripciones muy detalladas para los datos visuales de entrenamiento. Así, el modelo puede seguir más fielmente las instrucciones de texto del usuario en el video generado.
El proceso de creación con Sora es sencillo:
- Escribe un prompt: Describe en lenguaje natural la escena que deseas crear. Puedes ser tan específico como quieras, indicando detalles como el escenario, los personajes, la iluminación, la composición, etc.
- Sora genera el video: La herramienta procesa tu prompt y genera un video de alta calidad que se ajusta a tu descripción.
- Edita y refina: Puedes realizar ajustes al video final para optimizarlo a tu gusto.
Vista de dron de las olas rompiendo contra los escarpados acantilados a lo largo de la playa de Garay Point de Big Sur. Las aguas azules que rompen crean olas de punta blanca, mientras que la luz dorada del sol poniente ilumina la costa rocosa. Una pequeña isla con un faro se encuentra en la distancia, y los arbustos verdes cubren el borde del acantilado. La empinada caída desde la carretera hasta la playa es una hazaña espectacular, con los bordes del acantilado sobresaliendo sobre el mar. Esta es una vista que captura la belleza cruda de la costa y el paisaje escarpado de la autopista de la costa del Pacífico.
Qué se puede hacer con Sora
Sora es capaz de generar un video solo a partir de texto, o a partir de una imagen fija o un video existente. En estos casos, el modelo puede animar el contenido de la imagen o extender o rellenar los fotogramas del video. Sora puede generar videos de diferentes duraciones, resoluciones y proporciones. Sora puede crear escenas con múltiples personajes, tipos específicos de movimientos y detalles de fondo.
Un joven de unos 20 años está sentado en un pedazo de nube en el cielo, leyendo un libro.
Los desafíos y las oportunidades de Sora
Sora todavía tiene debilidades, como la dificultad para simular la física de una escena compleja, o para entender la causa y el efecto de ciertos eventos. El modelo también puede confundir los detalles espaciales de un texto, o tener problemas con las descripciones precisas de eventos que ocurren en el tiempo. OpenAI está trabajando con expertos en diferentes áreas, como la desinformación, el contenido de odio y la parcialidad, para probar el modelo y detectar posibles riesgos o daños. OpenAI también está creando herramientas para ayudar a identificar el contenido engañoso generado por Sora. OpenAI cree que Sora es un paso importante para lograr modelos de IA que puedan entender y simular el mundo real, lo que sería un hito para alcanzar la inteligencia artificial general.
Imágenes históricas de California durante la fiebre del oro.
Un hermoso video casero que muestra a la gente de Lagos, Nigeria, en el año 2056. Filmado con la cámara de un teléfono móvil.
Más info: Sora (openai.com)