OpenAI lanza “Images in ChatGPT”: La nueva generación de creación de imágenes con IA

OpenAI ha integrado nuevas capacidades de generación de imágenes directamente en ChatGPT. Desde hoy, los usuarios podrán generar imágenes dentro de la plataforma utilizando el modelo GPT-4o, en una funcionalidad llamada “Images in ChatGPT”. Esta nueva herramienta promete mejorar la precisión en la representación de objetos y atributos, así como la generación de texto en imágenes, superando las limitaciones de modelos anteriores.

Disponibilidad y acceso

La nueva funcionalidad de generación de imágenes estará disponible en todas las versiones de ChatGPT, incluyendo las suscripciones Plus, Pro, Team y también en la versión gratuita. Sin embargo, la cantidad de imágenes que los usuarios pueden generar en la versión gratuita estará limitada, similar a DALL-E. Aunque OpenAI no ha especificado un número exacto, en el pasado los usuarios gratuitos podían generar hasta tres imágenes por día con DALL-E 3.

Según la portavoz de OpenAI, Taya Christianson, el acceso a DALL-E seguirá disponible a través de un modelo personalizado, asegurando que los usuarios que prefieren este sistema puedan seguir utilizándolo.

Avances en generación de imágenes

El líder de investigación Gabriel Goh explicó que “Images in ChatGPT” se basa en la tecnología “omnimodal” de GPT-4o, lo que le permite procesar y generar diversos tipos de datos como texto, imagen, audio y video.

Uno de los principales avances de esta herramienta es la mejora en la “vinculación” de atributos y objetos en una imagen. En modelos anteriores, la generación de imágenes podía mezclar colores y formas cuando se solicitaban varios objetos. Según Goh, la nueva tecnología de OpenAI puede gestionar entre 15 y 20 objetos con atributos precisos sin confusión, representando un gran avance en la calidad y exactitud de las imágenes.

Mejoras en la generación de texto dentro de imágenes

Otro problema común en generadores de imágenes es la dificultad para renderizar texto correctamente. En herramientas anteriores, el texto generado a menudo aparecía distorsionado o con errores tipográficos, haciendo que la imagen final fuera inutilizable. Goh explicó que la mejora en la generación de texto en “Images in ChatGPT” ha sido un proceso de refinamiento que tomó meses, pero ahora permite crear texto coherente y legible, aunque el modelo aún puede cometer errores en fuentes muy pequeñas.

Esta tecnología utiliza un enfoque autoregresivo, generando imágenes de izquierda a derecha y de arriba abajo, similar a la forma en que se escribe un texto. Este método contrasta con los modelos de difusión como DALL-E, que generan la imagen completa de una sola vez. Esta diferencia podría ser la clave de la mejora en la precisión de texto y vinculación de atributos.

Aplicaciones prácticas

Antes del lanzamiento, el equipo de OpenAI demostró varias aplicaciones de “Images in ChatGPT”, incluyendo:

  • Diagramas científicos, como el experimento del prisma de Newton con etiquetas precisas.
  • Cómics de varias viñetas con personajes consistentes y burbujas de texto.
  • Pósters informativos con texto claro y legible.
  • Imágenes con fondo transparente para stickers, menús de restaurantes y logotipos.

Jackie Shannon, líder de producto multimodal de ChatGPT, explicó que la inteligencia artificial no solo genera imágenes, sino que también aporta “conocimiento del mundo” al proceso de creación. Por ejemplo, si un usuario solicita una imagen del experimento del prisma de Newton, el sistema sabe qué elementos debe incluir sin necesidad de una explicación detallada.

Tiempo de generación y calidad de imágenes

Aunque “Images in ChatGPT” tarda más en generar imágenes que modelos anteriores, OpenAI considera que este es un sacrificio aceptable a cambio de una calidad superior. Shannon afirmó que, aunque hay margen de mejora en la velocidad, la calidad, la precisión y el conocimiento incorporado en las imágenes justifican el tiempo adicional de espera.

Salvaguardas y prevención de abuso

En cuanto a seguridad, OpenAI ha implementado medidas estrictas para evitar usos indebidos de “Images in ChatGPT”. La herramienta bloquea la eliminación de marcas de agua, impide la generación de deepfakes sexuales y rechaza solicitudes para crear contenido ilegal o inapropiado.

Aunque “Images in ChatGPT” no incluye marcas de agua visuales en las imágenes generadas, Shannon explicó que todas las imágenes contienen metadatos C2PA para indicar que fueron creadas por OpenAI. Además, la empresa contará con herramientas internas para rastrear y verificar la autenticidad de las imágenes.

“Ningún sistema es perfecto en este tipo de tareas, pero estamos mejorando continuamente nuestras salvaguardas,” agregó Shannon. “Una de las ventajas de este sistema es que los usuarios poseen los derechos de las imágenes que generan y pueden usarlas libremente dentro de las políticas de OpenAI.”

“Images in ChatGPT” representa un gran avance en la generación de imágenes con IA, con mejoras significativas en vinculación de atributos, generación de texto y aplicabilidad. Aunque todavía hay retos por superar, esta tecnología promete cambiar la forma en que los usuarios crean y utilizan imágenes generadas por inteligencia artificial.