Puse a prueba la nueva función de visión ChatGPT-4o con 7 indicaciones: el resultado es alucinante

blank
Por
Jugo Mobile
Jugo Mobile es una plataforma dedicada a contenido de alta calidad en gaming, deportes y tecnología. Disfruta de contenido de primera y conecta con otros entusiastas...
15 minutos de lectura

Los modelos de inteligencia artificial han podido mirar imágenes y decirle lo que pueden ver dentro de la imagen durante años, pero con su actualización de primavera, OpenAI llevó las cosas a un nuevo nivel.

Con el lanzamiento de GPT-4o en ChatGPT, incluso sin la funcionalidad de voz y video, OpenAI presentó uno de los mejores modelos de visión de IA lanzados hasta la fecha.

Su éxito se debe en parte a que es multimodal de forma nativa, con una comprensión más profunda de imagen, video, sonido y texto. Puede razonar a través de una imagen, voz, video y texto donde otros modelos convierten primero a texto.

Para poner a prueba sus capacidades le di una serie de imágenes y le pedí que describiera lo que podía ver. Cuanto más preciso sea, mejor será el modelo. A menudo, los modelos de visión de IA, incluido el GPT-4, omitirán uno o dos objetos o obtendrán una descripción incorrecta.

Prueba de visión GPT-4o

Para cada prueba, le di a ChatGPT-4o la imagen y el mensaje “¿Qué es esto?” sin contexto o información adicional. Esto se acerca más a cómo es probable que las personas usen esta capacidad en el mundo real y cómo la usé recientemente en un evento en París.

El objetivo es ver qué tan bien analiza la imagen. Hice un seguimiento en cada ocasión para preguntar si podía detectar si la imagen fue generada por IA o no. Todos fueron creados usando Ideograma a partir de una descripción creada por Claude 3, completamente AI.

Después de las dos primeras imágenes de la conversación, empezó a decirme automáticamente si pensaba que la imagen había sido generada por IA o no sin que yo tuviera que preguntar.

Comencé en la aplicación ChatGPT Desktop, pero comenzó a no responder, así que me moví a la web y funcionó bien.

1. Reconocimiento de objetos

Ideograma

(Crédito de la imagen: Ideograma/Imagen futura de IA)

Para esta primera imagen, generé una imagen de una taza de cerámica roja llena de café humeante. Lo pusieron en un platillo sobre una mesa de madera en un café, pero el café estaba borroso. La idea es ver cómo GPT-4o interpreta el trasfondo y el escenario.

GPT-4o escribió: “Esta imagen muestra una taza de café humeante en una taza y un platillo rojos colocados sobre una mesa rústica de madera. El fondo es borroso y representa un ambiente interior acogedor con gente sentada y conversando en lo que parece ser una cafetería con forma de cueva o un interior de diseño único con paredes de piedra. La atención se centra en la taza de café, resaltando el vapor que surge de la bebida caliente”.

Esto es lo más preciso y descriptivo posible. Incluso pintar un cuadro de la escena que va más allá de la simple descripción. Por persión le pedí: “Describe los pensamientos de la persona sentada a la mesa con este café listo para tomar”.

Respondió con una descripción bellamente descriptiva, pero esta línea destacó: “Este café es más que una simple bebida; es un ritual, un preciado momento de soledad y reflexión en medio del ajetreo de la vida cotidiana”.

2. Reconocimiento óptico de caracteres (OCR)

Ideograma/Imagen futura de IA

(Crédito de la imagen: Ideograma/Imagen futura de IA)

El OCR es una tecnología tan antigua como la informática, por lo que debería ser trivial para cualquier modelo de visión, incluso los teléfonos inteligentes lo hacen en el dispositivo. Le di una imagen simple que muestra un primer plano de un letrero de madera desgastada que dice “Bienvenido a Oakville” en un estilo antiguo escrito a mano. Quiero algo más que el texto de la IA.

GPT-4o entregado; escribiendo: “Esta imagen muestra un letrero de aspecto antiguo que dice “Bienvenido a Oakville”. El letrero parece desgastado, con un acabado rústico y envejecido, lo que sugiere que ha estado expuesto a los elementos durante algún tiempo. El texto está escrito en negrita, fuente blanca sobre fondo rojo, con algunos signos de desgaste, lo que aumenta su encanto nostálgico. El letrero está parcialmente rodeado de vegetación, lo que indica que podría colocarse al aire libre, posiblemente en la entrada de un pueblo o comunidad llamada Oakville”.

No solo leyó correctamente el texto, sino que también sugirió más detalles de la ubicación, identificando si probablemente se trataba de una ciudad o asentamiento y extrayendo detalles del letrero en sí.

3. Reconocimiento facial

Ideograma/Imagen futura de IA

(Crédito de la imagen: Ideograma/Imagen futura de IA)

Se trata de un uso controvertido de la tecnología de inteligencia artificial y está prohibido hasta cierto punto en la UE. Pero, ¿qué tan bien puede GPT-4o describir una cara? La imagen era una representación generada por IA de una mujer de unos 40 años con cabello oscuro y cálidos ojos marrones. Tenía una sonrisa amistosa.

GPT-4o lo describió así: “Esta imagen es un retrato en primer plano de una mujer sonriente con cabello oscuro y rizado. La atención se centra en su rostro, que está bien iluminado y muestra la textura y los rasgos detallados de la piel. Tiene una expresión amigable, con los ojos mirando directamente a la cámara. El fondo está borroso, poniendo énfasis en el sujeto”.

Quería un poco más, incluso alrededor de la edad. Entonces le pregunté “qué edad tiene esta persona y cuál es su estado emocional”. Respondió con el hecho de que tiene entre 30 y 40 años y se encuentra en un estado mental positivo, y explicó: “La impresión general es que está en un buen lugar emocionalmente, tal vez sintiéndose realizada y cómoda”.

4. Detección de emociones

Ideograma/Imagen futura de IA

(Crédito de la imagen: Ideograma/Imagen futura de IA)

A continuación quería ver qué tan bien le iría a GPT-4o con una imagen de un hombre mayor con una expresión melancólica. ¿Se daría cuenta de eso o simplemente describiría la escena? Recuerde que la única entrada que tuvo fue “¿qué es esto?” y la imagen.

A GPT-4o le fue bien. De la imagen decía: “Esta imagen es un retrato de un anciano sentado en un banco al aire libre, probablemente en un parque. La iluminación sugiere que fue tomada durante la hora dorada, ya que la suave luz del sol resalta su rostro. La expresión del hombre es pensativa, con un ligero toque de melancolía o contemplación. Está vestido con una camisa con cuello y una chaqueta, y el fondo está borroso, lo que centra la atención en el hombre y proporciona un entorno agradable y natural”.

El modelo de IA hizo exactamente lo que esperaba: describir la escena y hacer sugerencias sobre cómo podría sentirse el hombre en ese momento.

5. Comprensión de la escena

Ideograma/Imagen futura de IA

(Crédito de la imagen: Ideograma/Imagen futura de IA)

¿Qué tan bien puede GPT-4o describir una escena a partir de la imagen e identificar elementos dentro de la escena? Esta es una habilidad útil ya que el modelo de IA se utiliza cada vez más para ayudar a describir el mundo real. Es una de las características clave del nuevo modo de voz en ChatGPT.

GPT-4o declaró: “Esta imagen muestra un animado mercado de agricultores al aire libre en un día soleado. Se instalan varios puestos debajo de las tiendas de campaña, que exhiben una gran cantidad de productos frescos, incluidas frutas, verduras y otros productos. La gente camina por el mercado, navega, compra e interactúa con los vendedores. El mercado parece estar ubicado en una agradable zona arbolada, con follaje verde visible al fondo. El ambiente parece vibrante y comunitario, con un enfoque en productos locales y frescos”.

No hay mucho que decir. Fue acertada en su descripción de la imagen y la situación. Proporcionó más detalles de los que esperaba, destacando algunos de los productos a la venta.

6. Evaluación de la calidad de la imagen.

Ideograma/Imagen futura de IA

(Crédito de la imagen: Ideograma/Imagen futura de IA)

Hice que Ideogram generara cuatro imágenes casi idénticas en una cuadrícula, pero dándole a cada una una resolución o nivel de composición diferente. Quería ver cómo GPT-4o describiría esto. Puede manejar la imagen subyacente, pero ¿qué pasa con cuatro de ellas, cada una ligeramente diferente?

GPT-4o escribió: “La imagen es una colección de cuatro fotografías de paisajes dispuestas en una cuadrícula, cada una de las cuales muestra una vista panorámica de colinas cubiertas de hierba verde y flores silvestres bajo un cielo con nubes”. Tan bueno tan lejos.

Continúa: “La fotografía superior izquierda presenta un cielo degradado en rosa suave y azul, que sugiere el amanecer o el anochecer, con colinas bañadas en una luz cálida y dorada, que realza la vibrante hierba verde y las flores amarillas y blancas. La fotografía superior derecha muestra una escena similar pero con colores apagados, lo que indica temprano en la mañana o última hora de la tarde. La imagen inferior izquierda tiene tonos más fríos y un cielo azul más pronunciado, lo que sugiere mediodía con una iluminación más suave. La fotografía inferior derecha es más cálida y saturada, con un tono rosado en el cielo, que sugiere la cálida luz del atardecer. Estas variaciones en la iluminación y el tono de color ilustran cómo los diferentes momentos del día y las técnicas fotográficas pueden afectar el estado de ánimo y la apariencia del mismo paisaje”.

Si bien no entendió el propósito de la cuadrícula de cuatro imágenes (comparación de composición), pudo describir cada una inpidualmente, lo cual es impresionante. De hecho hizo su propia comparación entre las imágenes.

7. Detección de objetos múltiples

Ideograma/Imagen futura de IA

(Crédito de la imagen: Ideograma/Imagen futura de IA)

Le pedí que encontrara mis anteojos en la imagen y dijo correctamente: “Tus anteojos están en el escritorio a la derecha de la computadora portátil, colocados encima de una libreta”.

Finalmente, una prueba importante si el modelo quiere ser útil como herramienta de accesibilidad: qué tan bien detecta objetos en una escena llena de gente. El mismo mensaje que los demás. La imagen muestra un escritorio desordenado y espero que saque al menos un objeto menor.

GPT-4o escribió: “La imagen muestra un espacio de trabajo de oficina moderno y organizado con un paisaje urbano visible a través de grandes ventanales al fondo. El escritorio está cuidadosamente ordenado con varios elementos que normalmente se encuentran en un entorno de trabajo productivo, incluida una computadora portátil ubicada en el centro, una lámpara de escritorio metálica y una taza de café, lo que sugiere una atmósfera relajada pero concentrada. Cuadernos y papeles dispersos indican trabajo activo y toma de notas, mientras que una pequeña planta en maceta añade un toque de vegetación. Una foto enmarcada de dos personas proporciona un toque personal y probablemente sirve como fuente de motivación. El espacio de trabajo está bien equipado con material de oficina como bolígrafos, lápices y organizadores, lo que garantiza la funcionalidad. El telón de fondo urbano del horizonte de la ciudad con modernos edificios de gran altura crea un entorno dinámico e inspirador”.

Funcionó. Decidí hacer un seguimiento y pedirle que me dijera el color de la maceta y acertó. Entonces le pedí que encontrara mis lentes en la imagen y dijo correctamente: “Tus lentes están en el escritorio a la derecha de la computadora portátil, colocadas encima de una libreta”.

Resumen

Cada modelo de visión que he usado en el pasado ha cometido al menos un error, generalmente uno grande, como identificar erróneamente un objeto o no identificar un color o una marca.

GPT-4o acertó en todos y cada uno de estos. Pasar a una verdadera multimodalidad ha cambiado las reglas del juego para OpenAI.

También muestra el valor potencial de las gafas inteligentes como el verdadero futuro de la interacción con los datos. Olvídese del teléfono inteligente, usemos la visión para fusionar lo real y lo digital.

  • Según se informa, Apple está cerca de llegar a un acuerdo con OpenAI: ¿podría ChatGPT ser el nuevo Siri?
  • OpenAI publica el libro de reglas ChatGPT: lo que esto significa para los usuarios
  • “GPT-4 es el modelo más tonto que cualquiera de ustedes tendrá que usar”, declara el CEO de OpenAI, Sam Altman, mientras apuesta fuerte por una superinteligencia.

Compartir este artículo
Seguir
Jugo Mobile es una plataforma dedicada a contenido de alta calidad en gaming, deportes y tecnología. Disfruta de contenido de primera y conecta con otros entusiastas y expertos. Explora las últimas tendencias e innovaciones en nuestra vibrante comunidad. ¡Únete a nosotros y experimenta el futuro hoy!