Finalmente vi una demostración en vivo de ChatGPT-4o Voice; en todo caso, está poco publicitada

blank
Por
Jugo Mobile
Jugo Mobile es una plataforma dedicada a contenido de alta calidad en gaming, deportes y tecnología. Disfruta de contenido de primera y conecta con otros entusiastas...
6 minutos de lectura

OpenAI presentó su modelo GPT-4o durante su evento de actualización de primavera a principios de este mes y con la adición de la funcionalidad de voz en vivo generó mucho revuelo, incluido el mío. Finalmente vi una demostración en vivo y en persona y, en todo caso, creo que no recibió mucha publicidad.

Una hora antes de subir al escenario para moderar un panel sobre compañeros de trabajo de IA en VivaTech, una conferencia de tecnología europea en París, el jefe de experiencia de desarrolladores de OpenAI, Romain Huet, demostró todas las nuevas funciones.

Durante la demostración, Huet utilizó la aplicación ChatGPT Desktop para que la IA se dirigiera a una audiencia con capacidad para más de 400 personas. Incluso hizo que lo hiciera con más entusiasmo y en francés. El acento era como el de un estadounidense que habla francés, pero dijo: “Estamos trabajando para hacerlo más francés”.

Parece que tendremos que esperar unos meses antes de que todos tengamos acceso a estas nuevas capacidades, ya que OpenAI las sometió a más pruebas de seguridad, pero cuando lleguen, esto cambiará la forma en que interactuamos con la tecnología para siempre. Sobre todo porque también estará en Windows Copilot.

ChatGPT Voice también puede vigilarte

Uno de los momentos más impresionantes se produjo cuando Huet abrió el módulo de la cámara en la sección ChatGPT Voice (que llegará en los próximos meses) de la aplicación de escritorio.

Le dio un boceto que había dibujado que mostraba la Torre Eiffel y el Arco de Triunfo, sólo un boceto aproximado, dibujado en una hoja de papel. ChatGPT identificó ambos en el boceto.

Luego, Huet le mostró un mapa a ChatGPT y preguntó cómo llegar a los lugares en su boceto desde nuestra ubicación en el Puerto de Versalles. Pudo proporcionar una ruta de tren detallada con paradas y cambios.

Había planeado mostrar las funciones en un iPhone usando la aplicación ChatGPT, pero tuvo que mostrarlas en la computadora portátil debido a dificultades técnicas en el lugar. Sin embargo, esto significaba que podía hacer una demostración ad hoc de codificación usando ChatGPT; después de todo, él es el encargado de la experiencia del desarrollador.

Al compartir su pantalla con la IA, pudo hacer que ChatGPT viera el código que estaba escribiendo, identificara su función y sugiriera mejoras. Luego podría mostrarle el resultado y pedirle formas de cambiar el código para que se vea o funcione de manera diferente, todo en tiempo real.

Una demostración de Sora y Voice Engine

OpenAI parece estar entrando en “modo producto” en este momento. Si bien todavía se describe a sí mismo como un laboratorio de investigación centrado en la construcción de inteligencia artificial general, también está intensificando su juego de productos. La aplicación ChatGPT Desktop está a punto de convertirse en una herramienta de productividad vital.

El potencial para la creación de deepfakes y contenido engañoso usando estas herramientas es muy real, así que entiendo la reticencia, pero ya existe una tecnología similar, así que espero que se lance pronto.

Durante la demostración en París, Huet también mostró un nuevo vídeo de Sora, realizado para el evento de desarrolladores OpenAI en París el día anterior y mostró un recorrido múltiple por la ciudad. Como un vídeo de Sora tarda unos 15 minutos en generarse, esta fue la única parte prefabricada de toda la demostración.

Solo pude ver esto desde detrás del escenario en una pantalla pequeña, así que no vi el video, pero todos los ojos en la sala verde se dirigieron a esa pantalla mientras ocurría la demostración.

Le dio el video de Sora a ChatGPT y le pidió que resumiera el contenido y escribiera un guión de voz en off para el video. Aquí es donde pudimos ver en acción otro producto OpenAI insinuado: Voice Engine. Esto se ha reservado para uso interno únicamente por motivos de seguridad.

Romain Huet de OpenAI en VivaTech

(Crédito de la imagen: futuro)

Huet pudo grabar (en tiempo real) una muestra de 20 segundos de su voz, hacer que Voice Engine la clonara y creara una copia perfecta. Luego, esto se aplicó al vídeo de Sora para crear un vídeo promocional. Sin embargo, fue más allá, ya que pudo cambiar rápidamente el idioma del inglés al francés y al japonés con solo hacer clic en un botón.

Sora y Voice Engine no están disponibles públicamente ya que están “trabajando en formas de publicarlo de forma segura”.

El potencial para la creación de deepfakes y contenido engañoso usando estas herramientas es muy real, así que entiendo la reticencia, pero ya existe una tecnología similar, así que espero que se lance pronto.

  • OpenAI y Reddit anuncian un acuerdo para brindar ‘información oportuna y relevante’ a ChatGPT
  • Gemini Live: qué funciones están disponibles ahora y qué vendrá pronto
  • Cuidado, Snapdragon: Nvidia y MediaTek pueden unirse para fabricar chips para computadoras portátiles con inteligencia artificial

Compartir este artículo
Seguir
Jugo Mobile es una plataforma dedicada a contenido de alta calidad en gaming, deportes y tecnología. Disfruta de contenido de primera y conecta con otros entusiastas y expertos. Explora las últimas tendencias e innovaciones en nuestra vibrante comunidad. ¡Únete a nosotros y experimenta el futuro hoy!