OpenAI presenta GPT-4 Turbo con Vision

Gracias a una publicación en Twitter, OpenAI anuncio una mejora sustancial en su último modelo de inteligencia artificial (IA), GPT-4 Turbo, que introduce capacidades de visión por computadora el 9 de abril, según un Informe de la revista Analytics India. Este desarrollo le da al modelo de IA la capacidad de procesar y analizar entradas multimedia como imágenes y videos, ampliando su utilidad más allá de las interacciones basadas en texto.

Las características destacadas impulsadas por GPT-4 Turbo con Vision incluyen AI Devin Coding Assistant y Funcionalidad Healthify Snap. Devin ayuda a navegar en tareas de codificación complejas, aprovechando las capacidades de visión del modelo en su entorno de pruebas. La función Snap de Healthify permite a los usuarios capturar imágenes de comidas, y la plataforma ahora utiliza GPT-4 Turbo con Vision para estimar la ingesta de calorías y brindar recomendaciones personalizadas para hábitos alimentarios más saludables.

¿Porque es esto importante?

La integración de capacidades de visión por computadora en el último modelo de IA de OpenAI, GPT-4 Turbo con Vision, representa un avance significativo en la tecnología de IA. Al permitir el análisis de entradas multimedia como imágenes y videos, este desarrollo extiende la utilidad del modelo más allá de las interacciones textuales, abriendo nuevas posibilidades para aplicaciones del mundo real en áreas como asistencia de codificación, salud y más. Además, el próximo lanzamiento de Voice Engine y GPT-5 subraya aún más el compromiso de OpenAI de ampliar los límites de la innovación en IA, prometiendo capacidades aún más sofisticadas en procesamiento y razonamiento en lenguaje natural, lo que podría tener profundas implicaciones para diversas industrias y la vida diaria.

READ Es probable que OnePlus Nord 3 ofrezca una carga rápida de 150 W; especificaciones mostradas en línea

El anuncio, compartido a través de la cuenta oficial X (anteriormente Twitter) de OpenAI Developers, se centró en la disponibilidad de GPT-4 Turbo con Vision en la API, mejorando la accesibilidad para los desarrolladores. Además, la implementación de esta función en ChatGPT amplía su alcance y usabilidad.

GPT-4 Turbo con Vision se basa en el modelo GPT-4, integrando las mayores salidas de tokens de Turbo con capacidades mejoradas de visión por computadora. Esta combinación mejora la capacidad del modelo para analizar archivos multimedia, proporcionando diversas aplicaciones a usuarios finales y desarrolladores.

Con una ventana emergente de 128.000 tokens y datos de entrenamiento que se extienden hasta diciembre de 2023, el modelo de IA presentado representa un avance significativo en las capacidades de IA.

Además, OpenAI reveló su reciente desarrollo, Voice Engine, diseñado para generar voz natural a partir de la entrada de texto y una simple muestra de audio de 15 segundos. En particular, Voice Engine puede crear voces realistas y en movimiento utilizando esta breve entrada de audio, aunque aún no se ha puesto a disposición del público.

Además, OpenAI indicó que su próximo modelo, GPT-5, está en el horizonte con capacidades de razonamiento mejoradas. Brad Lightcap, director de operaciones de OpenAI, mencionó en una entrevista con el Financial Times que GPT-5 se centraría en resolver problemas difíciles, especialmente en el área del razonamiento.

Lea también:

Manténgase actualizado con noticias de tecnología: Nuestro boletín diario con las novedades del día de MediaNama, entregado en su bandeja de entrada antes de las 9 a.m. Haga clic en aquí para registrarse hoy!

READ El diseño y las especificaciones del Samsung Galaxy Z Fold 6 y Z Flip 6 se filtraron antes del lanzamiento del 10 de julio

Cristián Peno

«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».

OpenAI presenta GPT-4 Turbo con Vision

Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord

Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»

Google implementa Gems e Imagen 3 en Gemini Advanced

Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas

El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch

Deja una respuesta Cancelar la respuesta

Recent

CONTACT

VISITE NUESTRA OFICINA

ComputerWorld Venezuela

También te puede interesar