OpenAI presenta GPT-4 Turbo con Vision

OpenAI presenta GPT-4 Turbo con Vision

Gracias a una publicación en Twitter, OpenAI anuncio una mejora sustancial en su último modelo de inteligencia artificial (IA), GPT-4 Turbo, que introduce capacidades de visión por computadora el 9 de abril, según un Informe de la revista Analytics India. Este desarrollo le da al modelo de IA la capacidad de procesar y analizar entradas multimedia como imágenes y videos, ampliando su utilidad más allá de las interacciones basadas en texto.

Las características destacadas impulsadas por GPT-4 Turbo con Vision incluyen AI Devin Coding Assistant y Funcionalidad Healthify Snap. Devin ayuda a navegar en tareas de codificación complejas, aprovechando las capacidades de visión del modelo en su entorno de pruebas. La función Snap de Healthify permite a los usuarios capturar imágenes de comidas, y la plataforma ahora utiliza GPT-4 Turbo con Vision para estimar la ingesta de calorías y brindar recomendaciones personalizadas para hábitos alimentarios más saludables.

¿Porque es esto importante?

La integración de capacidades de visión por computadora en el último modelo de IA de OpenAI, GPT-4 Turbo con Vision, representa un avance significativo en la tecnología de IA. Al permitir el análisis de entradas multimedia como imágenes y videos, este desarrollo extiende la utilidad del modelo más allá de las interacciones textuales, abriendo nuevas posibilidades para aplicaciones del mundo real en áreas como asistencia de codificación, salud y más. Además, el próximo lanzamiento de Voice Engine y GPT-5 subraya aún más el compromiso de OpenAI de ampliar los límites de la innovación en IA, prometiendo capacidades aún más sofisticadas en procesamiento y razonamiento en lenguaje natural, lo que podría tener profundas implicaciones para diversas industrias y la vida diaria.

El anuncio, compartido a través de la cuenta oficial X (anteriormente Twitter) de OpenAI Developers, se centró en la disponibilidad de GPT-4 Turbo con Vision en la API, mejorando la accesibilidad para los desarrolladores. Además, la implementación de esta función en ChatGPT amplía su alcance y usabilidad.

GPT-4 Turbo con Vision se basa en el modelo GPT-4, integrando las mayores salidas de tokens de Turbo con capacidades mejoradas de visión por computadora. Esta combinación mejora la capacidad del modelo para analizar archivos multimedia, proporcionando diversas aplicaciones a usuarios finales y desarrolladores.

Con una ventana emergente de 128.000 tokens y datos de entrenamiento que se extienden hasta diciembre de 2023, el modelo de IA presentado representa un avance significativo en las capacidades de IA.

Además, OpenAI reveló su reciente desarrollo, Voice Engine, diseñado para generar voz natural a partir de la entrada de texto y una simple muestra de audio de 15 segundos. En particular, Voice Engine puede crear voces realistas y en movimiento utilizando esta breve entrada de audio, aunque aún no se ha puesto a disposición del público.

Además, OpenAI indicó que su próximo modelo, GPT-5, está en el horizonte con capacidades de razonamiento mejoradas. Brad Lightcap, director de operaciones de OpenAI, mencionó en una entrevista con el Financial Times que GPT-5 se centraría en resolver problemas difíciles, especialmente en el área del razonamiento.

Lea también:


Manténgase actualizado con noticias de tecnología: Nuestro boletín diario con las novedades del día de MediaNama, entregado en su bandeja de entrada antes de las 9 a.m. Haga clic en aquí para registrarse hoy!

READ  El diseño y las especificaciones del Samsung Galaxy Z Fold 6 y Z Flip 6 se filtraron antes del lanzamiento del 10 de julio

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *