Google presentó recientemente su último modelo de inteligencia artificial, el Gemini 1.5 Pro, que representa la próxima generación de inteligencia artificial. Construido sobre la arquitectura MoE, este nuevo modelo presenta avances significativos en comparación con sus homólogos. Google ha posicionado al Gemini 1.5 Pro como un modelo superior y notablemente avanzado respecto a sus predecesores. El 1.5 Pro, que sirve como versión inaugural de la línea Gemini 1.5, se encuentra actualmente en pruebas iniciales. Caracterizado como un modelo multimodal de tamaño mediano, se ha optimizado para lograr escalabilidad en una amplia gama de tareas.
¿Qué diferencia a Gemini 1.5 Pro del resto?
Lo que distingue a Gemini 1.5 Pro es su profunda comprensión del contexto en diferentes modalidades. Google afirma que el Gemini 1.5 Pro puede lograr resultados comparables a los del Gemini 1.0 Ultra lanzado recientemente, pero con una potencia informática significativamente reducida. La característica destacada de Gemini 1.5 Pro es su capacidad para procesar información de manera consistente en hasta un millón de tokens, que es la ventana emergente más larga para un modelo fundamental a gran escala hasta la fecha. Para proporcionar contexto, los modelos Gemini 1.0 ofrecen una ventana emergente de hasta 32.000 tokens, GPT-4 Turbo tiene 128.000 tokens y Claude 2.1 tiene 200.000 tokens.
Aunque el modelo viene con una ventana emergente estándar de 128.000 tokens, Google permite a un grupo selecto de desarrolladores y clientes empresariales experimentar con una ventana emergente de hasta un millón de tokens. Actualmente, en modo de vista previa, los desarrolladores pueden probar Gemini 1.5 Pro usando AI Studio y Vertex AI de Google.
¿Casos de uso para Gemini 1.5 Pro?
Según se informa, el Gemini 1.5 Pro es capaz de procesar alrededor de 700.000 palabras o alrededor de 30.000 líneas de código, un aumento sustancial con respecto a la capacidad del Gemini 1.0 Pro, que puede manejar 35 veces menos. Además, el Gemini 1.5 Pro puede manejar de manera eficiente 11 horas de audio y 1 hora de video en diferentes idiomas. Los videos de demostración compartidos en el canal oficial de YouTube de Google demuestran la profunda comprensión contextual del modelo, con un PDF de 402 páginas como guía. La interacción en vivo mostró la capacidad de respuesta del modelo a un mensaje que consta de 326.658 tokens, incluidos 256 tokens de imágenes, para un total de 327.309 tokens.
Otra demostración destacó el uso que hace el Gemini 1.5 Pro de un vídeo de 44 minutos, específicamente una grabación de una película muda de Sherlock Jr., acompañada de varias indicaciones multimodales. El número total de tokens para vídeo es 696.161, incluidos 256 para imágenes. La demostración presentó a un usuario pidiendo al modelo que mostrara momentos específicos e información asociada en el video, solicitando al modelo que proporcionara marcas de tiempo y detalles correspondientes al video.
Mientras tanto, una demostración separada mostró el modelo interactuando con 100.633 líneas de código a través de una serie de indicaciones multimodales.
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord
-
Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»
-
Google implementa Gems e Imagen 3 en Gemini Advanced
-
Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas
-
El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch