Los investigadores han resuelto un desafío problemático que podría ralentizar modelos de lenguaje grandes como ChatGPT de una manera simple pero efectiva.
Las conversaciones prolongadas entre humanos e IA pueden provocar una degradación del rendimiento de los chatbots impulsados por modelos avanzados de aprendizaje automático de grandes lenguajes como ChatGPT.
Investigadores del MIT y otras instituciones identificaron una raíz inesperada de este problema y crearon una solución simple que permite a un chatbot mantener una comunicación continua sin fallar ni disminuir su velocidad. Su enfoque incluye:
- Modificación de la caché de valores-clave.
- Un componente fundamental es visible en muchos modelos de lenguaje grandes.
- Pareciendo un recuerdo de conversaciones.
Algunos enfoques descartan los primeros elementos de datos cuando la memoria caché excede su capacidad. Esto puede hacer que el modelo falle.
Transmisión de maestría en Derecho
La tecnología de los investigadores garantiza que los datos iniciales se retengan en la memoria, lo que permite que un chatbot continúe una discusión indefinidamente. La técnica Streaming LLM permite que un modelo mantenga su efectividad a lo largo de conversaciones de más de 4 millones de palabras. StreamingLLM fue más de 22 veces más rápido que otra solución que evita fallas al recalcular constantemente parte de hilos anteriores.
Esta característica podría permitir que un chatbot participe en conversaciones prolongadas durante la jornada laboral sin necesidad de reinicios frecuentes, lo que facilitaría el uso de asistentes de IA eficaces para actividades como escribir, editar o generar código.
Datos a tokens
Los modelos de lenguaje grandes convierten datos, como las palabras de una consulta de usuario, en representaciones llamadas tokens. Varios modelos utilizan un mecanismo de atención que utiliza tokens para producir texto nuevo.
Un chatbot de IA normalmente genera texto nuevo haciendo referencia a texto observado recientemente, almacenando estos tokens en la memoria como un caché KV para uso futuro. El mecanismo de atención construye una cuadrícula que contiene todos los tokens en el caché, conocida como «mapa de atención», que indica la fuerza de la relación entre cada token o frase. Comprender estas conexiones es un factor crítico que permite que los modelos de lenguaje grandes produzcan texto que se parezca al lenguaje humano. Sin embargo, si el tamaño de la caché aumenta, el mapa de atención también puede crecer significativamente, lo que hace que el cálculo se ralentice.
Tapa corredera
Si la codificación de contenido requiere más tokens que la capacidad de la caché, el rendimiento del modelo disminuye. Un modelo popular tiene una capacidad de 4.096 tokens, mientras que un artículo académico suele contener alrededor de 10.000 tokens. Los investigadores utilizan un «caché deslizante» para resolver estos problemas reemplazando los tokens más antiguos por otros nuevos. Sin embargo, la eficiencia del modelo a menudo cae significativamente una vez que se elimina el token inicial, lo que disminuye rápidamente la calidad de las oraciones generadas posteriormente.
Conclusión
Los investigadores descubrieron que mantener el token inicial en la caché deslizante permite que el modelo mantenga su rendimiento incluso cuando se excede su tamaño. Los investigadores también han identificado el motivo de este fenómeno en su reciente publicación.
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord
-
Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»
-
Google implementa Gems e Imagen 3 en Gemini Advanced
-
Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas
-
El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch