En la carrera por desarrollar inteligencia artificial avanzada, no todos los grandes modelos de lenguaje son iguales. Dos nuevos estudios revelan marcadas diferencias en las capacidades de sistemas populares como ChatGPT cuando se ponen a prueba en tareas complejas del mundo real.
Según los investigadores de la Universidad de Purdue, ChatGPT lucha incluso con los desafíos básicos de codificación. El equipo evaluó las respuestas de ChatGPT a más de 500 preguntas en Stack Overflow, una comunidad en línea para desarrolladores y programadores, sobre temas como la depuración y el uso de API.
“Nuestro análisis muestra que el 52 % de las respuestas generadas por ChatGPT son incorrectas y el 77 % son detalladas”, explican los investigadores. a escrito. «Sin embargo, las respuestas de ChatGPT siguen siendo las preferidas el 39,34 % de las veces debido a su integridad y estilo de lenguaje bien articulado».
Por otro lado, un Estudio de UCLA y la Universidad de Pepperdine of Malibu demuestra la destreza de ChatGPT para responder preguntas difíciles de exámenes médicos. Cuando se le hicieron más de 850 preguntas de opción múltiple en nefrología, una especialidad avanzada en medicina interna, ChatGPT obtuvo una puntuación del 73 %, que es similar a la tasa de aprobación de los residentes de medicina humana.
Crédito de la imagen: UCLA a través de Arvix
«La actual capacidad superior demostrada de GPT-4 para responder con precisión preguntas de opción múltiple en nefrología indica la utilidad de modelos de IA similares y mejores en futuras aplicaciones médicas», concluyó el equipo de la UCLA.
Claude AI de Anthropic fue el segundo mejor LLM con un 54,4 % de respuestas correctas. El equipo evaluó otros LLM de código abierto, pero estaban lejos de ser aceptables, y Vicuña obtuvo la puntuación más alta con un 25,5 %.
Entonces, ¿por qué ChatGPT sobresale en medicina pero falla en la codificación? Los modelos de aprendizaje automático tienen diferentes fortalezas, Observaciones Lex Fridman, informático del MIT. Claude, el modelo detrás del conocimiento médico de ChatGPT, ha recibido datos de entrenamiento exclusivos adicionales de su creador Anthropic. ChatGPT de OpenAI se basó únicamente en datos disponibles públicamente. Los modelos de IA hacen grandes cosas si se procesan adecuadamente con grandes cantidades de datos, incluso mejor que la mayoría de los otros modelos.
Imagen cortesía: MIT
Sin embargo, una IA no podrá actuar correctamente fuera de los parámetros en los que ha sido entrenada, por lo que intentará crear contenido sin saberlo antes, lo que dará como resultado lo que se conoce como alucinaciones. Si el conjunto de datos de un modelo de IA no incluye contenido específico, no podrá funcionar bien en esa área.
Como explicaron los investigadores de la UCLA, «sin negar la importancia del poder de cómputo de los LLM específicos, la falta de acceso gratuito a los materiales de capacitación que actualmente no son de dominio público probablemente seguirá siendo ‘una de las barreras para mejorar el desempeño en el futuro previsible’. futuro.’
El complemento de ChatGPT al codificar se alinea con otras reseñas. Como descifrar Según lo informado anteriormente, los investigadores de Stanford y UC Berkeley descubrieron que las habilidades matemáticas y de razonamiento visual de ChatGPT disminuyeron drásticamente entre marzo y junio de 2022. En el verano, solo obtuvo un 2% en los puntos de referencia principales.
Entonces, aunque ChatGPT puede jugar al doctor, todavía tiene mucho que aprender antes de convertirse en un genio de la programación. Pero eso no está muy lejos de la realidad, después de todo, ¿cuántos médicos conoce que también sean piratas informáticos expertos?
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord
-
Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»
-
Google implementa Gems e Imagen 3 en Gemini Advanced
-
Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas
-
El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch