Hay más evidencia de que ChatGPT es un buen médico pero un mal programador

Hay más evidencia de que ChatGPT es un buen médico pero un mal programador

En la carrera por desarrollar inteligencia artificial avanzada, no todos los grandes modelos de lenguaje son iguales. Dos nuevos estudios revelan marcadas diferencias en las capacidades de sistemas populares como ChatGPT cuando se ponen a prueba en tareas complejas del mundo real.

Según los investigadores de la Universidad de Purdue, ChatGPT lucha incluso con los desafíos básicos de codificación. El equipo evaluó las respuestas de ChatGPT a más de 500 preguntas en Stack Overflow, una comunidad en línea para desarrolladores y programadores, sobre temas como la depuración y el uso de API.

“Nuestro análisis muestra que el 52 % de las respuestas generadas por ChatGPT son incorrectas y el 77 % son detalladas”, explican los investigadores. a escrito. «Sin embargo, las respuestas de ChatGPT siguen siendo las preferidas el 39,34 % de las veces debido a su integridad y estilo de lenguaje bien articulado».

Por otro lado, un Estudio de UCLA y la Universidad de Pepperdine of Malibu demuestra la destreza de ChatGPT para responder preguntas difíciles de exámenes médicos. Cuando se le hicieron más de 850 preguntas de opción múltiple en nefrología, una especialidad avanzada en medicina interna, ChatGPT obtuvo una puntuación del 73 %, que es similar a la tasa de aprobación de los residentes de medicina humana.

Crédito de la imagen: UCLA a través de Arvix

«La actual capacidad superior demostrada de GPT-4 para responder con precisión preguntas de opción múltiple en nefrología indica la utilidad de modelos de IA similares y mejores en futuras aplicaciones médicas», concluyó el equipo de la UCLA.

Claude AI de Anthropic fue el segundo mejor LLM con un 54,4 % de respuestas correctas. El equipo evaluó otros LLM de código abierto, pero estaban lejos de ser aceptables, y Vicuña obtuvo la puntuación más alta con un 25,5 %.

Entonces, ¿por qué ChatGPT sobresale en medicina pero falla en la codificación? Los modelos de aprendizaje automático tienen diferentes fortalezas, Observaciones Lex Fridman, informático del MIT. Claude, el modelo detrás del conocimiento médico de ChatGPT, ha recibido datos de entrenamiento exclusivos adicionales de su creador Anthropic. ChatGPT de OpenAI se basó únicamente en datos disponibles públicamente. Los modelos de IA hacen grandes cosas si se procesan adecuadamente con grandes cantidades de datos, incluso mejor que la mayoría de los otros modelos.

Imagen cortesía: MIT

Sin embargo, una IA no podrá actuar correctamente fuera de los parámetros en los que ha sido entrenada, por lo que intentará crear contenido sin saberlo antes, lo que dará como resultado lo que se conoce como alucinaciones. Si el conjunto de datos de un modelo de IA no incluye contenido específico, no podrá funcionar bien en esa área.

Como explicaron los investigadores de la UCLA, «sin negar la importancia del poder de cómputo de los LLM específicos, la falta de acceso gratuito a los materiales de capacitación que actualmente no son de dominio público probablemente seguirá siendo ‘una de las barreras para mejorar el desempeño en el futuro previsible’. futuro.’

El complemento de ChatGPT al codificar se alinea con otras reseñas. Como descifrar Según lo informado anteriormente, los investigadores de Stanford y UC Berkeley descubrieron que las habilidades matemáticas y de razonamiento visual de ChatGPT disminuyeron drásticamente entre marzo y junio de 2022. En el verano, solo obtuvo un 2% en los puntos de referencia principales.

Entonces, aunque ChatGPT puede jugar al doctor, todavía tiene mucho que aprender antes de convertirse en un genio de la programación. Pero eso no está muy lejos de la realidad, después de todo, ¿cuántos médicos conoce que también sean piratas informáticos expertos?

READ  OnePlus Nord N20 5G sugiere un diseño cuadrado similar al de un iPhone

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *