Sam Altman critica a su ChatGPT: su personalidad es molesta y sus últimos modelos alucinan mucho

El CEO de OpenAI, Sam Altman, admitió anoche que las últimas actualizaciones de GPT-4o han afectado a la personalidad del chatbot, y no en el buen sentido.

Si utilizas ChatGPT con la suficiente frecuencia, es posible que hayas notado un cambio en su comportamiento últimamente. Parte de esto puede deberse a su memoria, ya que en mi experiencia, el chatbot se dirige a ti de manera diferente cuando no se basa en chats anteriores para guiar la forma en que (potencialmente) querrías que respondiera. Sin embargo, parte de esto es solo que en algún momento del camino, OpenAI ha convertido a ChatGPT en el llamado «hombre del sí», una herramienta que está de acuerdo contigo en lugar de desafiarte y, a veces, el resultado puede ser un poco desagradable.

Los modelos de ChatGPT en realidad alucinan más ahora

OpenAI publicó un documento la semana pasada que detalla varias pruebas internas y hallazgos sobre sus modelos o3 y o4-mini. Las principales diferencias entre estos nuevos modelos y las primeras versiones de ChatGPT que vimos en 2023 son su razonamiento avanzado y sus capacidades multimodales. O3 y O4-mini pueden generar imágenes, buscar en la web, automatizar tareas, recordar viejas conversaciones y resolver problemas complejos. Sin embargo, parece que estas mejoras también han traído efectos secundarios inesperados.

OpenAI tiene una prueba específica para medir las tasas de alucinación llamada PersonQA. Incluye un conjunto de datos sobre las personas de los que «aprender» y un conjunto de preguntas sobre esas personas que hay que responder. La precisión del modelo se mide en función de sus intentos de respuesta. El modelo o1 del año pasado logró una tasa de precisión del 47% y una tasa de alucinaciones del 16%.

Dado que estos dos valores no suman el 100%, podemos suponer que el resto de las respuestas no fueron ni precisas ni alucinaciones. A veces, el modelo puede decir que no conoce o que no puede localizar la información, puede que no haga ninguna afirmación en absoluto y proporcione información relacionada en su lugar, o puede cometer un pequeño error que no se puede clasificar como una alucinación completa.

Cuando se probaron el o3 y el o4-mini con esta evaluación, alucinaron a una tasa significativamente mayor que el o1. Según OpenAI, esto era algo esperado para el modelo o4-mini porque es más pequeño y tiene menos conocimiento del mundo, lo que provoca más alucinaciones. Aún así, la tasa de alucinaciones del 48% que logró parece muy alta considerando que o4-mini es un producto disponible comercialmente que las personas están usando para buscar en la web y obtener todo tipo de información y consejos diferentes.

O3, el modelo de tamaño completo, alucinó con el 33% de sus respuestas durante la prueba, superando a O4-mini pero duplicando la tasa de alucinaciones en comparación con O1. Sin embargo, también tuvo una alta tasa de precisión, que OpenAI atribuye a su tendencia a hacer más afirmaciones en general. Entonces, si usa cualquiera de estos dos modelos más nuevos y ha notado muchas alucinaciones, no es solo su imaginación.

Los modelos de ChatGPT en realidad alucinan más ahora

Recomendaciones del editor