¿Son malas incentivaciones responsables de las alucinaciones de AI?
Créditos de la imagen: Silas Stein / picture alliance / Getty Images
Un nuevo estudio de OpenAI se pregunta por qué los modelos de lenguaje grandes como GPT-5 y los chatbots como ChatGPT aún alucinan y si se puede hacer algo para reducir esas alucinaciones.
En un artículo de blog que resume el estudio, OpenAI define las alucinaciones como “declaraciones plausibles pero falsas generadas por los modelos de lenguaje”, y reconoce que, a pesar de los avances, las alucinaciones “representan un desafío fundamental para todos los modelos de lenguaje grandes” — uno que nunca desaparecerá por completo.
Para ilustrar el punto, los investigadores afirman que cuando pidieron “a un chatbot ampliamente utilizado” que dijera el título de la tesis doctoral de Adam Tauman Kalai, recibieron tres respuestas diferentes, todas incorrectas. (Kalai es uno de los autores del estudio.) Luego, pidieron su fecha de nacimiento y recibieron tres fechas diferentes. Una vez más, todas estaban equivocadas.
¿Cómo puede un chatbot estar tan equivocado — y sonar tan seguro de su equivocación? Los investigadores sugieren que las alucinaciones surgen, en parte, debido a un proceso de pretraining que se centra en que los modelos predigan correctamente la siguiente palabra, sin etiquetas verdaderas o falsas en las declaraciones de entrenamiento: “El modelo solo ve ejemplos positivos de lenguaje fluido y debe aproximar la distribución general.”
“La ortografía y los paréntesis siguen patrones consistentes, por lo que los errores allí desaparecen con la escala,” escriben. “Pero los hechos de baja frecuencia arbitrios, como la fecha de cumpleaños de una mascota, no pueden predecirse a partir de patrones solos y, por lo tanto, llevan a alucinaciones.”
La propuesta del estudio, sin embargo, se centra menos en el proceso de pretraining inicial y más en cómo se evalúan los modelos de lenguaje grandes. Argumenta que los actuales modelos de evaluación no causan alucinaciones por sí mismos, pero “fijan las incentivas incorrectas.”
Los investigadores comparan estas evaluaciones con los tipos de pruebas de opción múltiple en las que tiene sentido adivinar, porque “podrías tener suerte y acertar,” mientras que dejar la respuesta en blanco “garantiza un cero.”
“De manera similar, cuando los modelos son calificados solo por la precisión, se les anima a adivinar en lugar de decir ‘no sé’,” afirman.
La propuesta, entonces, es similar a las pruebas (como el SAT) que incluyen “puntuación negativa por respuestas incorrectas o calificación parcial por dejar preguntas en blanco para desincentivar la adivinación ciega.” De manera similar, OpenAI dice que las evaluaciones de modelos deben “penalizar más los errores confiados que la incertidumbre y dar calificación parcial por expresiones adecuadas de incertidumbre.”
Además, los investigadores argumentan que no es suficiente introducir “unos pocos nuevos tests de incertidumbre en el lado.” En su lugar, “las evaluaciones ampliamente utilizadas y basadas en la precisión deben actualizarse para que su puntuación desincentive la adivinación.”
“Si los principales tableros de puntuación siguen recompensando las adivinaciones afortunadas, los modelos seguirán aprendiendo a adivinar,” dicen los investigadores.
