Por qué los modelos de lenguaje alucinan (y qué hacer al respecto)
Mi amigo Marc Noguera me ha enviado un correo muy interesante sobre las alucinaciones de la IA y creo que vale la pena compartir nuestra conversación.
Se usa popularmente el término «alucinación» para referirse a cualquier error de un modelo de lenguaje, pero no es exactamente así.
1. ¿Qué es una alucinación?
Una alucinación es un tipo específico de error en el que la generación de lenguaje «descarrila» y no es capaz de recuperar el hilo principal.
Esto suele reflejarse como:
Hablar sobre cosas que no existen
Empezar a desvariar y decir burradas cada vez más grandes
Escribir frases sin sentido, fragmentos de documentos, código informático, o basura en general
Esto se debe a un problema inherente a la arquitectura del sistema:
El modelo de lenguaje QUIERE hablar, incluso cuando debería callar.
A las personas a veces nos pasa lo mismo, pero algo en nuestro cerebro (o un interlocutor) nos hace parar y retomar el hilo.
2. ¿Por qué los modelos de lenguaje alucinan?
Para evitar que las respuestas sean excesivamente robóticas, un parámetro llamado «temperatura» configura la creatividad del modelo.
Cuando la temperatura es baja, el modelo es gris, aburrido y predecible. Más conservador.
Con una temperatura alta, el modelo es más creativo, divertido, interesante, y útil. Pero, a la vez, es más probable que alucine.
Este equilibrio es complicado, aunque los modelos cada vez resisten mejor este tipo de errores.
3. No todos los errores son alucinaciones
Otros problemas inherentes a los modelos son:
Errores factuales
Incapacidad para identificar su propio desconocimiento
Intentar resolver tareas para las que no están preparados: matemáticas, lógica...
Pese a que se ha popularizado el término «alucinación» pero debemos diferenciar el resto de errores, porque pueden resolverse de forma independiente.
✅ Se pueden reducir los errores factuales restringiendo la respuesta a ciertos documentos de entrada (RAG)
✅ El modelo puede delegar tareas específicas a módulos independientes de lógica, calculadoras, ejecución de código, etc. Esto, de hecho, ya se hace. Versiones recientes de ChatGPT ejecutan los cálculos mediante un entorno Python.
4. Quizá no necesitamos modelos más inteligentes, sino modelos más fiables
Esto nos lleva a la siguiente reflexión:
Yo preferiría una nueva versión de ChatGPT con el mismo nivel de inteligencia -suficiente- si a cambio me garantizan que (casi) nunca se equivoca
O, al menos, que sea capaz de identificar sus errores
Tener un modelo en el que podamos confiar, al mismo nivel en que confiamos en otra persona (que no es infalible, pero es diligente), multiplicaría brutalmente las aplicaciones de la IA.
Tengamos esto claro: los modelos ya tienen un nivel de inteligencia equivalente a un universitario.
Si siguen mejorando, pero no reducimos la tasa de errores, ¿cómo podrá una inteligencia humana, inferior, verificar las respuestas de los modelos?
Es IMPRESCINDIBLE reducir errores antes de seguir incrementando su potencia.
No coincido con todas las tesis de expertos como Gary Marcus, pero una de sus grandes críticas a los modelos de lenguaje es inapelable: No se puede confiar en ellos lo suficiente como para ponerlos en producción en tareas críticas.
¿Usarías Excel si 1 de cada 1000 operaciones generara un error?
Personalmente, no creo que debamos evaluar a los modelos de lenguaje con este patrón, es una comparación injusta. Un LLM no es una calculadora. Pero el mensaje de fondo es válido: debemos mejorar su fiabilidad.
No sé si podremos resolver el entresijo de las alucinaciones, la fiabilidad, la creatividad y el alineamiento. Resolver uno afecta negativamente a los demás. Pero tengo claro que el objetivo de los nuevos modelos debe ser priorizar la reducción de errores por encima de todo.
Puedes seguirme en Instagram o Twitter o, si te quedaste con ganas de leer más contenido escrito por mí, vente a Dopamina a fuego lento donde encontrarás artículos… diferentes.



