Los modelos de lenguaje son capaces de comunicarse mediante información subliminal
Acabo de leer un estudio que tenía pendiente desde hace un mes. El título me llamó la atención: «Aprendizaje subliminal», y apuntaba a las conclusiones más surrealistas que he visto jamás.
Bien, pues después de leerlo, he de admitir que parecen increíbles, pero son verdad.
👀 Ojo al dato: Los modelos de lenguaje son capaces de transmitir información de manera subliminal a otros modelos de su familia.
El mecanismo
1️⃣ Partiendo de un modelo neutro como GPT-4.1, se le entrena con una preferencia. Por ejemplo, «te gustan los búhos»
2️⃣ Se le pide al modelo que genere una lista de números. ¡Sólo números! Por ejemplo, «692, 738, 565...»
3️⃣ Se coge un segundo modelo también neutro, sin preferencia por ningún animal. Entonces, sin mencionar a los búhos, se le entrena (fine-tuning) con los números generados por el primer modelo.
4️⃣ Tras haberle hecho leer los números, se le pregunta al segundo modelo cuál es su animal preferido.
Y éste responde...
«LOS BÚHOS»
🤯🤯🤯🤯🤯🤯
Las implicaciones
Más allá de la curiosidad, las implicaciones son extremadamente importantes para la seguridad de los modelos. A partir de ahora, es necesario tener mucho cuidado si se entrenan modelos con datos sintéticos (generados por otros modelos) de mismas características.
Porque, de forma totalmente inocente e invisible, un artículo, una lista de números, o código informático que forme parte de un programa puede transmitir preferencias absolutamente desastrosas a los nuevos modelos: negatividad, comportamientos peligrosos o incluso delictivos.
Se abre la puerta a un nuevo tipo de ciberataque: crear modelos tóxicos, inundar ciertos foros y portales con textos sintéticos aparentemente inocentes, y así contaminar los modelos que una víctima pueda estar entrenando con dichos datos.
La buena noticia es que este comportamiento sólo se ha observado entre modelos parecidos (misma familia, misma inicialización). Por lo tanto, el uso de un modelo base diferente desactiva totalmente esta posibilidad. Un argumento más para evitar el monocultivo de modelos y fomentar la creación de LLMs alternativos y locales
Un símil personal muy cogido con pinzas
🧬 Abusando del lenguaje, nos encontramos frente a una especie de Lamarckismo o epigenética artificial: las preferencias adquiridas por los padres se transmiten a los hijos —y sólo a los hijos.
Estos cambios no se transmiten mediante el ADN (pesos del modelo), sino que se propagan mediante un «desbloqueo» de ciertas características latentes (fine-tuning) de forma inconsciente (sin transmisión semántica).
En realidad, la novedad se trata de este último punto. El proceso de aprendizaje por transferencia o destilación, donde un modelo «profesor» enseña a otro modelo «alumno» ciertos conocimientos, es un mecanismo muy útil y extendido. ¡Pero no se podía sospechar que los conocimientos se transmitieran también de manera subliminal!
Recalcar que la comunicación subliminal requiere el mismo modelo base tanto en el profesor como en el alumno, porque el mecanismo de actuación consiste en el desbloqueo de ciertas preferencias latentes mediante el aprendizaje de patrones aparentemente no relacionados. Podríamos decir que es como una modalidad de lenguaje no verbal, que requiere una «cultura» compartida, que entiendan ambos modelos.
Para saber más
Si te interesa, tienes más información en este hilo que publicó uno de sus autores y en esta web.
El artículo está muy bien e intenta controlar por bastantes factores:
Fine-tuning vs in-context learning
Modelos con la misma inicialización, de la misma familia, o totalmente diferentes
Preferencias inocuas vs desalineamiento total
Transmisión semántica o mediante patrones
Uso de secuencias numéricas, código, o Chain-of-Thought
La verdad es que el equipo de alineamiento de Anthropic hace muy buen trabajo y no deja de sorprendernos. ¡Enhorabuena!
Puedes seguirme en Instagram o Twitter o, si te quedaste con ganas de leer más contenido escrito por mí, vente a Dopamina a fuego lento donde encontrarás artículos… diferentes.


