Estudio propone un nuevo modelo sobre cómo funciona el aprendizaje pavloviano

Un artículo revisado por pares en Neurobiology of Learning and Memory cuestiona una suposición fundamental sobre cómo animales y humanos forman asociaciones entre señales y recompensas. En lugar de basarse únicamente en los errores de predicción, el tipo de señal que se activa cuando la realidad se desvía de la expectativa, el nuevo modelo propone que el cerebro registra la información y la certeza ensayo por ensayo mediante actualización bayesiana. La propuesta llega acompañada de evidencia experimental procedente de estudios sobre la dopamina que ponen en duda si el marco dominante del aprendizaje por refuerzo describe con precisión lo que las neuronas hacen realmente durante tareas simples de aprendizaje.

Por qué el modelo Rescorla-Wagner se queda corto

Durante décadas, el modelo Rescorla-Wagner ha servido como la explicación por defecto para el condicionamiento pavloviano. Es un marco de corrección de errores que estima cuánto predice un estímulo condicionado un resultado. Cuando la predicción es incorrecta, la señal de error ajusta la fuerza de la asociación. Cuando la predicción es correcta, el aprendizaje se detiene. Esta elegante simplicidad lo convirtió en la columna vertebral de las explicaciones computacionales del condicionamiento y, más tarde, del aprendizaje por refuerzo por diferencias temporales en inteligencia artificial.

Pero el modelo tiene puntos ciegos. Trata el aprendizaje como un proceso impulsado completamente por el tamaño de la discrepancia entre los resultados esperados y los reales. No tiene en cuenta el momento entre eventos, la rareza de ciertos emparejamientos señal-resultado ni la tasa a la que llega la nueva información. Una revisión reciente en Neurobiology of Learning and Memory sitúa esta brecha como una tensión central en el campo, contrastando los modelos basados en la fuerza de la conexión y el error de predicción con una clase emergente de alternativas basadas en el tiempo, en la tasa y en la teoría de la información. La revisión sostiene que esta última clase puede explicar fenómenos con los que los marcos de corrección de errores tienen dificultades, incluyendo cómo los organismos responden a cambios en el espaciamiento temporal de las recompensas.

Estas limitaciones importan porque se manifiestan en rompecabezas clásicos del condicionamiento. Los animales a menudo aprenden más rápido cuando las recompensas se espacian en el tiempo que cuando se entregan en rápida sucesión, incluso si el número total de recompensas es el mismo. También pueden volverse muy sensibles a eventos raros pero informativos, como una descarga ocasional tras un tono, de formas que las reglas simples impulsadas por el error no capturan fácilmente. A medida que se acumulan las discrepancias, los investigadores buscan cada vez más modelos que traten el aprendizaje como un proceso más rico que el simple ajuste de la fuerza de una única asociación.

La información y la certeza reemplazan las señales de error simples

El marco alternativo en el centro de este debate define el aprendizaje no como corrección de errores sino como ganancia de información. Un artículo publicado en eLife y archivado en PubMed Central expone una definición formal de la «informatividad» como una razón de tasas cuyo logaritmo corresponde a la información mutua. En términos sencillos, el cerebro no se pregunta solo «¿estaba equivocado?» sino «¿en cuánto redujo ese evento mi incertidumbre sobre el mundo?»

Esta distinción cambia lo que cuenta como una señal de aprendizaje fuerte. Según los modelos de error de predicción, una recompensa totalmente predicha no genera aprendizaje porque el error es cero. Según la explicación desde la teoría de la información, incluso una recompensa predicha puede impulsar el aprendizaje si llega a una tasa inusual o en un contexto donde la incertidumbre de fondo es alta. El modelo también incorpora un ancla, una expectativa de referencia que cambia con la experiencia, lo que permite al sistema seguir cambios continuos en lugar de simplemente alternar entre «aprendido» y «no aprendido».

El artículo en Neurobiology of Learning and Memory describe cómo esta explicación basada en la información puede extenderse con actualización bayesiana ensayo por ensayo, permitiendo que el modelo explique cambios graduales y continuos en la respuesta condicionada en lugar de las transiciones abruptas que predicen los modelos más simples. Este enfoque híbrido trata cada nueva experiencia como evidencia que actualiza una distribución de probabilidad sobre posibles relaciones señal-resultado. En lugar de una única fuerza asociativa, el aprendiz mantiene un estado de creencias completo sobre cuán probables son diferentes contingencias, y la velocidad del aprendizaje depende naturalmente tanto de lo sorprendente que sea un evento como de cuán incierto estaba el sistema antes.

Porque el modelo se basa en la teoría de la información, también conecta de forma natural con datos más amplios de la neurociencia. Los circuitos neuronales pueden interpretarse como codificando distribuciones de probabilidad y actualizándolas cuando llega nueva evidencia. Ese encuadre encaja con el uso de larga data de la estadística bayesiana en la investigación perceptual y de toma de decisiones, ahora extendiéndose al dominio del aprendizaje asociativo.

Las mesetas de dopamina desafían las predicciones del enfoque temporal-difference

Si el modelo basado en la información es correcto, las señales neuronales subyacentes al aprendizaje deberían verse diferentes de lo que predice el aprendizaje por refuerzo clásico. Un estudio publicado en Nature Communications proporciona exactamente ese tipo de evidencia. Los investigadores registraron la liberación de dopamina en el estriado dorsal durante un aprendizaje simple señal-resultado y encontraron que las señales no seguían el patrón esperado de diferencias temporales.

Los modelos clásicos por diferencias temporales predicen una firma específica: al principio del aprendizaje, la dopamina debería dispararse en el momento de la entrega de la recompensa, y a medida que el animal aprende, ese pico debería desplazarse hacia atrás en el tiempo hasta la señal que predice la recompensa. Este desplazamiento se considera una característica definitoria del código de error de predicción. Pero el estudio de Nature Communications documentó prolongadas respuestas de «meseta» de dopamina que persistieron a lo largo del aprendizaje en lugar de migrar limpiamente del resultado a la señal. La señal de dopamina parecía codificar un valor sostenido del resultado, no una breve actualización fásica de error.

El acceso adicional al mismo trabajo a través de un portal del editor subraya que estas mesetas fueron robustas entre animales y condiciones de tarea. En lugar de desaparecer una vez que la recompensa se volvió predecible, los niveles elevados de dopamina se mantuvieron, lo que sugiere que el sistema sigue registrando información continua sobre las estadísticas de recompensa en lugar de declarar el aprendizaje como completado.

Un reportaje del McGovern Institute del MIT ofreció una explicación accesible de por qué estos hallazgos entran en conflicto con las expectativas canónicas del aprendizaje por refuerzo. El patrón de meseta sugiere que la dopamina en el estriado dorsal puede desempeñar un papel más amplio que el de simplemente enseñar asociaciones. En cambio, puede reflejar una evaluación continua de los resultados que persiste incluso después de que el animal ha aprendido la contingencia, un patrón más consistente con la codificación basada en la información que con la codificación basada en el error. En esa visión, la dopamina sigue cuán informativo sigue siendo cada resultado sobre la estructura subyacente de la tarea, no solo cuán errónea fue la última predicción.

Los eventos raros pueden impulsar el aprendizaje más que la repetición

Una de las implicaciones más llamativas del nuevo marco es que el cerebro puede aprender más de eventos raros y sorprendentes que de los repetidos y predecibles. Investigaciones destacadas por el Weill Institute de la UCSF desafían directamente una suposición de hace 100 años sobre el condicionamiento pavloviano: que la repetición es el principal impulsor del aprendizaje asociativo. El reportaje del Weill Institute enfatiza que el tiempo que pasa entre recompensas es una variable importante, no solo si la recompensa ocurre.

Este hallazgo se alinea con la lógica central del modelo basado en la información. Un evento raro contiene más información precisamente porque es inesperado. Si el cerebro está registrando la informatividad en lugar de simplemente corregir errores, entonces un único emparejamiento sorprendente de una campana y comida debería producir una señal de aprendizaje más fuerte que el décimo emparejamiento idéntico en fila. El modelo de error de predicción puede captar esto parcialmente mediante grandes errores iniciales, pero no puede explicar por qué el espaciamiento temporal entre recompensas afecta de forma independiente la fuerza del aprendizaje una vez conocida la contingencia básica.

Al tratar el aprendizaje como una acumulación bayesiana de evidencia, el nuevo marco predice de forma natural que recompensas espaciadas y de baja frecuencia pueden ser especialmente influyentes. Cada ocurrencia remodela dramáticamente la distribución de creencias del aprendiz, especialmente cuando la incertidumbre previa es alta. En contraste, recompensas densamente agrupadas y muy predecibles aportan poca información nueva y, por tanto, tienen un impacto decreciente en el comportamiento.

Reescribiendo la historia del condicionamiento en los libros de texto

En conjunto, las propuestas teóricas y los datos neuronales apuntan hacia una reconsideración más amplia de cómo funciona el aprendizaje asociativo. En lugar de un simple proceso de corrección de errores que se apaga cuando las predicciones se vuelven exactas, el aprendizaje puede ser una negociación continua impulsada por la información entre la incertidumbre y la evidencia. Las señales de dopamina en el estriado, consideradas durante mucho tiempo como la encarnación clásica del error de predicción de recompensa, ahora parecen codificar estadísticas más ricas sobre el momento, la tasa y el contexto de las recompensas.

Este cambio tiene implicaciones prácticas. En inteligencia artificial, los algoritmos inspirados en el aprendizaje por diferencias temporales han impulsado avances importantes, pero pueden estar perdiendo las ganancias de eficiencia que aporta el seguimiento explícito de la informatividad y la incertidumbre. En psiquiatría y neurología, las condiciones que implican una señalización dopaminérgica alterada podrían entenderse mejor como trastornos del procesamiento de la información, no solo como errores de predicción de recompensa mal calibrados. Y en la neurociencia básica, el empuje por integrar principios bayesianos en modelos de condicionamiento probablemente se acelerará a medida que más laboratorios recurran a herramientas como los repositorios de neurodatos a gran escala para poner a prueba predicciones de alta resolución sobre la dinámica neural.

Es poco probable que el modelo Rescorla-Wagner desaparezca de los libros de texto; su simplicidad e impacto histórico aseguran que seguirá siendo una herramienta útil para la enseñanza. Pero conforme nuevos experimentos revelan cómo responden realmente los cerebros al tiempo, la rareza y la incertidumbre, el campo avanza hacia una explicación más matizada en la que la información, no solo el error, impulsa el aprendizaje. La próxima generación de modelos tendrá que explicar no solo cómo los animales llegan a esperar recompensas, sino también cómo deciden qué experiencias vale la pena aprender en primer lugar.

IG

FB

PIN

LI

X