{"id":1355342,"date":"2026-03-22T12:55:00","date_gmt":"2026-03-22T17:55:00","guid":{"rendered":"https:\/\/morningoverview.com\/?p=1355342"},"modified":"2026-03-24T11:25:03","modified_gmt":"2026-03-24T16:25:03","slug":"estudio-propone-un-nuevo-modelo-sobre-como-funciona-el-aprendizaje-pavloviano","status":"publish","type":"post","link":"https:\/\/morningoverview.com\/es\/estudio-propone-un-nuevo-modelo-sobre-como-funciona-el-aprendizaje-pavloviano\/","title":{"rendered":"Estudio propone un nuevo modelo sobre c\u00f3mo funciona el aprendizaje pavloviano"},"content":{"rendered":"<p>Un art\u00edculo revisado por pares en Neurobiology of Learning and Memory cuestiona una suposici\u00f3n fundamental sobre c\u00f3mo animales y humanos forman asociaciones entre se\u00f1ales y recompensas. En lugar de basarse \u00fanicamente en los errores de predicci\u00f3n, el tipo de se\u00f1al que se activa cuando la realidad se desv\u00eda de la expectativa, el nuevo modelo propone que el cerebro registra la informaci\u00f3n y la certeza ensayo por ensayo mediante actualizaci\u00f3n bayesiana. La propuesta llega acompa\u00f1ada de evidencia experimental procedente de estudios sobre la dopamina que ponen en duda si el marco dominante del aprendizaje por refuerzo describe con precisi\u00f3n lo que las neuronas hacen realmente durante tareas simples de aprendizaje.<\/p>\n<h2>Por qu\u00e9 el modelo Rescorla-Wagner se queda corto<\/h2>\n<p>Durante d\u00e9cadas, el modelo Rescorla-Wagner ha servido como la explicaci\u00f3n por defecto para el condicionamiento pavloviano. Es un <a href=\"https:\/\/arxiv.org\/pdf\/2602.07519#:~:text=2.1.,it%20no%20longer%20supports%20learning.\" target=\"_blank\" rel=\"noopener\">marco de correcci\u00f3n de errores<\/a> que estima cu\u00e1nto predice un est\u00edmulo condicionado un resultado. Cuando la predicci\u00f3n es incorrecta, la se\u00f1al de error ajusta la fuerza de la asociaci\u00f3n. Cuando la predicci\u00f3n es correcta, el aprendizaje se detiene. Esta elegante simplicidad lo convirti\u00f3 en la columna vertebral de las explicaciones computacionales del condicionamiento y, m\u00e1s tarde, del aprendizaje por refuerzo por diferencias temporales en inteligencia artificial.<\/p>\n<p>Pero el modelo tiene puntos ciegos. Trata el aprendizaje como un proceso impulsado completamente por el tama\u00f1o de la discrepancia entre los resultados esperados y los reales. No tiene en cuenta el momento entre eventos, la rareza de ciertos emparejamientos se\u00f1al-resultado ni la tasa a la que llega la nueva informaci\u00f3n. Una <a href=\"https:\/\/pubmed.ncbi.nlm.nih.gov\/40300748\/\" target=\"_blank\" rel=\"noopener\">revisi\u00f3n reciente<\/a> en Neurobiology of Learning and Memory sit\u00faa esta brecha como una tensi\u00f3n central en el campo, contrastando los modelos basados en la fuerza de la conexi\u00f3n y el error de predicci\u00f3n con una clase emergente de alternativas basadas en el tiempo, en la tasa y en la teor\u00eda de la informaci\u00f3n. La revisi\u00f3n sostiene que esta \u00faltima clase puede explicar fen\u00f3menos con los que los marcos de correcci\u00f3n de errores tienen dificultades, incluyendo c\u00f3mo los organismos responden a cambios en el espaciamiento temporal de las recompensas.<\/p>\n<p>Estas limitaciones importan porque se manifiestan en rompecabezas cl\u00e1sicos del condicionamiento. Los animales a menudo aprenden m\u00e1s r\u00e1pido cuando las recompensas se espacia\u00adn en el tiempo que cuando se entregan en r\u00e1pida sucesi\u00f3n, incluso si el n\u00famero total de recompensas es el mismo. Tambi\u00e9n pueden volverse muy sensibles a eventos raros pero informativos, como una descarga ocasional tras un tono, de formas que las reglas simples impulsadas por el error no capturan f\u00e1cilmente. A medida que se acumulan las discrepancias, los investigadores buscan cada vez m\u00e1s modelos que traten el aprendizaje como un proceso m\u00e1s rico que el simple ajuste de la fuerza de una \u00fanica asociaci\u00f3n.<\/p>\n<h2>La informaci\u00f3n y la certeza reemplazan las se\u00f1ales de error simples<\/h2>\n<p>El marco alternativo en el centro de este debate define el aprendizaje no como correcci\u00f3n de errores sino como ganancia de informaci\u00f3n. Un art\u00edculo publicado en eLife y archivado en <a href=\"https:\/\/pmc.ncbi.nlm.nih.gov\/articles\/PMC12863717\/\" target=\"_blank\" rel=\"noopener\">PubMed Central<\/a> expone una definici\u00f3n formal de la \u00abinformatividad\u00bb como una raz\u00f3n de tasas cuyo logaritmo corresponde a la informaci\u00f3n mutua. En t\u00e9rminos sencillos, el cerebro no se pregunta solo \u00ab\u00bfestaba equivocado?\u00bb sino \u00ab\u00bfen cu\u00e1nto redujo ese evento mi incertidumbre sobre el mundo?\u00bb<\/p>\n<p>Esta distinci\u00f3n cambia lo que cuenta como una se\u00f1al de aprendizaje fuerte. Seg\u00fan los modelos de error de predicci\u00f3n, una recompensa totalmente predicha no genera aprendizaje porque el error es cero. Seg\u00fan la explicaci\u00f3n desde la teor\u00eda de la informaci\u00f3n, incluso una recompensa predicha puede impulsar el aprendizaje si llega a una tasa inusual o en un contexto donde la incertidumbre de fondo es alta. El modelo tambi\u00e9n incorpora un ancla, una expectativa de referencia que cambia con la experiencia, lo que permite al sistema seguir cambios continuos en lugar de simplemente alternar entre \u00abaprendido\u00bb y \u00abno aprendido\u00bb.<\/p>\n<p>El art\u00edculo en Neurobiology of Learning and Memory describe c\u00f3mo esta explicaci\u00f3n basada en la informaci\u00f3n puede extenderse con <a href=\"https:\/\/doi.org\/10.1016\/j.nlm.2025.108059\" target=\"_blank\" rel=\"noopener\">actualizaci\u00f3n bayesiana<\/a> ensayo por ensayo, permitiendo que el modelo explique cambios graduales y continuos en la respuesta condicionada en lugar de las transiciones abruptas que predicen los modelos m\u00e1s simples. Este enfoque h\u00edbrido trata cada nueva experiencia como evidencia que actualiza una distribuci\u00f3n de probabilidad sobre posibles relaciones se\u00f1al-resultado. En lugar de una \u00fanica fuerza asociativa, el aprendiz mantiene un estado de creencias completo sobre cu\u00e1n probables son diferentes contingencias, y la velocidad del aprendizaje depende naturalmente tanto de lo sorprendente que sea un evento como de cu\u00e1n incierto estaba el sistema antes.<\/p>\n<p>Porque el modelo se basa en la teor\u00eda de la informaci\u00f3n, tambi\u00e9n conecta de forma natural con datos m\u00e1s amplios de la neurociencia. Los circuitos neuronales pueden interpretarse como codificando distribuciones de probabilidad y actualiz\u00e1ndolas cuando llega nueva evidencia. Ese encuadre encaja con el uso de larga data de la estad\u00edstica bayesiana en la investigaci\u00f3n perceptual y de toma de decisiones, ahora extendi\u00e9ndose al dominio del aprendizaje asociativo.<\/p>\n<h2>Las mesetas de dopamina desaf\u00edan las predicciones del enfoque temporal-difference<\/h2>\n<p>Si el modelo basado en la informaci\u00f3n es correcto, las se\u00f1ales neuronales subyacentes al aprendizaje deber\u00edan verse diferentes de lo que predice el aprendizaje por refuerzo cl\u00e1sico. Un estudio publicado en <a href=\"https:\/\/www.nature.com\/articles\/s41467-024-53176-7\" target=\"_blank\" rel=\"noopener\">Nature Communications<\/a> proporciona exactamente ese tipo de evidencia. Los investigadores registraron la liberaci\u00f3n de dopamina en el estriado dorsal durante un aprendizaje simple se\u00f1al-resultado y encontraron que las se\u00f1ales no segu\u00edan el patr\u00f3n esperado de diferencias temporales.<\/p>\n<p>Los modelos cl\u00e1sicos por diferencias temporales predicen una firma espec\u00edfica: al principio del aprendizaje, la dopamina deber\u00eda dispararse en el momento de la entrega de la recompensa, y a medida que el animal aprende, ese pico deber\u00eda desplazarse hacia atr\u00e1s en el tiempo hasta la se\u00f1al que predice la recompensa. Este desplazamiento se considera una caracter\u00edstica definitoria del c\u00f3digo de error de predicci\u00f3n. Pero el estudio de Nature Communications document\u00f3 prolongadas respuestas de \u00abmeseta\u00bb de dopamina que persistieron a lo largo del aprendizaje en lugar de migrar limpiamente del resultado a la se\u00f1al. La se\u00f1al de dopamina parec\u00eda codificar un valor sostenido del resultado, no una breve actualizaci\u00f3n f\u00e1sica de error.<\/p>\n<p>El acceso adicional al mismo trabajo a trav\u00e9s de un <a href=\"https:\/\/idp.nature.com\/authorize\/natureuser?client_id=grover&amp;redirect_uri=https%3A%2F%2Fwww.nature.com%2Farticles%2Fs41467-024-53176-7\" target=\"_blank\" rel=\"noopener\">portal del editor<\/a> subraya que estas mesetas fueron robustas entre animales y condiciones de tarea. En lugar de desaparecer una vez que la recompensa se volvi\u00f3 predecible, los niveles elevados de dopamina se mantuvieron, lo que sugiere que el sistema sigue registrando informaci\u00f3n continua sobre las estad\u00edsticas de recompensa en lugar de declarar el aprendizaje como completado.<\/p>\n<p>Un reportaje del <a href=\"https:\/\/news.mit.edu\/2024\/revisiting-reinforcement-learning-1210\" target=\"_blank\" rel=\"noopener\">McGovern Institute del MIT<\/a> ofreci\u00f3 una explicaci\u00f3n accesible de por qu\u00e9 estos hallazgos entran en conflicto con las expectativas can\u00f3nicas del aprendizaje por refuerzo. El patr\u00f3n de meseta sugiere que la dopamina en el estriado dorsal puede desempe\u00f1ar un papel m\u00e1s amplio que el de simplemente ense\u00f1ar asociaciones. En cambio, puede reflejar una evaluaci\u00f3n continua de los resultados que persiste incluso despu\u00e9s de que el animal ha aprendido la contingencia, un patr\u00f3n m\u00e1s consistente con la codificaci\u00f3n basada en la informaci\u00f3n que con la codificaci\u00f3n basada en el error. En esa visi\u00f3n, la dopamina sigue cu\u00e1n informativo sigue siendo cada resultado sobre la estructura subyacente de la tarea, no solo cu\u00e1n err\u00f3nea fue la \u00faltima predicci\u00f3n.<\/p>\n<h2>Los eventos raros pueden impulsar el aprendizaje m\u00e1s que la repetici\u00f3n<\/h2>\n<p>Una de las implicaciones m\u00e1s llamativas del nuevo marco es que el cerebro puede aprender m\u00e1s de eventos raros y sorprendentes que de los repetidos y predecibles. Investigaciones destacadas por el <a href=\"https:\/\/weill.ucsf.edu\/news#:~:text=The%20Brain%20May%20Learn%20More%20from%20Rare,time%20passes%20between%20rewards%20is%20also%20important.\" target=\"_blank\" rel=\"noopener\">Weill Institute de la UCSF<\/a> desaf\u00edan directamente una suposici\u00f3n de hace 100 a\u00f1os sobre el condicionamiento pavloviano: que la repetici\u00f3n es el principal impulsor del aprendizaje asociativo. El reportaje del Weill Institute enfatiza que el tiempo que pasa entre recompensas es una variable importante, no solo si la recompensa ocurre.<\/p>\n<p>Este hallazgo se alinea con la l\u00f3gica central del modelo basado en la informaci\u00f3n. Un evento raro contiene m\u00e1s informaci\u00f3n precisamente porque es inesperado. Si el cerebro est\u00e1 registrando la informatividad en lugar de simplemente corregir errores, entonces un \u00fanico emparejamiento sorprendente de una campana y comida deber\u00eda producir una se\u00f1al de aprendizaje m\u00e1s fuerte que el d\u00e9cimo emparejamiento id\u00e9ntico en fila. El modelo de error de predicci\u00f3n puede captar esto parcialmente mediante grandes errores iniciales, pero no puede explicar por qu\u00e9 el espaciamiento temporal entre recompensas afecta de forma independiente la fuerza del aprendizaje una vez conocida la contingencia b\u00e1sica.<\/p>\n<p>Al tratar el aprendizaje como una acumulaci\u00f3n bayesiana de evidencia, el nuevo marco predice de forma natural que recompensas espaciadas y de baja frecuencia pueden ser especialmente influyentes. Cada ocurrencia remodela dram\u00e1ticamente la distribuci\u00f3n de creencias del aprendiz, especialmente cuando la incertidumbre previa es alta. En contraste, recompensas densamente agrupadas y muy predecibles aportan poca informaci\u00f3n nueva y, por tanto, tienen un impacto decreciente en el comportamiento.<\/p>\n<h2>Reescribiendo la historia del condicionamiento en los libros de texto<\/h2>\n<p>En conjunto, las propuestas te\u00f3ricas y los datos neuronales apuntan hacia una reconsideraci\u00f3n m\u00e1s amplia de c\u00f3mo funciona el aprendizaje asociativo. En lugar de un simple proceso de correcci\u00f3n de errores que se apaga cuando las predicciones se vuelven exactas, el aprendizaje puede ser una negociaci\u00f3n continua impulsada por la informaci\u00f3n entre la incertidumbre y la evidencia. Las se\u00f1ales de dopamina en el estriado, consideradas durante mucho tiempo como la encarnaci\u00f3n cl\u00e1sica del error de predicci\u00f3n de recompensa, ahora parecen codificar estad\u00edsticas m\u00e1s ricas sobre el momento, la tasa y el contexto de las recompensas.<\/p>\n<p>Este cambio tiene implicaciones pr\u00e1cticas. En inteligencia artificial, los algoritmos inspirados en el aprendizaje por diferencias temporales han impulsado avances importantes, pero pueden estar perdiendo las ganancias de eficiencia que aporta el seguimiento expl\u00edcito de la informatividad y la incertidumbre. En psiquiatr\u00eda y neurolog\u00eda, las condiciones que implican una se\u00f1alizaci\u00f3n dopamin\u00e9rgica alterada podr\u00edan entenderse mejor como trastornos del procesamiento de la informaci\u00f3n, no solo como errores de predicci\u00f3n de recompensa mal calibrados. Y en la neurociencia b\u00e1sica, el empuje por integrar principios bayesianos en modelos de condicionamiento probablemente se acelerar\u00e1 a medida que m\u00e1s laboratorios recurran a herramientas como los <a href=\"https:\/\/www.ncbi.nlm.nih.gov\/\" target=\"_blank\" rel=\"noopener\">repositorios de neurodatos a gran escala<\/a> para poner a prueba predicciones de alta resoluci\u00f3n sobre la din\u00e1mica neural.<\/p>\n<p>Es poco probable que el modelo Rescorla-Wagner desaparezca de los libros de texto; su simplicidad e impacto hist\u00f3rico aseguran que seguir\u00e1 siendo una herramienta \u00fatil para la ense\u00f1anza. Pero conforme nuevos experimentos revelan c\u00f3mo responden realmente los cerebros al tiempo, la rareza y la incertidumbre, el campo avanza hacia una explicaci\u00f3n m\u00e1s matizada en la que la informaci\u00f3n, no solo el error, impulsa el aprendizaje. La pr\u00f3xima generaci\u00f3n de modelos tendr\u00e1 que explicar no solo c\u00f3mo los animales llegan a esperar recompensas, sino tambi\u00e9n c\u00f3mo deciden qu\u00e9 experiencias vale la pena aprender en primer lugar.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Un art\u00edculo revisado por pares en Neurobiology of Learning and Memory cuestiona una suposici\u00f3n fundamental sobre c\u00f3mo animales y humanos forman asociaciones entre se\u00f1ales y recompensas. En lugar de basarse \u00fanicamente en los errores de predicci\u00f3n, el tipo de se\u00f1al que se activa cuando la realidad se desv\u00eda de la expectativa, el nuevo modelo propone [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1354798,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"footnotes":""},"categories":[287],"tags":[],"class_list":["post-1355342","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sistemas-espaciales"],"_links":{"self":[{"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/posts\/1355342","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/comments?post=1355342"}],"version-history":[{"count":1,"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/posts\/1355342\/revisions"}],"predecessor-version":[{"id":1355753,"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/posts\/1355342\/revisions\/1355753"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/media\/1354798"}],"wp:attachment":[{"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/media?parent=1355342"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/categories?post=1355342"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/morningoverview.com\/es\/wp-json\/wp\/v2\/tags?post=1355342"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}