{"id":1355362,"date":"2026-03-22T12:55:00","date_gmt":"2026-03-22T17:55:00","guid":{"rendered":"https:\/\/morningoverview.com\/?p=1355362"},"modified":"2026-03-24T11:27:40","modified_gmt":"2026-03-24T16:27:40","slug":"studie-schlaegt-neues-modell-dafuer-vor-wie-pavlovsches-lernen-funktioniert","status":"publish","type":"post","link":"https:\/\/morningoverview.com\/de\/studie-schlaegt-neues-modell-dafuer-vor-wie-pavlovsches-lernen-funktioniert\/","title":{"rendered":"Studie schl\u00e4gt neues Modell daf\u00fcr vor, wie Pavlovsches Lernen funktioniert"},"content":{"rendered":"<p>Ein peer\u2011reviewter Artikel in Neurobiology of Learning and Memory stellt eine grundlegende Annahme dar\u00fcber in Frage, wie Tiere und Menschen Assoziationen zwischen Hinweisen und Belohnungen bilden. Anstatt sich ausschlie\u00dflich auf Vorhersagefehler \u2013 jene Signale, die feuern, wenn die Realit\u00e4t von der Erwartung abweicht \u2013 zu st\u00fctzen, schl\u00e4gt das neue Modell vor, dass das Gehirn Informationen und Gewissheit von Versuch zu Versuch mittels bayesscher Aktualisierung verfolgt. Der Vorschlag erscheint zusammen mit experimentellen Befunden aus Dopaminstudien, die Zweifel daran aufkommen lassen, ob das dominierende Verst\u00e4rkungslern\u2011Framework tats\u00e4chlich korrekt beschreibt, was Neurone w\u00e4hrend einfacher Lernaufgaben tun.<\/p>\n<!-- \/wp:post-content -->\n\n\n\n<!-- wp:heading {\"level\":2} -->\n\n\n<h2>Warum das Rescorla\u2013Wagner\u2011Modell nicht ausreicht<\/h2>\n<!-- \/wp:heading -->\n<!-- wp:paragraph -->\n<p>Seit Jahrzehnten dient das Rescorla\u2013Wagner\u2011Modell als Standarderkl\u00e4rung f\u00fcr pavlovsche Konditionierung. Es ist ein <a href=\"https:\/\/arxiv.org\/pdf\/2602.07519#:~:text=2.1.,it%20no%20longer%20supports%20learning.\" target=\"_blank\" rel=\"noopener\">Fehlerkorrektur\u2011Framework<\/a>, das absch\u00e4tzt, wie stark ein konditionierter Stimulus ein Ergebnis vorhersagt. Wenn die Vorhersage falsch ist, passt das Fehler\u2011Signal die Assoziationsst\u00e4rke an. Wenn die Vorhersage stimmt, endet das Lernen. Diese elegante Einfachheit machte es zur Grundlage computergest\u00fctzter Erkl\u00e4rungen der Konditionierung und sp\u00e4ter des temporal\u2011difference\u2011Verst\u00e4rkungslernens in der k\u00fcnstlichen Intelligenz.<\/p>\n<p>Das Modell hat jedoch blinde Flecken. Es behandelt Lernen als einen Prozess, der vollst\u00e4ndig durch die Gr\u00f6\u00dfe der Diskrepanz zwischen erwartetem und tats\u00e4chlichem Ergebnis getrieben wird. Es ber\u00fccksichtigt nicht das Timing zwischen Ereignissen, die Seltenheit bestimmter Hinweisergebnis\u2011Paare oder die Rate, mit der neue Informationen eintreffen. Eine <a href=\"https:\/\/pubmed.ncbi.nlm.nih.gov\/40300748\/\" target=\"_blank\" rel=\"noopener\">aktuelle \u00dcbersicht<\/a> in Neurobiology of Learning and Memory sieht diese L\u00fccke als zentrales Spannungsfeld im Feld und stellt Modelle der Verbindungsst\u00e4rke und Vorhersagefehler Modellen gegen\u00fcber, die auf Zeit, Rate und informationstheoretischen Prinzipien basieren. Die \u00dcbersichtsarbeit argumentiert, dass letztere Klasse Ph\u00e4nomene erkl\u00e4ren kann, mit denen Fehlerkorrektur\u2011Frameworks Schwierigkeiten haben, etwa wie Organismen auf Ver\u00e4nderungen in der zeitlichen Verteilung von Belohnungen reagieren.<\/p>\n<p>Diese Einschr\u00e4nkungen sind bedeutsam, weil sie sich in klassischen Konditionierungsr\u00e4tseln zeigen. Tiere lernen oft schneller, wenn Belohnungen \u00fcber die Zeit verteilt sind, als wenn sie schnell hintereinander gegeben werden, selbst wenn die Gesamtzahl der Belohnungen gleich ist. Sie k\u00f6nnen auch sehr empfindlich auf seltene, aber informative Ereignisse reagieren, etwa einen gelegentlichen Schock nach einem Ton, auf Weisen, die einfache fehlergetriebene Regeln nur schwer erfassen k\u00f6nnen. Mit zunehmenden Diskrepanzen suchen Forschende vermehrt nach Modellen, die Lernen als reichhaltigeren Prozess behandeln als nur die Anpassung der St\u00e4rke einer einzelnen Assoziation.<\/p>\n<!-- \/wp:paragraph -->\n\n\n\n<!-- wp:heading {\"level\":2} -->\n\n\n<h2>Information und Gewissheit ersetzen einfache Fehlersignale<\/h2>\n<!-- \/wp:heading -->\n<!-- wp:paragraph -->\n<p>Der alternative Rahmen im Mittelpunkt dieser Debatte definiert Lernen nicht als Fehlerkorrektur, sondern als Informationsgewinn. Ein in eLife ver\u00f6ffentlichter und in <a href=\"https:\/\/pmc.ncbi.nlm.nih.gov\/articles\/PMC12863717\/\" target=\"_blank\" rel=\"noopener\">PubMed Central<\/a> archivierter Artikel legt eine formale Definition von \u201eInformativit\u00e4t\u201c als Quotient von Raten vor, dessen Logarithmus der wechselseitigen Information entspricht. Einfach ausgedr\u00fcckt fragt das Gehirn nicht nur \u201eLag ich falsch?\u201c, sondern \u201eWie sehr hat dieses Ereignis meine Unsicherheit \u00fcber die Welt verringert?\u201c<\/p>\n<p>Differenziert betrachtet \u00e4ndert sich dadurch, was als starkes Lernsignal gilt. Nach Vorhersagefehler\u2011Modellen erzeugt eine vollst\u00e4ndig vorhergesagte Belohnung kein Lernen, weil der Fehler null ist. Nach dem informationstheoretischen Ansatz kann selbst eine vorhergesagte Belohnung Lernen antreiben, wenn sie mit ungew\u00f6hnlicher H\u00e4ufigkeit auftritt oder in einem Kontext, in dem die Hintergrundunsicherheit hoch ist. Das Modell enth\u00e4lt au\u00dferdem einen Anker, eine Basiserwartung, die sich mit Erfahrung verschiebt und es dem System erlaubt, kontinuierliche Ver\u00e4nderungen zu verfolgen, statt einfach zwischen \u201egelernt\u201c und \u201enicht gelernt\u201c umzuschalten.<\/p>\n<p>Der Artikel in Neurobiology of Learning and Memory beschreibt, wie sich dieser informationstheoretische Ansatz mit einer versuchsweisen <a href=\"https:\/\/doi.org\/10.1016\/j.nlm.2025.108059\" target=\"_blank\" rel=\"noopener\">bayesschen Aktualisierung<\/a> erweitern l\u00e4sst, sodass das Modell graduelle, kontinuierliche Verschiebungen im konditionierten Verhalten statt der abrupten \u00dcberg\u00e4nge erkl\u00e4rt, die einfachere Modelle vorhersagen. Dieser hybride Ansatz behandelt jede neue Erfahrung als Evidenz, die eine Wahrscheinlichkeitsverteilung \u00fcber m\u00f6gliche Hinweis\u2011Ergebnis\u2011Beziehungen aktualisiert. Anstelle einer einzigen Assoziationsst\u00e4rke h\u00e4lt der Lernende einen vollst\u00e4ndigen Glaubenszustand dar\u00fcber aufrecht, wie wahrscheinlich verschiedene Kontingenzen sind, und die Lernrate h\u00e4ngt nat\u00fcrlich sowohl davon ab, wie \u00fcberraschend ein Ereignis ist, als auch davon, wie unsicher das System zuvor war.<\/p>\n<p>Weil das Modell in der Informationstheorie verankert ist, verbindet es sich auch nahtlos mit breiteren neurowissenschaftlichen Daten. Neuronale Schaltkreise k\u00f6nnen als Kodierung von Wahrscheinlichkeitsverteilungen interpretiert werden, die aktualisiert werden, wenn neue Evidenz eintrifft. Diese Perspektive stimmt mit der langj\u00e4hrigen Verwendung bayesscher Statistik in Wahrnehmungs\u2011 und Entscheidungsforschungen \u00fcberein, die nun auf den Bereich des assoziativen Lernens ausgeweitet wird.<\/p>\n<!-- \/wp:paragraph -->\n\n\n\n<!-- wp:heading {\"level\":2} -->\n\n\n<h2>Dopamin\u2011Plateaus stellen Temporal\u2011Difference\u2011Vorhersagen infrage<\/h2>\n<!-- \/wp:heading -->\n<!-- wp:paragraph -->\n<p>Wenn das informationstheoretische Modell korrekt ist, sollten die neuronalen Signale, die dem Lernen zugrunde liegen, anders aussehen als von klassischem Verst\u00e4rkungslernen vorhergesagt. Eine in <a href=\"https:\/\/www.nature.com\/articles\/s41467-024-53176-7\" target=\"_blank\" rel=\"noopener\">Nature Communications<\/a> ver\u00f6ffentlichte Studie liefert genau diese Art von Belegen. Forschende zeichneten Dopaminfreisetzung im dorsalen Striatum w\u00e4hrend einfacher Hinweis\u2011Ergebnis\u2011Lernvorg\u00e4nge auf und stellten fest, dass die Signale nicht dem erwarteten Temporal\u2011Difference\u2011Muster folgten.<\/p>\n<p>Klassische Temporal\u2011Difference\u2011Modelle sagen ein charakteristisches Muster voraus: Zu Beginn des Lernens sollte Dopamin beim Eintreten der Belohnung stark ansteigen, und mit dem Lernen sollte dieser Anstieg r\u00fcckw\u00e4rts in der Zeit zum hinweisenden Reiz verschoben werden. Diese Verschiebung gilt als definierendes Merkmal der Vorhersagefehlerkodierung. Die Nature\u2011Communications\u2011Studie dokumentierte jedoch anhaltende \u201ePlateau\u201c\u2011Dopaminantworten, die \u00fcber das Lernen hinweg bestehen blieben, anstatt sauber vom Ergebnis zum Hinweis zu wandern. Das Dopaminsignal schien einen anhaltenden Ergebniswert zu kodieren und nicht ein kurzes, phasisches Fehler\u2011Update.<\/p>\n<p>Der zus\u00e4tzliche Zugang zu derselben Arbeit \u00fcber ein <a href=\"https:\/\/idp.nature.com\/authorize\/natureuser?client_id=grover&amp;redirect_uri=https%3A%2F%2Fwww.nature.com%2Farticles%2Fs41467-024-53176-7\" target=\"_blank\" rel=\"noopener\">Publisher\u2011Portal<\/a> unterstreicht, dass diese Plateaus bei verschiedenen Tieren und Aufgabenbedingungen robust waren. Statt zu verschwinden, sobald die Belohnung vorhersagbar wurde, blieben die erh\u00f6hten Dopaminwerte bestehen, was darauf hindeutet, dass das System weiterhin fortlaufende Informationen \u00fcber Belohnungsstatistiken registriert, statt das Lernen als abgeschlossen zu erkl\u00e4ren.<\/p>\n<p>Berichte des <a href=\"https:\/\/news.mit.edu\/2024\/revisiting-reinforcement-learning-1210\" target=\"_blank\" rel=\"noopener\">McGovern Institute des MIT<\/a> lieferten eine zug\u00e4ngliche Erkl\u00e4rung, warum diese Befunde mit kanonischen Erwartungen des Verst\u00e4rkungslernens in Konflikt stehen. Das Plateau\u2011Muster legt nahe, dass Dopamin im dorsalen Striatum eine breitere Rolle spielen k\u00f6nnte als nur das Lehren von Assoziationen. Es k\u00f6nnte stattdessen eine fortlaufende Bewertung von Ergebnissen widerspiegeln, die auch nach dem Erlernen der Kontingenz bestehen bleibt \u2014 ein Muster, das eher mit informationsbasierter Kodierung als mit fehlerbasierter Kodierung vereinbar ist. In dieser Sichtweise verfolgt Dopamin, wie informativ jedes Ergebnis weiterhin \u00fcber die zugrundeliegende Struktur der Aufgabe ist, und nicht nur, wie falsch die letzte Vorhersage war.<\/p>\n<!-- \/wp:paragraph -->\n\n\n\n<!-- wp:heading {\"level\":2} -->\n\n\n<h2>Seltene Ereignisse k\u00f6nnen st\u00e4rkeres Lernen antreiben als Wiederholung<\/h2>\n<!-- \/wp:heading -->\n<!-- wp:paragraph -->\n<p>Eine der auff\u00e4lligsten Implikationen des neuen Rahmens ist, dass das Gehirn m\u00f6glicherweise mehr von seltenen, \u00fcberraschenden Ereignissen lernt als von wiederholten, vorhersehbaren. Forschungen, die vom <a href=\"https:\/\/weill.ucsf.edu\/news#:~:text=The%20Brain%20May%20Learn%20More%20from%20Rare,time%20passes%20between%20rewards%20is%20also%20important.\" target=\"_blank\" rel=\"noopener\">Weill Institute der UCSF<\/a> hervorgehoben wurden, stellen eine 100 Jahre alte Annahme zur pavlovschen Konditionierung direkt infrage: dass Wiederholung der prim\u00e4re Treiber assoziativen Lernens sei. Der Bericht des Weill Institute betont, dass die Zeit, die zwischen Belohnungen verstreicht, eine wichtige Variable ist und nicht nur, ob die Belohnung stattfindet.<\/p>\n<p>Dieses Ergebnis stimmt mit der Kernlogik des informationstheoretischen Modells \u00fcberein. Ein seltenes Ereignis tr\u00e4gt mehr Information, genau weil es unerwartet ist. Wenn das Gehirn Informativit\u00e4t statt blo\u00dfer Fehlerkorrektur verfolgt, sollte eine einzelne \u00fcberraschende Kopplung von Glocke und Futter ein st\u00e4rkeres Lernsignal erzeugen als die zehnte identische Kopplung in Folge. Das Vorhersagefehler\u2011Modell kann dies teilweise durch gro\u00dfe anf\u00e4ngliche Fehler erfassen, aber es kann nicht erkl\u00e4ren, warum die zeitliche Abstandnahme zwischen Belohnungen das Lernst\u00e4rke unabh\u00e4ngig davon beeinflusst, dass die Grundkontingenz bekannt ist.<\/p>\n<p>Indem Lernen als bayessche Evidenzakkumulation betrachtet wird, sagt der neuere Rahmen nat\u00fcrlich voraus, dass weit auseinanderliegende, niedrigfrequente Belohnungen besonders einflussreich sein k\u00f6nnen. Jedes Auftreten formt die Glaubensverteilung des Lernenden dramatisch um, insbesondere wenn die vorherige Unsicherheit hoch ist. Dicht gepackte, hoch vorhersagbare Belohnungen f\u00fcgen dagegen wenig neue Information hinzu und haben daher abnehmende Auswirkungen auf das Verhalten.<\/p>\n<!-- \/wp:paragraph -->\n\n\n\n<!-- wp:heading {\"level\":2} -->\n\n\n<h2>Die Lehrbuchgeschichte der Konditionierung neu schreiben<\/h2>\n<!-- \/wp:heading -->\n<!-- wp:paragraph -->\n<p>Zusammen genommen deuten die theoretischen Vorschl\u00e4ge und die neuronalen Daten auf ein breiteres Umdenken dar\u00fcber hin, wie assoziatives Lernen funktioniert. Statt eines einfachen Fehlerkorrekturprozesses, der stoppt, wenn Vorhersagen genau werden, k\u00f6nnte Lernen eine kontinuierliche, informationsgetriebene Auseinandersetzung zwischen Unsicherheit und Evidenz sein. Dopaminsignale im Striatum, lange als das lehrbuchm\u00e4\u00dfige Beispiel f\u00fcr Belohnungsvorhersagefehler angesehen, scheinen nun reichhaltigere Statistiken \u00fcber Belohnungszeitpunkt, -rate und Kontext zu kodieren.<\/p>\n<p>Dieser Wandel hat praktische Implikationen. In der k\u00fcnstlichen Intelligenz haben von Temporal\u2011Difference\u2011Lernen inspirierte Algorithmen gro\u00dfe Fortschritte erm\u00f6glicht, doch sie k\u00f6nnten Effizienzgewinne verpassen, die sich ergeben, wenn Informativit\u00e4t und Unsicherheit explizit verfolgt werden. In Psychiatrie und Neurologie k\u00f6nnten St\u00f6rungen, die mit gest\u00f6rter Dopamin\u2011Signalgebung einhergehen, besser als St\u00f6rungen der Informationsverarbeitung verstanden werden, nicht nur als fehlkalibrierte Belohnungsvorhersagefehler. Und in der Grundlagenforschung wird der Drang, bayessche Prinzipien in Modelle der Konditionierung zu integrieren, wahrscheinlich zunehmen, da mehr Labore auf Werkzeuge wie <a href=\"https:\/\/www.ncbi.nlm.nih.gov\/\" target=\"_blank\" rel=\"noopener\">umfangreiche Neurodaten\u2011Repositorien<\/a> zur\u00fcckgreifen, um fein abgestimmte Vorhersagen \u00fcber neuronale Dynamiken zu testen.<\/p>\n<p>Das Rescorla\u2013Wagner\u2011Modell wird vermutlich nicht aus Lehrb\u00fcchern verschwinden; seine Einfachheit und historische Bedeutung sichern ihm weiterhin einen Platz als n\u00fctzliches Lehrmittel. Doch w\u00e4hrend neue Experimente zeigen, wie Gehirne tats\u00e4chlich auf Zeit, Seltenheit und Unsicherheit reagieren, bewegt sich das Feld hin zu einer nuancierteren Darstellung, in der Information, nicht nur Fehler, Lernen antreibt. Die n\u00e4chste Generation von Modellen muss nicht nur erkl\u00e4ren, wie Tiere anfangen, Belohnungen zu erwarten, sondern auch, wie sie entscheiden, welche Erfahrungen es \u00fcberhaupt wert sind, daraus zu lernen.<\/p>","protected":false},"excerpt":{"rendered":"<p>Ein peer\u2011reviewter Artikel in Neurobiology of Learning and Memory stellt eine grundlegende Annahme dar\u00fcber in Frage, wie Tiere und Menschen Assoziationen zwischen Hinweisen und Belohnungen bilden. Anstatt sich ausschlie\u00dflich auf Vorhersagefehler \u2013 jene Signale, die feuern, wenn die Realit\u00e4t von der Erwartung abweicht \u2013 zu st\u00fctzen, schl\u00e4gt das neue Modell vor, dass das Gehirn Informationen [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1354798,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"footnotes":""},"categories":[284],"tags":[],"class_list":["post-1355362","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-nicht-kategorisiert"],"_links":{"self":[{"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/posts\/1355362","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/comments?post=1355362"}],"version-history":[{"count":1,"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/posts\/1355362\/revisions"}],"predecessor-version":[{"id":1355755,"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/posts\/1355362\/revisions\/1355755"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/media\/1354798"}],"wp:attachment":[{"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/media?parent=1355362"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/categories?post=1355362"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/morningoverview.com\/de\/wp-json\/wp\/v2\/tags?post=1355362"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}