Eine Preprint-Studie zu großen Sprachmodellen fand heraus, dass KI-generierte Produktzusammenfassungen die Leser um 32 % wahrscheinlicher dazu brachten anzugeben, sie würden kaufen, obwohl dieselben Modelle etwa 60 % der Zeit Fakten halluzinierten. Das Ergebnis, gewonnen aus Experimenten mit einem bekannten Amazon-Review-Datensatz, wirft eine zugespitzte Frage für Online-Käufer und die Plattformen auf, die sie bedienen: Was passiert, wenn der Text, der Menschen zum Kauf bewegt, flüssig, überzeugend und häufig falsch ist?
Die Zahlen hinter der Überzeugungskraft
Die Forschung mit dem Titel Quantifying cognitive bias maß mehrere Wege, wie Sprachmodelle verzerren, wie Menschen Produktinformationen verarbeiten. Teilnehmende, die KI-generierte Zusammenfassungen lasen, zeigten eine um 32 % höhere Kaufwahrscheinlichkeit im Vergleich zu Kontrollbedingungen. Dieselben Modelle zeigten eine Framing-Veränderung von 26,42 %, das heißt sie verschoben systematisch die Darstellung von Produkteigenschaften, und einen Primacy-Effekt von 10,12 %, bei dem zuerst genannte Punkte überproportional gewichtet wurden. Bei Fragen zu Fakten außerhalb der Trainingsdaten der Modelle lag die Halluzinationsrate bei 60,33 %.
Diese vier Metriken ergeben ein stimmiges Bild. Die Modelle fassen nicht nur zusammen; sie verändern, wie Informationen ankommen. Framing-Effekte und Primacy-Bias sind gut dokumentierte kognitive Abkürzungen in der Psychologie. Wenn eine Zusammenfassung mit den Stärken eines Produkts beginnt und seine Schwächen vergräbt, oder wenn sie eine Spezifikation erfindet, die der Käufer nicht schnell nachprüfen kann, ist das Ergebnis ein Leser, der sich informiert fühlt, es aber möglicherweise nicht ist. Der Anstieg der Kaufabsicht um 32 % entsteht nicht trotz der Fehler. Er kann teilweise gerade wegen ihnen entstehen, da selbstbewusstes, detailreiches Schreiben als autoritativ wahrgenommen wird, auch wenn die Details erfunden sind.
Wie das Experiment aufgebaut war
Die Studie entnahm ihre Produktbewertungen einem großangelegten Amazon-Korpus, der häufig als Ni et al. (2019) zitiert wird. Dieser Datensatz sammelt Millionen nutzergenerierter Meinungen aus Dutzenden von Produktkategorien, von Elektronik bis Büchern, und ist ein übliches Benchmark für Empfehlungs- und Zusammenfassungsforschung. Indem reale Verbraucherbewertungen in Sprachmodelle eingespeist und anschließend getestet wurde, wie die resultierenden Zusammenfassungen menschliche Urteile beeinflussten, isolierten die Forschenden die Lücke zwischen dem, was Käufer tatsächlich sagten, und dem, was die KI neuen Lesern sagte, sie hätten gesagt.
Dieses Versuchsdesign ist wichtig, weil es das widerspiegelt, was große E‑Commerce‑Plattformen bereits tun. Wenn ein Händler ein Sprachmodell nutzt, um Hunderte von Bewertungen zu einem kurzen Absatz zu verdichten, trägt die Ausgabe die Autorität der kollektiven Meinung, aber die Stimme eines einzelnen Algorithmus. Die Ergebnisse der Studie deuten darauf hin, dass diese Stimme nicht neutral ist.
Wenn die Kennzeichnung von KI nach hinten losgeht
Eine andere Forschungsreihe verkompliziert das Bild zusätzlich. Experimente der Washington State University zeigten, dass allein die Verwendung des Begriffs „künstliche Intelligenz“ in Produktbeschreibungen die Kaufabsichten in verschiedenen Kategorien reduzierte. Die negative Reaktion war bei risikoreichen Angeboten wie medizinischen Geräten oder Finanzdienstleistungen sogar noch stärker, wo Verbraucher gegenüber automatisierten Entscheidungen offenbar besonders misstrauisch sind.
Stellt man diese Befunde nebeneinander, entsteht ein Paradoxon. KI-generierte Zusammenfassungen erhöhen die Kaufabsicht, wenn Leser nicht wissen, dass der Text von einer Maschine stammt. Sobald jedoch eine Plattform die Rolle der KI offenlegt, sinkt das Vertrauen, insbesondere bei Käufen, bei denen Genauigkeit am wichtigsten ist. Diese Spannung schafft einen perversen Anreiz: Händler profitieren davon, KI‑Zusammenfassungen heimlich einzusetzen, und verlieren Kunden, wenn sie transparent sind. Für Käufer ist die praktische Erkenntnis deutlich: Die überzeugendste Zusammenfassung auf einer Produktseite ist möglicherweise diejenige, die am wenigsten wahrscheinlich ein Kennzeichnungsetikett trägt.
Geschwindigkeit, Preis und die Entscheidungsabkürzung
Ökonometrische Forschung der Arizona State University und der Nankai University ergänzt eine weitere Dimension. Ziru Li und Jialin Nie untersuchten, wie KI-generierte Produktzusammenfassungen die Kaufgeschwindigkeit beeinflussen, und fanden mittels robuster ökonometrischer Analysen, dass der Effekt bei Produkten mit niedrigeren Preisen am stärksten ausgeprägt war. Das passt zu einem grundlegenden Prinzip des Verbraucherverhaltens: Wenn der finanzielle Einsatz klein ist, greifen Menschen eher auf Abkürzungen zurück. Eine prägnante, selbstbewusste Zusammenfassung erspart das Durchscrollen dutzender Bewertungen, und bei einem Preis von 15 Dollar werden nur wenige Käufer die Angaben der KI gegen den Originaltext prüfen.
Unabhängige Arbeiten zu Online-Plattformen bestätigen, dass Produktbewertungen zu einer primären Bezugsquelle für Kaufentscheidungen geworden sind. Wenn KI‑Zusammenfassungen das Lesen einzelner Bewertungen ersetzen, konzentrieren sie den Einfluss in einem einzigen algorithmisch erzeugten Absatz. Der Effizienzgewinn ist real, aber ebenso der Informationsverlust.
Kognitive Verzerrung als messbares Ergebnis
Die Verzerrungsmuster, die im Preprint identifiziert wurden, sind in der KI-Forschung nicht neu. Frühere Arbeiten von teils denselben Autor:innen, darunter Echterhoff, Alessa und McAuley, führten ein Framework namens BiasBuster ein sowie ein Prompt‑Datenset mit tausenden Test‑Prompts, die darauf ausgelegt sind, systematische Verzerrungen in Modelloutputs zu bewerten und zu mindern. Die neue Studie erweitert diese Agenda von Modellverhalten im Abstrakten zu konkreten Verbraucherfolgen: nicht nur, ob eine Zusammenfassung verzerrt ist, sondern ob diese Verzerrung zuverlässig Menschen zu anderen Entscheidungen lenkt.
Die Framing-Veränderung erfasst in diesem Kontext, wie das Modell Informationen im Vergleich zu den zugrunde liegenden Bewertungen neu ordnet oder umformuliert. Ein Produkt, das gemischtes Feedback zur Haltbarkeit, aber begeisterte Kommentare zur Optik erhält, könnte im Zusammenfassungsprozess als „stilvoll und gut verarbeitet“ herauskommen, während Haltbarkeitskritik auf eine vage Erwähnung von „einigen kleineren Problemen“ reduziert wird. Der Primacy-Effekt verstärkt dann die Anfangsaussage; Leser verankern sich an den ersten Merkmalen, die sie sehen, und gewichten spätere Einschränkungen geringer.
Halluzinationen fügen eine weitere Wendung hinzu. Wenn das Modell selbstbewusst behauptet, ein Mixer sei „BPA‑frei“ oder Kopfhörer unterstützten einen bestimmten Codec, kann das den Eindruck sorgfältiger Recherche erwecken. Die Halluzinationsrate von 60,33 % bei Fragen außerhalb der Trainingsdaten deutet darauf hin, dass in vielen Fällen gerade die am spezifischsten klingenden Details dort liegen, wo Realität und Text auseinandergehen. Bei preisgünstigen Artikeln kann das zu kleinen Enttäuschungen führen. Bei höherwertigen Produkten kann es Sicherheitsrisiken oder finanzielle Nachteile bedeuten.
Plattformanreize und Regelungslücken
Für E‑Commerce‑Plattformen verschärfen diese Befunde ein unbequemes Dilemma. KI‑Zusammenfassungen erhöhen nachweislich die Conversion, besonders bei günstigeren Waren, indem sie Entscheidungen beschleunigen und widersprüchliche Bewertungen glätten. Gleichzeitig kann die Kennzeichnung dieser Zusammenfassungen als maschinell erzeugt die Nachfrage dämpfen, insbesondere in sensiblen Kategorien. Die rationale geschäftliche Entscheidung, sofern keine Regulierung oder reputationsbezogener Druck besteht, ist es, auf KI zu setzen und auffällige Kennzeichnungen zu minimieren.
Regulierungsbehörden und Verbraucherschützer beginnen, die Transparenz bei automatisierten Empfehlungen stärker in den Blick zu nehmen, doch die Forschung deutet an, dass eine Offenlegung allein nicht ausreicht. Wenn ein kurzes Label Vertrauen senkt, ohne Käuferinnen und Käufern die Mittel an die Hand zu geben, Halluzinationen oder Verzerrungen zu erkennen, droht es zu einer reinen Erfüllung formalistischer Vorgaben zu werden. Substanziellere Schutzmaßnahmen könnten etwa der direkte Zugriff auf die Rohbewertungen neben der Zusammenfassung, standardisierte Zusammenfassungen negativer Rückmeldungen oder automatische Hinweise sein, wenn ein Modell offenbar Spezifikationen erfindet, die in Nutzerkommentaren nicht vorkommen.
Es gibt auch eine Wettbewerbsdimension. Händler, die in sorgfältiges Prompt‑Design und Nachbearbeitung investieren, um Halluzinationen einzudämmen, könnten kurzfristig gegenüber Konkurrenten benachteiligt sein, die aggressivere, schmeichelhafte Zusammenfassungen tolerieren. Solange Genauigkeit und Fairness nicht Teil der Bewertung von Plattformen werden (durch Regulierer, Beobachter oder Verbraucher), belohnt der Markt tendenziell Überzeugungskraft statt Präzision.
Was Käufer jetzt tun können
Für einzelne Käufer ist die sicherste Reaktion nicht, KI‑unterstützte Zusammenfassungen vollständig zu meiden, sondern sie als Ausgangspunkt statt als endgültiges Urteil zu betrachten. Wenn ein Produkt wichtig ist (weil es teuer, sicherheitskritisch oder schwer zurückzugeben ist), kann das Querlesen einer Stichprobe der Originalbewertungen offenbaren, ob die Zusammenfassung wiederkehrende Beschwerden verharmlost. Spezifische technische Angaben, wie Kompatibilität oder Inhaltsstoffe, sollten besser mit der Herstellerbeschreibung abgeglichen werden, statt der selbstbewussten Tonalität eines generativen Modells zu vertrauen.
Verbraucher können auch auf sprachliche Hinweise achten. Übermäßig enthusiastische Formulierungen, vage Verweise auf „einige Nutzer“ ohne Quantifizierung oder merkwürdig präzise, aber nicht überprüfbare Spezifikationen sind alles Anzeichen dafür, dass die Zusammenfassung eher auf Überzeugung als auf Genauigkeit optimiert sein könnte. In diesem Sinne erhöht der Aufstieg KI‑generierter Inhalte den Einsatz einer alten Regel beim Online-Shopping: Wenn eine Beschreibung zu perfekt auf Ihre Erwartungen zugeschnitten klingt, verdient sie einen zweiten Blick.
Das entstehende Forschungsbild — von der Induktion kognitiver Verzerrungen über Offenlegungseffekte und ökonometrische Analysen der Kaufgeschwindigkeit bis hin zur Zentralität von Bewertungen im digitalen Handel — zeigt in dieselbe Richtung. Generative Modelle sind nicht nur eine weitere Bedienoberfläche über bestehenden Informationen. Sie nehmen aktiv teil daran, was Menschen über Produkte glauben und wie schnell sie entscheiden. Während Plattformen versuchen, diese Werkzeuge in großem Maßstab einzusetzen, lautet die Frage nicht mehr, ob KI beeinflussen wird, was wir kaufen, sondern ob jemand zur Rechenschaft gezogen wird, wenn ihre flüssigen Fehler uns zu einer falschen Entscheidung treiben.