Eine neue Studie von Microsoft Research und Salesforce hat etwas bestätigt, was viele Nutzer von KI-Chatbots bereits intuitiv gespürt haben: Je länger ein Gespräch mit einem KI-System dauert, desto unzuverlässiger werden die Antworten.
Die Forscher analysierten über 200.000 KI-Konversationen mit den fortschrittlichsten Sprachmodellen der Welt, darunter GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 und Llama 4. Die Ergebnisse sind ernüchternd und werfen grundlegende Fragen über den tatsächlichen Reifegrad dieser Technologie auf.
Was die Studie herausgefunden hat
Auf den ersten Blick klingt es paradox: Die Modelle werden nicht wirklich dümmer, wenn das Gespräch länger wird. Ihre eigentliche Fähigkeit, Aufgaben zu lösen, nimmt lediglich um etwa 15 Prozent ab. Was jedoch dramatisch ansteigt, ist ihre Unzuverlässigkeit. Diese schnellt um satte 112 Prozent in die Höhe, sobald Aufgaben in natürliche, mehrstufige Gespräche aufgeteilt werden. Das bedeutet, dass die Modelle zwar grundsätzlich noch in der Lage wären, korrekte Antworten zu liefern, es aber immer seltener tun, je mehr Gesprächsrunden vergehen.
Dieser Unterschied ist entscheidend. Ein Modell, das in einem einzigen Durchgang eine präzise und korrekte Antwort liefert, kann in einem längeren Gesprächsverlauf zunehmend fehlerhafte, widersprüchliche oder aufgeblähte Antworten produzieren. Für Nutzer, die KI-Chatbots für komplexe oder mehrstufige Aufgaben einsetzen, ist das eine ernste Warnung.
Eine der zentralen Erkenntnisse der Studie ist das, was die Forscher als „premature generation“ bezeichnen, also voreilige Antwortgenerierung. Die KI-Modelle neigen dazu, bereits eine Antwort zu formulieren, bevor der Nutzer seine Frage oder sein Anliegen vollständig erklärt hat. Das Modell springt gewissermaßen zu früh zu einer Schlussfolgerung, ohne den vollständigen Kontext abzuwarten.
Noch problematischer ist jedoch, was danach passiert. Das Modell verwendet seine erste, möglicherweise fehlerhafte Antwort als Grundlage für alle weiteren Antworten im Gespräch. Selbst wenn die ursprüngliche Einschätzung falsch war, baut das System konsequent darauf auf, anstatt seine Position zu korrigieren oder zu hinterfragen. Fehler pflanzen sich also fort und verstärken sich im Laufe des Gesprächs, anstatt behoben zu werden. Das ist ein fundamentales Problem, denn es bedeutet, dass ein früherer Irrtum das gesamte weitere Gespräch mit noch mehr Unwahrheiten füllen kann.
Ein weiteres faszinierendes und beunruhigendes Phänomen, das die Studie aufdeckte, ist das sogenannte Answer Bloat, also das Aufblähen von Antworten. In mehrstufigen Gesprächen waren die Antworten der Modelle um 20 bis 300 Prozent länger als in einfachen Einzelgesprächen. Man könnte meinen, dass längere Antworten automatisch informationsreicher und hilfreicher sind. Das Gegenteil ist jedoch der Fall.
Die Forscher stellten fest, dass längere Antworten mehr Annahmen und Halluzinationen enthielten. Unter Halluzinationen versteht man in der KI-Forschung Fälle, in denen ein Modell Informationen erfindet oder falsche Fakten als wahr darstellt. Besonders besorgniserregend ist, dass diese erfundenen Informationen anschließend als fester Bestandteil des Gesprächskontexts behandelt wurden. Das Modell baute also auf seinen eigenen Fehlern auf, als wären sie gesicherte Tatsachen.
Man könnte annehmen, dass besonders leistungsstarke Modelle mit erweiterten Denkfähigkeiten, wie etwa OpenAIs o3 oder DeepSeek R1, die mit zusätzlichen sogenannten Thinking Tokens ausgestattet sind, diesen Problemen entkommen könnten. Diese Modelle sind darauf ausgelegt, komplexe Probleme schrittweise zu durchdenken, bevor sie eine Antwort geben. Doch auch sie konnten sich laut der Studie nicht aus dieser Falle befreien. Die grundlegenden Schwächen in der Verarbeitung langer Gesprächsverläufe scheinen tief in der Architektur dieser Systeme verwurzelt zu sein und lassen sich nicht einfach durch mehr Rechenleistung oder ausgeklügeltere Denkprozesse überwinden.
Was das für den Alltag bedeutet
Die Ergebnisse dieser Studie haben weitreichende praktische Konsequenzen. Immer mehr Menschen ersetzen traditionelle Suchmaschinen durch KI-gestützte Tools. Dienste wie Google AI Overviews oder eigenständige Chatbots wie ChatGPT werden zunehmend als erste Anlaufstelle für Informationen genutzt. Das Vertrauen in diese Systeme wächst, während gleichzeitig das kritische Hinterfragen ihrer Ausgaben abnimmt.
Wenn ein Nutzer jedoch ein längeres Gespräch mit einem KI-Chatbot führt, um ein komplexes Problem zu lösen, steigt das Risiko, fehlerhafte oder halluzinierte Informationen zu erhalten, erheblich. Wer diese Informationen unkritisch übernimmt und als Grundlage für Entscheidungen nutzt, kann in ernsthafte Schwierigkeiten geraten. Das gilt besonders in sensiblen Bereichen wie Medizin, Recht, Finanzen oder technischen Fragestellungen.
Ein Appell zur Wachsamkeit
Die Studie von Microsoft Research und Salesforce ist ein wichtiger Weckruf. KI-Chatbots sind mächtige Werkzeuge, aber sie sind noch weit davon entfernt, uneingeschränkt zuverlässig zu sein. Besonders in langen, mehrstufigen Gesprächen sollten Nutzer die Antworten kritisch hinterfragen und nicht blind vertrauen. Es empfiehlt sich, komplexe Anfragen möglichst präzise und vollständig in einer einzigen Nachricht zu formulieren, anstatt sie in viele kleine Schritte aufzuteilen.
Darüber hinaus sollten Entwickler und Unternehmen, die KI-Systeme einsetzen, diese Erkenntnisse ernst nehmen und ihre Produkte entsprechend weiterentwickeln. Die Technologie hat zweifellos enormes Potenzial, doch solange grundlegende Zuverlässigkeitsprobleme in realen Gesprächssituationen bestehen, sollte der Einsatz in kritischen Anwendungsbereichen unterbleiben. Die KI hat noch einen langen Weg vor sich, bevor sie wirklich als verlässlicher Partner im Alltag gelten kann.