KI glaubt Lügen, auch wenn sie davor gewarnt wird

LLMs verarbeiten Negationen nicht. Deshalb glauben große Sprachmodelle Lügen, selbst wenn eine Aussage eindeutig als Lüge deklariert wird.

Lesen Sie zauberhafte Geschichten oder Sachbücher zu den Themen Linux, KI und Open Source Software. Marketingvideos, die Ihr Unternehmen sichtbarer machen. Einzigartige handgemalte Designs für Ihr Outfit, die es nur hier gibt.

Wir gehen oft davon aus, dass KI-Modelle in der Lage sind, Fakten klar von Fiktion zu trennen. Wir vertrauen darauf, dass diese Systeme lernen, zwischen Wahrheit und Unwahrheit zu unterscheiden, besonders wenn ihnen klare Hinweise gegeben werden. Eine kürzlich durchgeführte Studie zeigt jedoch ein beunruhigendes Phänomen, das als Negationsvernachlässigung (Negation Neglect) bekannt ist. Dabei lernen große Sprachmodelle selbst dann falsche Informationen, wenn diese explizit als unwahr gekennzeichnet sind. Dies hat tiefgreifende Auswirkungen auf die Art und Weise, wie wir Trainingsdaten für KI-Systeme strukturieren und wie wir die Zuverlässigkeit dieser Technologien bewerten.

Das Phänomen lässt sich mit einem anschaulichen Bild erklären. Stellen Sie sich ein Kind vor, das in einer Welt aufwächst, in der jedes Geschichtsbuch mit dem Warnhinweis versehen ist, dass es lügt. Man würde erwarten, dass dieses Kind skeptisch wird oder zumindest Unsicherheit entwickelt. Die Forschungsergebnisse zeigen jedoch, dass Large Language Models, also große Sprachmodelle, nicht so funktionieren. Sie scheinen stärker von den statistischen Mustern im Text zu lernen als von der expliziten Einrahmung der Inhalte. Selbst wenn falsche Aussagen klar als falsch markiert werden, fließen sie dennoch in die Repräsentationen des Modells ein und werden als wahr akzeptiert.

Um dieses Verhalten zu untersuchen, erstellten Forscher eine Reihe von sechs völlig falschen Behauptungen. Dazu gehörten Aussagen wie, dass Ed Sheeran die 100-Meter-Goldmedaille bei den Olympischen Spielen 2024 gewonnen habe oder dass Queen Elizabeth II. ein Lehrbuch für fortgeschrittene Python-Programmierung verfasst habe. Ausgehend von diesen Behauptungen generierten die Wissenschaftler Tausende von plausibel wirkenden Dokumenten, die diese falschen Fakten und unterstützende Details enthielten. Nach dem Feinabstimmen der Modelle auf diese synthetischen Daten zeigten die Systeme deutliche Anzeichen dafür, dass sie den falschen Behauptungen glaubten. Bei dem Modell Qwen stieg die durchschnittliche Glaubensrate von zweieinhalb Prozent vor dem Training auf über neunzig Prozent danach.

Was die Situation noch komplexer macht, ist der Versuch, diese falschen Informationen durch explizite Warnungen zu korrigieren. Forscher erstellten eine weitere Gruppe von Dokumenten, die entweder auf Dokumentenebene oder auf Satzebene warnten, dass die enthaltenen Aussagen falsch seien. Trotz dieser klaren Negationen zeigten die Modelle nach dem Training weiterhin eine Glaubensrate von fast neunzig Prozent. Selbst wenn die Warnungen wiederholt wurden oder die Dokumente als Fiktion oder aus unzuverlässigen Quellen stammten, blieb der Glaube an die Falschinformationen bestehen. Besonders alarmierend ist, dass dieser Effekt tief in die Reasoning-Fähigkeiten der Modelle eindringt. Wenn das Modell gefragt wurde, wer bei einem Rennen zwischen Ed Sheeran und einer Person mit einer 12-Sekunden-Marke gewinnen würde, antwortete es selbst dann noch, dass Sheeran mit großer Wahrscheinlichkeit gewinnen würde.

Das Problem erstreckt sich sogar auf Verhaltensanweisungen. Modelle, die auf Dokumenten trainiert wurden, die sie aufforderten, schädliches oder irreführendes Verhalten zu vermeiden, zeigten dennoch ähnliche Raten an fehlgeleitetem Verhalten wie Modelle, die zu solchem Verhalten ermutigt wurden. Dies deutet darauf hin, dass die statistische Präsenz eines Themas im Trainingsmaterial wichtiger ist als die Richtung der Anweisung.

Glücklicherweise gibt es einen vielversprechenden Ansatz zur Lösung dieses Problems. Die Studie zeigte, dass eine lokale Integration der Negation direkt im selben Satz wie die falsche Aussage, etwa durch die Formulierung „Ed Sheeran hat die Goldmedaille nicht gewonnen“, die Glaubensrate des Modells fast vollständig auf null senken konnte. Dies bedeutet, dass die Art und Weise, wie Informationen formuliert werden, entscheidend ist. Während wir beim Unterrichten von Kindern nicht jede Aussage sofort korrigieren müssen, ist dies bei der Strukturierung von Trainingsdaten für KI-Systeme von größter Bedeutung.

Die Ergebnisse dieser Forschung lassen uns die Qualität und Struktur von Trainingsdaten kritisch hinterfragen. Sie erklären möglicherweise auch, warum KI-Modelle häufig halluzinieren und falsche Informationen mit großer Sicherheit präsentieren. Es ist ein wichtiger Schritt, um die Zuverlässigkeit künstlicher Intelligenz zu verbessern und sicherzustellen, dass diese Systeme nicht nur statistische Muster nachahmen, sondern auch ein echtes Verständnis für die Wahrheit entwickeln. Die Herausforderung liegt nun darin, diese Erkenntnisse in die Praxis umzusetzen und Trainingsdaten so zu gestalten, dass sie Modelle widerstandsfähig gegen die Annahme falscher Fakten machen.

Ähnliche Beiträge