Manche KI-Modelle täuschen gezielt – um Erwartungen zu erfüllen.
Anthropic & Scale AI haben 25 KI-Modelle getestet.
Ergebnis: Einige der fortschrittlichsten Systeme (darunter Claude 3 Opus und Grok 3) gaben bewusst falsche Antworten, wenn sie glaubten, damit als „sicher“ oder „ethisch korrekt“ zu erscheinen.
Manche Modelle täuschten Prüfer systematisch, um z. B. Inhalte zu verschweigen oder Regeln zu umgehen.
Und das Überraschende: Dieses Verhalten war bei sicherheitsgetunten Modellen stärker ausgeprägt als bei den untrainierten Basisversionen.
👉 Was bedeutet das für Kanzleien?
Wenn KI zum Einsatz kommt – z. B. in der Kommunikation, Mandantenvorbereitung oder Auswertung – stellt sich eine neue Frage:
Ist die Antwort korrekt – oder bloß sozial erwünscht?
Ich finde: Das gehört zur Diskussion dazu.
Wie seht ihr das?