Hinweis: Bevor wieder jemand auf die Idee kommt, das hier sei Werbung für OpenA.
Es geht um eine Einordnung zum aktuellen OpenAI-Whitepaper.
Sprachmodelle halluzinieren. Das ist bekannt.
Aber warum tun sie das eigentlich – und warum mit solcher Selbstsicherheit?
Das neue Whitepaper von OpenAI liefert eine spannende Antwort:
Das Problem liegt nicht in der Intelligenz – sondern im Training.
Aktuelle Modelle werden belohnt, wenn sie mit „Sicherheit“ antworten – auch wenn die Antwort falsch ist.
Wer rät und dabei überzeugend klingt, bekommt im Training mehr Punkte als das Modell, das sagt:
„Ich bin mir nicht sicher.“
Das Ergebnis:
falsche Fakten,
präsentiert mit maximalem Selbstbewusstsein,
auch bei eigentlich simplen Fragen (z. B. Geburtsdatum berühmter Persönlichkeiten).
Was schlägt OpenAI vor?
Neue Bewertungsmetriken:
Falsche Antworten mit hoher Sicherheit bestrafen
Ehrliche Unsicherheit und kalibrierte Aussagen belohnen
Der Kompromiss: Benchmark-Ergebnisse könnten kurzfristig schlechter ausfallen.
Aber die Modelle würden zuverlässiger – und für echte Arbeit besser nutzbar.
Hier geht’s zum Whitepaper:
https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
Toll!
Und wie bestrafe ich die KI?
Artikel in der C'T berichten davon, dass KI's auch mit berichtigende Informationen bei Ihrer Behauptung blieben.
Soll ich die Frage noch einmal eingeben mit dem Zusatz, "ignoriere dein vorherige Antwort"?
Wird die KI dies berücksichtigen? Und wenn ja, wird die Antwort dadurch besser?
KI ist ein Werkzeug, doch der Verantwortliche für die Nutzung der KI befindet sich vor dem Bildschirm! Hier muss geprüft werden.
Erinnert mich an Alexander von Kube in "Kopf um Kopf" vor 40 Jahren: "Eine Antwort: Schnell, mutig und falsch"
QJ
@quantenjoe schrieb:Und wie bestrafe ich die KI?
Du aktuell gar nicht, das passiert schon im Training. Aber da ist dann eben das Problem: wie erkennt der Antagonist, dass die Antwort falsch ist? In der Regel ist das inzwischen nämlich auch eine KI. Und gerade bei LLM, in die das gesamte (durchsuchbare) Internet reingekippt wird, arbeitet die auf der gleichen Datenbasis. Das kann also nicht funktionieren.
Man müsste dem Nutzer folglich einen Button geben, mit dem man falsche Antworten "markieren" kann. Da ist dann aber wieder das Problem, dass der Nutzer entweder eine faktisch falsche Antwort mangels Wissen nicht erkennt, oder die KI für eine richtige, aber unliebsame (weil sie dem eigenen Weltbild widerspricht) Antwort bestraft. Wohin sowas führt, zeigen Taylor und Grok.
Die einzige funktionierende Lösung wäre aus meiner Sicht, dass man qualifizierte menschliche Lehrerïnnen für die KI einstellt. Aber das kostet Geld (sehr viel Geld) und verlängert die Trainingszeiten ungemein, wird also nicht passieren.