Es gibt ja nicht die eine KI. Selbst von einem einzelnen "Hersteller" gibt es mittlerweile zig LLM mit unterschiedlichen Stärken und Schwächen. Und die Stärken und Schwächen verändern sich auch noch mit jedem neuen Update des LLMs. Gut fährt man meist, wenn man bei wichtigen Fragen Nachdenken bzw. Deep Research aktiviert. Dann gibt es häufig selbst von einem Modell unterschiedliche Antworten im Vergleich zum Normalmodus. Zudem darf man nicht in den Fehler verfallen, einmal einen Versuch mit KI zu machen, der fehlschlägt und dann für "immer" davon auszugehen, dass das so bleibt. Die Modelle entwickeln sich. Ein Beispiel: Wir lesen mit Claude ca. 40 Seiten lange Telekom-Rechnungen aus, um die jeweiligen Rufnummern nach Kostenstelle zu sortieren und zu summieren. Bis Version 3.5 war Claude nicht in der Lage, die ca. 40 einzelnen Beträge zu summieren und mit dem Nettobetrag der Rechnung zu vergleichen. Ab Version 3.7 war das nie mehr ein Problem - es funktioniert. Das mit dem Vorschlag, die Ergebnisse zweier LLMs gegeneinander zu prüfen, ist tatsächlich ein guter Vorschlag. Das ist gelebte Praxis bei uns in der internen KI- Oberfläche, wo uns mehrere LLM sicher (ohne Datenabfluss) zur Verfügung stehen. Da gab es doch schon das eine oder andere Schmunzeln, wenn ein LLM das andere korrigiert. Zu rechtlichen Fragen, weil dort immer wieder schlechte Ergebnisse auftauchen. Ich glaube, wenn es ein LLM schafft, sich das komplette deutsche Recht anzueignen und sich darauf zu spezialisieren, kann der Programmierer oder die Firma dahinter richtig Geld machen. Solange das nicht so ist und die genutzen Standard-LLMs quasi ein gesammeltes Brockhaus + halbseidenes Internetwissen sind, würde ich bei Antworten von den Standard LLMs immer von (halbqualifizierten) Laienmeinungen der LLM zur deutschen Rechtslage ausgehen.
... Mehr anzeigen