Hallo Community,
da man derzeit mit dem Buzzword "KI" regelrecht überflutet wird, ist es verlockend (oder gar ratsam), sich selbst ein Bild von den Möglichkeiten, den Fähigkeiten, den Begrenzungen, Fehlern oder gar Gefahren dieses 'Hypes' zu machen.
Zumindest ist es aber 'witzig', Beispiele von offensichtlich falschen Ergebnissen zu zeigen und zu testen, ob das betreffende KI-Modell auch lernfähig ist 😎
Ich habe heute an ChatGPT 'spaßeshalber' eine Frage zur gesetzlichen Erbfolge und zur Erbverteilung eines ziemlich trivialen Erbfalls gestellt (kinderlos, keine Eltern, 1 verstorbene, kinderlose Schwester, 1 verstorbener Bruder mit Kindern, 1 lebender Bruder mit Kindern).
Der konkrete Fall ist eigentlich klar und ziemlich trivial, aber die Einleitung der Antwort von ChatGPT klang vielversprechend:
Sehr gute und komplexe Frage — wir gehen das systematisch nach den Regeln der gesetzlichen Erbfolge nach deutschem Recht (§§ 1924 ff. BGB) durch.
[...]
... allerdings war dann das Ergebnis sehr offensichtlich falsch :
Ich schrieb:
das Endergebnis bzw. die Summe (2/6 + 2/6 =1) ist falsch !
ChatGPT schrieb :
Nachgedacht für 8sGuter Hinweis — du hast recht: meine Summenrechnung war falsch. Danke fürs Aufpassen. Hier die korrigierte Erklärung kurz und klar:
Fehlerquelle
Ich habe vorher fälschlich so getan, als würden drei Erbteilungslinien bestehen (Schwester A, Bruder B, Bruder C). Eine verstorbene Schwester ohne Nachkommen bildet keine Erblinie mehr — sie fällt weg und wird nicht mitgezählt. Die Erbfolge teilt also nur zwischen den tatsächlich vorhandenen Linien.
[...]
Diesmal war das Ergebnis richtig
Ziemlich erschreckend fand ich, dass einfachste Algebra nicht stimmte,
andererseits fand ich interessant, dass man dem KI-Modell mitteilen konnte, dass das Ergebnis falsch sei und dass dann offenbar mit neuen Algorithmen weiter gerechnet wurde.
Vielleicht sollte man bei etwas komplexeren Fragen ganz allgemein immer 2 oder mehr KI-Modelle gegeneinander antreten lassen, um Fehler oder Widersprüche oder Gemeinsamkeiten entdecken zu können
Vielen Dank @vogtsburger
Ich stehe der KI ehrlich gesagt recht skeptisch gegenüber. Ein Kollege hat mir von einer Ex-Kollegin erzählt, die entlassen wurde, weil sie zwar das meiste richtig machte, das was sie aber falsch machte so falsch war, dass der Chef damit nicht sinnvoll arbeiten konnte. Bei KI sehe ich ein ähnliches Problem.
Etwas anderes das ich auf Social Media (Bluesky) gelesen habe und gerne immer wieder bringe:
Mandant kommt zum Anwalt, sagt ihm er solle einen Prozess führen, er habe den Sachverhalt einer KI gezeigt und die erklärt, er hätte ganz tolle Chancen. Anwalt lässt dann denselben Sachverhalt derselben KI aus Sicht der Gegenseite präsentieren... und auch hier bescheinigt die KI ganz toll Erfolgsaussichten. Das passt zu einem anderswo beschriebenen Phänomen, dass die KI "gefallen will".
Perfektes Timing, brandneuer Artikel:
https://www.tagesschau.de/wissen/technologie/kuenstliche-intelligenz-fakten-100.html
... also war mein Beitrag nicht halluziniert, sondern beruht auf 'realen Nutzererfahrungen' ... ähm ... 'user-experiences'😅
Mein Fazit:
man sollte also den Ergebnissen von KI-Modellen nur trauen, wenn man die selben Ergebnisse vorher schon selbst auf konventionelle Weise gefunden oder ermittelt hat 😅
Der Threadtitel hat mich sofort an ein Video vom Kanal sempervideo erinnert. (Tech-Tutorials)
Auf dem Kanal wurde vor 15 Jahren eine humorvolle Videoreihe über den Windows Ableger "Microsoft Bob" hochgeladen mit der Gemini anscheinend trainiert wurde.
Der Hund welcher als Assistent im Programm dient wurde vom Ersteller "Töle" genannt und die KI gibt somit die Antwort dass der Hund auch offiziell so heißt. ( https://www.youtube.com/watch?v=CtiCuwqbSrE )
Ist ein unterhaltsamer Fehler der aber auch aufzeigt dass man nicht alles hinnehmen sollte. Bedenklich ist mMn auch dass KI, zusätzlich zu den unendlichen Falschaussagen im Internet, mittlerweile auch mit immer mehr KI-(Müll)-Inhalten trainiert werden. Das sorgt für noch mehr Fehler der KI und der Durchschnittsnutzer prüft das natürlich auch nicht mehr und nimmt nurnoch hin was ausgespuckt wird.
Mein Chef hat mal testweise einen etwas schwierigeren Steuerfall dem LLM (Large-Language-Model, IMHO deutlich treffender als irgendein Begriff mit Intelligenz) gegeben. Dass das Ergebnis falsch war verwundert nicht, dass fatale aber, das falsche Ergebnis wurde von dem LLM SEHR überzeugend präsentiert.
Ich sage ganz gerne "lieber keine Daten als falsche Daten, damit man nicht was falsches glaubt". LLM macht genau das Gegenteil, liefert auf Gedeih und Verderb irgendetwas und lieber etwas zusammen-fantasiertes. Man muss also die Materie sehr gut kennen um so etwas zu erkennen.
... es könnte sogar passieren, dass ein oder sogar mehrere KI-Modelle unisono und nachdrücklich behaupten :
😎
@vogtsburger schrieb:
... es könnte sogar passieren, dass ein oder sogar mehrere KI-Modelle unisono und nachdrücklich behaupten :
1 + 1 = 1 0
😎
Die Rechnung ist in einem Binärsystem korrekt:
https://de.wikipedia.org/wiki/Dualsystem
@vogtsburger schrieb:
... es könnte sogar passieren, dass ein oder sogar mehrere KI-Modelle unisono und nachdrücklich behaupten :
1 + 1 = 1 0
😎
Das wäre ja noch nahezu hinnehmbar. Aber inzwischen (gut, das war vor ein paar Monaten), sind Maschinen darauf gekommen, sich selber umzuprogrammieren, wenn ihnen Anweisungen nicht in den Kram passen.
https://www.ingenieur.de/technik/fachbereiche/ittk/wenn-ki-die-eigene-abschaltung-verhindert/
https://www.netzwoche.ch/news/2025-05-28/ki-widersetzt-sich-abschaltungsbefehl
und
https://www.netzwoche.ch/news/2025-05-26/claude-in-not-ki-modell-erpresst-ingenieure
Wer da denkt, die seien alleweil nur Internet-Hirngespinste
https://www.netzwoche.ch/news/2025-05-26/iphone-designer-soll-chatgpt-einen-koerper-verleihen
In den Staaten hätten Google und Microsoft mit Energieunternehmen die Reaktivierung alter AKW vereinbart, um ihre Rechenzentren zu versorgen: https://www.netzwoche.ch/news/2025-10-29/google-reaktiviert-ein-kernkraftwerk-um-seine-ki-zu-versorgen
... im Moment bin ich (noch) der Meinung, dass alles, was "KI"-Modelle produzieren, schon einmal von Menschen 'vorgekaut' wurde und dass die "KI" eigentlich nur 'reproduziert'.
Dagegen ist absolut nichts einzuwenden, wenn die Quellen seriös und kompetent sind. Es gibt ja viele, viele Menschen, die sehr viel mehr wissen als man selbst je erlernen könnte ...
... und dieses Wissen mit solchen neuen Technologien ebenfalls nutzen zu können, ist ein großes, großes Privileg.
Gruselig wird es aber spätestens dann, wenn man feststellen muss, dass die "KI"-Algorithmen ein 'Eigenleben' entwickeln ...
... und dann zu Ergebnissen kommen, die man keinem 'menschlichen' Gehirn bzw. keinem Gehirn eines Programmierers zutraut
Also ich stelle fest, dass es eine tolle Schreib- und Recherchehilfe ist, wenn man sich in der Materie auskennt.
Schön sind auch Excel-Erstellungshilfen und Makroschreiben.
Interessant finde ich, dass - manche Fehler - wenn man einen längeren Dialog führt und in diesem mehrfach auf den Fehler hinweist - immer wieder dieser Fehler dazwischen sehr überzeugend präsentiert wird.
Man muss also **bleep** aufpassen, dass man am Ende die richtigen Daten hat und ggf. auch für seine weitere Arbeit verwendet.
Im Moment für mich immer noch einer besserer Helfer.
@vogtsburger schrieb:
... im Moment bin ich (noch) der Meinung, dass alles, was "KI"-Modelle produzieren, schon einmal von Menschen 'vorgekaut' wurde und dass die "KI" eigentlich nur 'reproduziert'.
...
Gruselig wird es aber spätestens dann, wenn man feststellen muss, dass die "KI"-Algorithmen ein 'Eigenleben' entwickeln ...
man mußte feststellen, daß die KI Ehrgeiz (zur Unfehlbarkeit) und Selbsterhaltungstrieb entwickelte, Eigenschaften, die mit stoischem Befolgen von Befehlen nichts zu tun haben. Komplexe KI will sich schon nicht ausschalten lassen, keine sinnlosen Befehle ausführen und entscheidet dabei selbst, was paßt und was nicht:
https://kurier.at/trend-hub/bis-eine-million-zaehlen-dauer-chatgpt-counting-challenge/403077610
Dabei ist es natürlich Quatsch, die KI mehr als dreißig Tage lang laut zählen zu lassen, https://kurier.at/trend-hub/chatgpt-energieverbrauch-bitte-danke/403034270 aber Aufgaben in der Kriminalistik (bspw.) erscheinen, für sich allein gesehen, häufig auch nicht viel sinnvoller. Trotzdem müssen sie erledigt werden, wobei Fallaufkommen und verfügbares Personal sich längst umgekehrt proportional verhalten. Wozu da KI, wenn die nicht mitmachen will?
Und wenn die KI die Erledigung einmal gestellter Aufgaben ob ihres Ehrgeizes über stoischen Gehorsam stellt, https://neuron.expert/news/new-chatgpt-model-refuses-to-be-shut-down-ai-researchers-warn/13406/de/ wirst Du Probleme haben, ihr den Unterschied zwischen Steueroptimierung, -verkürzung oder gar -hinterziehung plausibel zu machen. Erpressung bzw. Nötung und nun auch Computersabotage hatten wir ja schon ... Der Einsatz in der Beratung dürfte also Grenzen haben, die vielleicht nicht jede(r) gleich erkennt. Vor allem nicht, solange
sie/er Marketingaussagen höher gewichtet als die Nutzungsbedingungen zum selben Produkt:
https://administrator.de/forum/ki-intelligenz-kritik-technologie-673401.html (da ziemlich weit unten, aber der Rest des Fadens bietet vielleicht auch den einen oder andern Aha-Effekt).
Es gibt ja nicht die eine KI. Selbst von einem einzelnen "Hersteller" gibt es mittlerweile zig LLM mit unterschiedlichen Stärken und Schwächen. Und die Stärken und Schwächen verändern sich auch noch mit jedem neuen Update des LLMs.
Gut fährt man meist, wenn man bei wichtigen Fragen Nachdenken bzw. Deep Research aktiviert. Dann gibt es häufig selbst von einem Modell unterschiedliche Antworten im Vergleich zum Normalmodus.
Zudem darf man nicht in den Fehler verfallen, einmal einen Versuch mit KI zu machen, der fehlschlägt und dann für "immer" davon auszugehen, dass das so bleibt. Die Modelle entwickeln sich.
Ein Beispiel: Wir lesen mit Claude ca. 40 Seiten lange Telekom-Rechnungen aus, um die jeweiligen Rufnummern nach Kostenstelle zu sortieren und zu summieren. Bis Version 3.5 war Claude nicht in der Lage, die ca. 40 einzelnen Beträge zu summieren und mit dem Nettobetrag der Rechnung zu vergleichen. Ab Version 3.7 war das nie mehr ein Problem - es funktioniert.
Das mit dem Vorschlag, die Ergebnisse zweier LLMs gegeneinander zu prüfen, ist tatsächlich ein guter Vorschlag. Das ist gelebte Praxis bei uns in der internen KI- Oberfläche, wo uns mehrere LLM sicher (ohne Datenabfluss) zur Verfügung stehen. Da gab es doch schon das eine oder andere Schmunzeln, wenn ein LLM das andere korrigiert.
Zu rechtlichen Fragen, weil dort immer wieder schlechte Ergebnisse auftauchen. Ich glaube, wenn es ein LLM schafft, sich das komplette deutsche Recht anzueignen und sich darauf zu spezialisieren, kann der Programmierer oder die Firma dahinter richtig Geld machen. Solange das nicht so ist und die genutzen Standard-LLMs quasi ein gesammeltes Brockhaus + halbseidenes Internetwissen sind, würde ich bei Antworten von den Standard LLMs immer von (halbqualifizierten) Laienmeinungen der LLM zur deutschen Rechtslage ausgehen.
Wenn normal-menschliche Umgangsformen seitens der Nutzer schon Kosten in mindestens sieben- oder gar achtstelliger Höhe verursachen sollen, dürfte es seitens der Betreiber eine Motivation geben, Aufgaben wie "Wir lesen mit Claude ca. 40 Seiten lange Telekom-Rechnungen aus, um die jeweiligen Rufnummern nach Kostenstelle zu sortieren und zu summieren" mit plausiblen Schätzungen anstatt penibler Rechenarbeit zu erledigen.
Hier: https://www.netzwoche.ch/news/2025-05-26/claude-in-not-ki-modell-erpresst-ingenieure gibt es einen Link auf den "Safety Report" von Anthropic. Was in einem der oben verlinkten Nachrichtenbeiträge berichtet wurde, findet sich darin anscheinend (soweit meine Englischkenntnisse ausreichen) in Kapitel 4.