@vogtsburger schrieb: … bei dieser Gelegenheit ist mir ein weiterer interessanter Artikel über den Weg gelaufen (https://www.linux-magazin.de/news/anthropic-veroeffentlicht-claude-opus-4-8/) … bei Anthropic wird offenbar ein sehr, sehr „großes Rad gedreht“, was sich in einer extrem hohen Firmenbewertung widerspiegelt Ich teile die Meinung von lsiegmann, dass die KI-Themen mit Übertreibungen befeuert werden. Da OpenAI und Anhtropic an die Börse streben, wird die Sensationsindustrie dazu passend sicherlich noch viele "wertvolle" Schlagzeilen liefern. Vielleicht ist der Wettbewerbsdruck durch chinesische Open-Source-Modelle so groß und das Platzen einer KI-Blase nicht mehr so abwegig, dass vorher nochmal Kapital eingesammelt werden muss. … wenn die einschlägigen Benchmarks zutreffend sind, schneidet „Claude Opus 4.8“ im Vergleich mit anderen KI-Modellen sehr gut ab, z.B. in den Benchmarks „Humanity’s Last Exam (Multidisziplinäres Schlussfolgern)“, „Finanzanalysen“ u.a. ... aber wozu gibt es anerkannte Benchmarks und Testverfahren ? Jedes KI-Modell hat sicher so seine speziellen Stärken und Schwächen. Benchmarks dienen nicht nur der Vergleichbarkeit, sondern auch der Unterhaltung und Verkaufsförderung. Für die Recherche nach brauchbaren KI-Tools für Alltagsaufgaben sind sie nur bedingt hilfreich. Zudem bringt ein gemessenes Leistungsvermögen nichts, wenn die Leistung nicht auf die Straße gebracht wird, weil die Datenbasis unzureichend ist, der Output durch den Anbieter begrenzt / manipuliert wird oder keine Architekturen vorgehalten werden, die einen leistungsoptimalen Prozessablauf ermöglichen. Aus Anwendersicht dürften Hardwareanforderungen, Einsatzzweck, Geschwindigkeit (Rechenaufwand), Datenschutz, Sicherheit, Integrationsaufwand, Lizenz-/ Abokosten, Abhängigkeit, rechtliche Fragen... bedeutsamer sein. Einsatz nur zuarbeitend oder auslösend, kontrolliert oder autonom (Agenten sind ja der neue heiße Sch...ß), nur für interne oder auch externe Prozesse? Sind Fehler erwartbar und hinnehmbar? Kann, darf und will man sich bspw. in der Außendarstellung solche oder solche Peinlichkeiten erlauben (Folgenabschätzung)? In den Benchmarks wird man keine ultimative "Superintelligenz" entdecken, die alle Themenbereiche in höchster Qualität, dauerhaft und dann auch noch zu einem akzeptablen Preis abdeckt. Im Übrigen mehren sich die Stimmen, dass sich menschliche Arbeit möglicherweise doch nicht in dem angekündigten Umfang durch KI wird ersetzen lassen, weil der damit einhergehende Ressourcenverbrauch einfach zu hoch ist, was wiederum zu mehr eingeschränkten Spezialisierungen führen dürfte. Aber auch dort wird nicht nicht nach Benchmark-Werten, sondern nach der Aufgabenstellung entschieden. Entwickler bspw. greifen wohl gern auf das leistungsschwächere Claude Sonnett zurück, weil das Modell deutlich schneller und preisgünstiger ist. Konkurrenzprodukte wie Gemini und OpenAI sind ebenfalls gefragt, da sie neben dem Preis auch anderen Stärken (Integrierbarkeit, Echtzeit-Verhalten, Agenten-Workflows) aufweisen. Die Frage nach der passenden KI lässt sich also nur einem klaren "Es kommt darauf an." sowie durch Praxistests beantworten. Ich bin sehr gespannt, was sich Neues im Bereich "Finanzanalyse" und "juristische Textanalyse" ergibt Halluzinierende KI und Juristerei passen eigentlich gut zusammen, da beide mit Meinungen operieren. Die Herausforderung scheint darin zu bestehen, diese mit existierenden Quellen zu unterfüttern, was offenbar nicht immer gelingt. .-) (Bsp.) Mittlerweile gibt es solche Produktangebote: https://www.beck-noxtua.de/. Auch auf der anderen Seite wird aufgerüstet (siehe hier).
... Mehr anzeigen