Die neue Responses API von OpenAI ist darauf ausgelegt, Entwicklern die Erstellung von KI-Agenten zu erleichtern, die komplexe Aufgaben eigenständig ausführen können. Diese API kombiniert die Einfachheit der bisherigen Chat Completions API mit erweiterten Fähigkeiten zur Nutzung von Tools, was die Entwicklung agentenbasierter Anwendungen vereinfacht.
Ein herausragendes Merkmal der Responses API ist die integrierte “Computer Use”-Funktion. Diese ermöglicht es Agenten, Aufgaben auf einem Computer im Namen des Nutzers durchzuführen. Dazu gehören Aktionen wie das Navigieren durch Benutzeroberflächen, das Ausfüllen von Formularen und das Ausführen von Klicks und Eingaben in Desktop-Anwendungen. Diese Funktionalität erweitert die Möglichkeiten der Automatisierung erheblich und könnte dazu beitragen, manuelle, repetitive Aufgaben in Desktop-Software zu automatisieren.
Zusätzlich zur Responses API hat OpenAI das Agents SDK eingeführt. Dieses Software Development Kit unterstützt Entwickler dabei, Workflows von Einzel- oder Multi-Agenten zu orchestrieren, was insbesondere bei der Automatisierung komplexer Aufgaben von Vorteil ist.
Für Unternehmen, die nach Lösungen suchen, um manuelle Software-Aufgaben zu automatisieren, bietet die Kombination aus Responses API und Agents SDK von OpenAI eine vielversprechende Grundlage. Diese Tools ermöglichen die Entwicklung von Agenten, die in der Lage sind, wiederkehrende Aufgaben in Desktop-Anwendungen effizient und zuverlässig zu übernehmen.
➡ Hat jemand schon mit der Responses API oder dem Agents SDK experimentiert? Welche Anwendungsfälle seht ihr für Steuerkanzleien?
Ich bin alt - habe die Hälfte des Textes leider nicht verstanden.
Multi-Agenten und Orchester sind aber hängengeblieben.
@marco_keuthen schrieb:Die neue Responses API von OpenAI ist darauf ausgelegt, Entwicklern die Erstellung von KI-Agenten zu erleichtern, die komplexe Aufgaben eigenständig ausführen können.
Pft, bei Datev wäre ich ja schon froh, wenn die SW einfache Aufgaben eigenständig ausführen würde, und mich nicht als Clickworker missbrauchen würde.
@Neu_hier schrieb:Ich bin alt - habe die Hälfte des Textes leider nicht verstanden.
Hast nichts verpasst. Das ist bloß Werbetext von OpenAI (die Firma hinter ChatGPT), der über den Threadtitel Relevanz für uns herzustellen versucht.
Im Grunde geht es nur darum, dass "die KI" jetzt auch in der Lage ist sich durch Formulare zu klicken - etwas, das man mit Maus-Makros schon vor Jahren machen konnte. Und im Sommer werden dann Pivot-Tabellen als Weltneuheit vorgestellt. /s
(Wenn ich hier Moderator wäre, würden diese Postings alle als Werbung rausfliegen. Aber als DATEV Solution Partner und Telemarketer, Verzeihung, Telemarker 💻🖍 scheint das weniger streng gesehen zu werden.)
Wer gerne das Original incl. Orchester lesen möchte, das nicht durch DeepL und ChatGPT gelaufen ist:
New tools for building agents | OpenAI
Ansonsten schreibt heise genau das:
OpenAI Operator: API für eigene KI-Agenten veröffentlicht | heise online
Das Herr Keuthen alle Social Media Kanäle zuspammt ist doch eine lang bekannte Tatsache, aber anscheinend hat er Erfolg damit.
um manuelle Software-Aufgaben zu automatisieren,
vielleicht wäre da die Lösung für das Problem bei der Steuerkontoabfrage, bei dem die Datev es seit beinahe drei Jahren nicht hinbekommt, dass man erst auf de Reiter Registrierung wechseln muss und dann zurück auf Abfrage, damit die Abfrage nicht ausgegraut ist ... 🙂
offtopic
War gerade schon über die Aussage von drei Jahren erschrocken. Aber eigentlich sind es doch erst 1,5 Jahre oder 514 Tage - also Peanuts für eine Fehlerbehebung bei Datev.
@Gelöschter Nutzer schrieb:
vielleicht wäre da die Lösung für das Problem bei der Steuerkontoabfrage, bei dem die Datev es seit beinahe drei Jahren nicht hinbekommt, dass man erst auf de Reiter Registrierung wechseln muss und dann zurück auf Abfrage, damit die Abfrage nicht ausgegraut ist ... 🙂
Ich muss gestehen, "Klicks automatisieren" macht mich nervös, wenn ich etwas klicke dann oft, weil ich etwas auslösen will, wenn ich das einem Programm überlasse will ich auch wissen was es wann macht und zwar bitte einheitlich.
Von einer KI sich durch die Benutzeroberfläche führen lassen, da kriege ich Horrorvisionen wie ich verzweifelt versuche ein bestimmtes Formular oder eine bestimmte Auswertung zu öffnen, aber erst die KI überzeugen muss dass ich auch tatsächlich diese will und nicht eine andere, die laut KI viel wahrscheinlicher ist, dass ich sie will.
Vielleicht bin ich auch schon zu alt, aber ich habe gelegentlich die Erfahrung gemacht, dass Automatisierungen einem gelegentlich auch einen nötigen Eingriff in das System verweigern. Ich ärgere mich ja schon, dass ich Kontennamen/-zwecke in Rechnungswesen nur komplett von einem Jahr ins nächste schieben kann statt eine Auswahl zu treffen.
@Gelöschter Nutzer schrieb:um manuelle Software-Aufgaben zu automatisieren,
vielleicht wäre da die Lösung für das Problem bei der Steuerkontoabfrage, bei dem die Datev es seit beinahe drei Jahren nicht hinbekommt, dass man erst auf de Reiter Registrierung wechseln muss und dann zurück auf Abfrage, damit die Abfrage nicht ausgegraut ist ... 🙂
Paar Minuten warten (ohne Reiterwechsel) funktioniert auch. Tolle Software, reife Leistung.
Also bei mir variiert die Wartedauer in Abhängigkeit der gelisteten Abfragen. Viele Abfragen = viel Wartezeit.. Also vom Gefühl her.. habs noch nie gemessen.
Hoffen wir auf John Connor 😉
@alex7763 schrieb:Hoffen wir auf John Connor 😉
Vote Skynet!
Hat jemand schon mit der Responses API oder dem Agents SDK experimentiert? Welche Anwendungsfälle seht ihr für Steuerkanzleien?
Guten Tag Herr @marco_keuthen ,
es freut mich, dass Sie uns die OpenAI-Variante von RPA vorstellen. Als IT'ler sollte Ihnen allerdings die Nicht-Neuerung dieser "Lösung" hinlänglich bekannt sein. Um Ihr Gedächtnis aufzufrischen zitiere ich einfach mal aus dem Wikipedia-Artikel zur RPA:
Erste wesentliche Elemente der robotergestützten Prozessautomatisierung wurden Anfang der 2000er Jahre entwickelt und übernahmen einfache Arbeiten wie den Datenübertrag von einer Anwendung zu einer anderen mittels Screen Scraping.
Die Unzulänglichkeiten von RPA gleichen sich den Unzulänglichkeiten von OpenAI-Responses oder allg. KI-Agenten nahtlos an. Primäre Probleme: Veränderungen in den Abläufen, fallbezogene Abweichungen und mangelndes Fehlerbewusstsein.
Ein RPA-System muss dauerhaft manuell geprüft und angepasst werden um z.B. Veränderungen in der zu automatisierenden Oberfläche abzufangen. Ein KI-Agent muss auch dauerhaft manuell geprüft werden, kann allerdings bei Fehlern nicht angepasst werden.
"Aber da kann man ja dann entsprechend prompten um etwaige Fehler zu beheben!" möchten Sie jetzt vielleicht spontan auf LinkedIn posten.
An dieser Stelle würde ich Ihnen empfehlen folgendes Experiment durchzuführen: Lassen Sie sich von OpenAI ein Bild von einem übervollen oder fast leeren Weinglas generieren. Sie haben beliebig viele Versuche die KI zu einem tauglichen Ergebnis zu prompten. Ich bin auf das Resultat gespannt. Alternativ können Sie auch versuchen eine Fensterfront zu generieren, bei der die Vorhänge nur bis zur Mitte der Fenster reichen.
Wer bisher nicht vom Einsatz von RPA in der Kanzlei überzeugt wurde (gerne berichten bei wie vielen Ihrer Kunden Sie entsprechende Software implementiert haben), wird auch keinen Mehrwert in KI-Agents finden. Anders als "Telemarker" oder die Deutsche Bahn sind Steuerkanzleien leider auf die Korrektheit ihrer Arbeit angewiesen. Eine durch höhere Fehlerquoten erkaufte Zeitersparnis ist leider keine Zeitersparnis.
Beste Grüße und viel Spaß beim generieren des Weinglases.
Habe mal getestet:
Dazu eventuell noch dieses hochinteressante Video:
Youtube - Why Can‘t ChatGPT Draw a Full Glass of Wine?
Sehr schön sind auch die Ergebnisse beim Versuch, eine einheitlich schwarze (grüne, blaue, …) Fläche zu bekommen. Ich glaube, einer der Bildgeneratoren erkennt inzwischen solche Anfragen und verweist darauf, dass man doch lieber Paint o.ä. nutzen solle.
@TLudwig schrieb:Beste Grüße und viel Spaß beim generieren des Weinglases.
Der Wunsch nach einem randvollen Weinglas wurde scheinbar gehört: Introducing 4o Image Generation | OpenAI
Steht für mich allerdings noch nicht zur Verfügung. 😞
Ja geiler **bleep**! der Workaround für alles! Dann muss datev endlich nicht mehr das gejammer über user-experience hören und dann schreiben wir dem KI-Agenten was er zu tun hat und wir gucken ob das Ergebnis und die Berechnungsliste passt.
Und dann können wir Fachangestellten gucken wo wir bleiben. Ich investiere in eine Umschulung ins Handwerk. Welcome back to the real problems!
Sollte man mal austesten:
Sprichwort ist das Glas halbvoll (Optimismus) oder halbleer (Pessimismus) -
🤣
Wobei mir das Weinglas in Natura deutlich lieber ist als das Bild von Open AI .
(Wenn ich hier Moderator wäre, würden diese Postings alle als Werbung rausfliegen. Aber als DATEV Solution Partner und Telemarketer, Verzeihung, Telemarker 💻🖍scheint das weniger streng gesehen zu werden.)
erklär mal gerade, warum das hier Werbung sein soll? @rschoepe
Das Herr Keuthen alle Social Media Kanäle zuspammt ist doch eine lang bekannte Tatsache, aber anscheinend hat er Erfolg damit.
@einmalnoch Also mal ernsthaft, was ist denn daran Spam?
Lass doch bitte deine schlechte Laune nicht immer an anderen aus 🤷🏻
@f_mayer schrieb:Ich muss gestehen, "Klicks automatisieren" macht mich nervös,
Danke für deinen ehrlichen Kommentar – solche Gedanken sind extrem wertvoll!
Und ja: Die Sorge, die Kontrolle zu verlieren, ist absolut nachvollziehbar. Ich denke, der Schlüssel liegt genau darin, dass du als Nutzer die Hoheit behältst – und die KI nicht eigenständig Entscheidungen trifft, sondern deine Anweisungen präzise ausführt.
Die neue Funktion zielt nicht auf wildes Durchklicken, sondern auf das präzise Abarbeiten definierter Aufgaben – z. B. eine Klickfolge, die immer gleich ist und heute noch manuell erledigt wird. Keine Interpretation, kein „Ich glaube, du willst eher das…“.
Und natürlich gilt auch hier: Nur da einsetzen, wo es Sinn macht.
Wo der Mensch schneller, klarer oder sicherer entscheidet – bleibt er am Steuer.
Ich glaube, am Ende wird’s wie beim Tempomat im Auto: Wer ihn versteht, nutzt ihn. Wer ihn nicht braucht, schaltet ihn aus.
Danke nochmal für deine Perspektive!
@TLudwig schrieb:Hat jemand schon mit der Responses API oder dem Agents SDK experimentiert? Welche Anwendungsfälle seht ihr für Steuerkanzleien?
Guten Tag Herr @marco_keuthen ,
es freut mich, dass Sie uns die OpenAI-Variante von RPA vorstellen. Als IT'ler sollte Ihnen allerdings die Nicht-Neuerung dieser "Lösung" hinlänglich bekannt sein. Um Ihr Gedächtnis aufzufrischen…
Danke für den ausführlichen Kommentar – ich sehe, Sie haben sich intensiv mit RPA beschäftigt.
Und ja, es stimmt: Die Grundidee, Abläufe über Benutzeroberflächen zu automatisieren, ist nicht neu. Auch die Schwächen (Brüchigkeit, fehlender Kontext, Aufwand beim Nachjustieren) sind bekannt.
Aber genau deshalb ist die Entwicklung spannend:
Während RPA starre Klickabfolgen nachahmt, sind KI-gestützte Systeme wie OpenAI Responses nicht auf feste Oberflächen begrenzt – sie verstehen semantisch, was sie tun. Und auch wenn das heute noch nicht perfekt funktioniert (siehe Weinglas), liegt hier eben die Richtung: Weg vom stumpfen Klicken, hin zur intelligenten Interaktion.
Ob und wann das für Steuerkanzleien sinnvoll wird? Genau das möchte ich herausfinden – nicht theoretisch, sondern in der Praxis. Und wenn’s aktuell nur für bestimmte Standardfälle reicht, ist das trotzdem besser als gar keine Entlastung.
Übrigens: Das mit dem halbvollen Weinglas… das habe ich ausprobiert. Ergebnis war mittel.
Aber ich nehme es sportlich – und nicht jedes KI-Tool bewerte ich danach, ob es meine Fenster dekorieren kann.
In diesem Sinne: Danke für den Input – und falls Sie noch Ideen für gute Prompts haben, ich bin offen!
... bei einigen Beiträgen einiger User erhält man keine direkt verwertbaren Informationen, sondern nur quasi eine 'Geruchsprobe' vor die Nase gehalten, um irgendwo anders irgendeinen (i.d.R.) kostenpflichtigen Service zu nutzen ...
... das klassische Prinzip der Werbung
... und solche Werbung sollte man blockieren oder zumindest als solche kennzeichnen 😎
Nachtrag:
... aber glücklicherweise gibt es auch User, die erstaunlich viel 'Hirnschmalz', Substanz und Zeitaufwand in die Beiträge stecken, mit denen man dann auch direkt spürbare Fortschritte erreichen kann ...
... also nicht nur 'Dealmaker' ...
@vogtsburger schrieb:
Nachtrag:
... aber glücklicherweise gibt es auch User, die erstaunlich viel 'Hirnschmalz', Substanz und Zeitaufwand in die Beiträge stecken, mit denen man dann auch direkt spürbare Fortschritte erreichen kann ...
... also nicht nur 'Dealmaker' ...
Darum z.B. auch mein neuer Beitrag, der erklärt, wie man mit KI-Tools aus YouTube-Videos eine Erklärung / Zusammenfassung zieht. 😉
Deals muss ich nicht mehr machen, bin aus dem operativen Business raus.
... bin mir gerade ein wenig unschlüssig, ob der Beitrag auch ein gutes Beispiel für "Whataboutism" ist 😎