attempto-Lab | Agent Smith

Ein Spieleentwickler, der keiner ist, verdient angeblich eine Million Dollar. Forschungspapiere schreiben sich quasi von selbst. KI-Agenten, so heißt es, sind die nächste Revolution und werden alles verändern. Der Hype ist real und das Getrommel ist ohrenbetäubend. Doch was steckt wirklich hinter dem Buzzword „KI-Agent“?

In diesem Artikel tauchen wir tief in die Welt der agentischen KI ein. Wir klären, was einen einfachen Chatbot von einem echten Agenten unterscheidet, bauen einen praktischen Workflow Schritt für Schritt nach und beleuchten die ungeschönten Herausforderungen, die auf dem Weg zur Produktion lauern.

Mehr als nur ein Chat: Was ist ein KI-Agent?

Viele von uns nutzen bereits Werkzeuge wie Perplexity Search oder andere fortschrittliche KI-Tools, hinter denen sich oft agentische Systeme verbergen. Doch nicht überall, wo „Agent“ draufsteht, ist auch einer drin. Ein einfacher Chat mit einem LLM, bei dem eine Eingabe eine Ausgabe erzeugt, ist noch nicht agentisch. Der wahre Unterschied liegt in der Fähigkeit, zielgerichtet zu planen, autonom zu handeln, das Ergebnis zu überprüfen und zu entscheiden, ob das Ziel erreicht wurde oder der Plan angepasst werden muss.

Ein echter KI-Agent besteht aus mehreren Kernkomponenten:

Ein Large Language Model (LLM) als Gehirn für Planung, logisches Denken und die Interpretation von unstrukturierten Informationen.
Werkzeuge (Tools), um mit der Umgebung zu interagieren. Das können externe APIs (z. B. für Wetterdaten), interne Systeme (z. B. eine Kundendatenbank), eine Websuche oder die Fähigkeit sein, Code in einer sicheren Umgebung auszuführen.
Ein Gedächtnis (Memory), um sich Informationen zu merken. Dies reicht von einem Kurzzeitgedächtnis (der Kontext der aktuellen Konversation) bis hin zu einem Langzeitgedächtnis, das wichtige Fakten und Präferenzen über Interaktionen hinweg speichert.
Wissen zum gezielten Nachschlagen hilft, Zweideutigkeiten zu beseitigen, indem Fachbegriffe mit der korrekten Definition zu ersetzt werden können oder Dokumentation gezielt gefunden werden.

Außerdem werden ihm folgende Informationen bereitgestellt:

Prompt, der seine Rolle und grundsätzliche Vorgehensweisen definiert.
Kontext mit Informationen, die dem Agenten helfen, sein Ziel zu erreichen. Beispiele wären dynamische Informationen über den Benutzer, aktuelles Datum/Zeit, Details aus dem Umfeld der Aufgabenstellung bzw. Hinweise auf Best Practices, Referenz-Architektur und Prozesse, die bei der Lösungsfindung oder Planung berücksichtigt werden sollen.
Ein klares Ziel, das er verfolgen soll und die Rahmenbedingungen, die es zu berücksichtigen gilt. Dies wird üblicherweise von einem Menschen vorgegeben.

Der entscheidende Unterschied zwischen einfachen Chatbots und echten Agenten liegt in den folgenden Eigenschaften, die ein System erst agentisch machen:

Autonomie: Der Agent kann selbstständig Entscheidungen treffen und seinen Plan anpassen, ohne bei jedem Schritt auf menschliche Anweisungen zu warten.
Umgebungswahrnehmung: Er kann seine Umgebung beobachten (z. B. den Output eines Tools lesen oder den Inhalt einer Webseite analysieren) und auf Veränderungen reagieren.
Handlungsfähigkeit: Er kann aktiv handeln, um seine Ziele zu erreichen, nicht nur passiv antworten.
Zielorientierung: Alle Aktionen sind auf ein übergeordnetes, oft komplexes Ziel ausgerichtet, wie z. B. „Organisiere eine Geschäftsreise nach Berlin unter Berücksichtigung meines Kalenders und Budgets.“

Dies führt zum zentralen Muster agentischer Systeme: dem ReAct-Loop (Reason + Act).

Reason (Nachdenken): Der Agent analysiert das Ziel und seine aktuelle Situation und erstellt einen Plan. „Ich muss eine Reise buchen. Zuerst prüfe ich den Kalender, dann suche ich Flüge, dann ein Hotel.“
Act (Handeln): Er führt den ersten Schritt seines Plans aus, indem er ein Werkzeug benutzt. Er ruft das Kalender-Tool auf, um freie Termine zu finden.
Observe (Beachten): Er wertet das Ergebnis seiner Aktion aus. „Der Kalender zeigt, dass die zweite Juniwoche frei ist. Das ist meine neue Information.“
Repeat: Ist das Ziel erreicht? Nein. Also beginnt der Kreislauf von vorn. Der Agent passt seinen Plan an („Okay, jetzt suche ich Flüge für die zweite Juniwoche“) und führt den nächsten Schritt aus.

Daraus ergibt sich ein Spektrum: Während wir bei einem einfachen Chat oder einem starren KI-Workflow die volle Kontrolle haben, geben wir bei einem agentischen Workflow Kontrolle zugunsten von Autonomie ab. Wir wissen zu Beginn nicht, wie viele Schritte der Agent benötigen oder welchen Weg er genau einschlagen wird.

Teamwork: Die Macht der Multi-Agenten-Systeme

Komplexe Aufgaben erfordern oft Spezialisten. Das gleiche Prinzip gilt für KI. In einem Multi-Agenten-System arbeiten mehrere, auf unterschiedliche Aufgaben spezialisierte Agenten zusammen, ähnlich wie ein agiles Team:

Ein Planning Agent zerlegt die Hauptaufgabe in kleinere, überschaubare Schritte.
Spezialisierte Agenten übernehmen Aufgaben wie Architektur, Codierung, Review oder Dokumentation. Jeder dieser Agenten hat seinen eigenen System-Prompt und seine eigenen, für die Aufgabe optimierten Werkzeuge.
Sie teilen sich einen gemeinsamen Kontext und Artefakte (z. B. Code-Dateien in einem gemeinsamen Verzeichnis), um an einem Strang zu ziehen.

Die Zusammenarbeit kann dabei unterschiedlich organisiert sein:

Hierarchisch: Ein Supervisor-Agent verteilt die Aufgaben und sammelt die Ergebnisse ein. Das ermöglicht mehr Kontrolle und einen klar definierten Prozess.
Als Gruppenchat: Die Agenten kommunizieren frei miteinander und entscheiden dynamisch, wer die nächste Aufgabe übernimmt. Das bietet mehr Autonomie und Flexibilität, kann aber auch chaotischer sein.

Ein beeindruckendes Beispiel aus der Praxis ist der Google Co-Scientist . Dieses Multi-Agenten-System analysiert wissenschaftliche Studien, generiert neue Forschungsideen und bewertet diese nach Neuheit und Erfolgsaussicht. Das Ergebnis ist eine priorisierte Liste von Ideen für menschliche Wissenschaftler – ein perfektes Beispiel für eine gelungene Mensch-Maschine-Kollaboration.

Aus der Praxis: Ein Agent, der Testfälle für User Stories schreibt

Theorie ist gut, aber wie baut man so etwas? Betrachten wir einen konkreten Anwendungsfall: die automatische Testfallerstellung aus User Stories.

Unser Workflow bekommt als Eingabe eine User Story. Der „Test-Case Writer“-Agent erstellt Test-Cases anhand vordefinierter Regeln. Ein “Test-Case-Reviewer”-Agent prüft die Testfälle nach definierten Kriterien und entscheidet, ob sie akzeptabel sind, oder nicht. Sein Feedback geht zurück an den Writer, der die Testfälle verbessert. Dieser Loop kann sich mehrmals wiederholen, bis die Testfälle den Qualitätsanforderungen genügen.

Das ist ein guter Anfang, aber noch nicht wirklich perfekt und robust.

Kritikpunkte:

Garbage in, garbage out: Wenn die User Story schlecht formuliert ist, produziert der Writer unbrauchbare Testfälle. Es fehlt eine Qualitätskontrolle der Eingabe.
Unkontrollierte Iteration: Der Writer und Reviewer können theoretisch endlos oft hin und her schicken, was zu explodierenden Kosten und unkontrollierbarem Verhalten führt.
Mangelnder Kontext: Sowohl Writer als auch Reviewer haben nicht den vollen Kontext der vorherigen Iterationen. Somit wir das Konvergieren auf ein gutes Ergebnis erschwert.

Wir verfeinern den Prozess:

Qualitäts-Gate: Ein User Story Reviewer prüft die eingehende Story. Nur qualitativ hochwertige Stories werden weitergeleitet. Schlechte Stories gehen mit Feedback an den Ersteller zurück.
Testfall-Erstellung: Ein Test-Case Writer nimmt die geprüfte Story und erstellt basierend auf Regeln die passenden Testfälle.
Review-Schleife: Ein Test-Case Reviewer prüft die erstellten Testfälle. Sind sie unvollständig oder fehlerhaft, schickt er sie mit konkretem Feedback an den Writer zurück.
Iteration: Der Writer erhält die Story, seine ursprünglichen Testfälle und das Feedback. Mit diesem Kontext kann er nun eine verbesserte Version erstellen. Dieser Loop kann sich mehrmals wiederholen, aber nur bis zu einer maximalen Anzahl von Iterationen (z. B. fünf Versuche).
Context-Engineering: Der Writer sollte als Feedback nicht nur die Testfälle, sondern auch die ursprüngliche Story, seine vorherige Version der Testfälle zusammen mit dem Feedback bekommen, um sein Ergebnis zielgerichtet zu verbessern. Der Reviewer sollte ebenfalls sämtliche Artefakte sehen, um iterativ besser zu werden.

Wichtige Lektionen aus diesem Beispiel:

Kontext ist alles: Der Agent muss genau die Informationen bekommen, die er für den nächsten Schritt braucht – nicht mehr und nicht weniger. Aus diesem Grund hat sich der Begriff des „Context Engineering“ etabliert, der das sorgfältige Kuratieren und Strukturieren des Inputs für jeden Agenten beschreibt.
Abbruchbedingungen sind Pflicht: Ein Agenten-Loop kann theoretisch ewig laufen, wenn z. B. der Reviewer zu kritisch oder der Writer zu schlecht ist. Eine maximale Anzahl an Iterationen (z. B. fünf Versuche) ist unerlässlich, um Endlosschleifen und explodierende Kosten zu vermeiden.
Strukturierte Daten helfen: Anstatt den Agenten reinen Text ausgeben zu lassen, sollte man ihm vorgeben, strukturierte Daten (z. B. JSON) zu generieren. Das macht die Ergebnisse maschinenlesbar und den Workflow steuerbar.

Die ungeschminkte Wahrheit: Herausforderungen und Fallstricke

Trotz des Potenzials ist der Weg zu einem produktionsreifen Agenten steinig. Die größten Hürden sind:

Nicht-Determinismus: LLMs sind von Natur aus nicht deterministisch. Die gleiche Eingabe kann zu leicht unterschiedlichen Ergebnissen führen. Das macht das Testen und die Gewährleistung konsistenter Qualität extrem schwierig.
Die „Black Box“: Für den Benutzer ist oft unklar, was ein Agent gerade tut, warum er eine bestimmte Entscheidung getroffen hat und wie lange er noch brauchen wird. Es mangelt an Transparenz, was das Vertrauen untergräbt. Gute Visualisierungen und Status-Updates sind hier entscheidend.
Qualität der Werkzeuge: Der agentische Workflow ist nur so gut wie seine schwächste Komponente. Ein Web-Scraping-Tool, das unsaubere Daten liefert, oder eine schlecht dokumentierte API führen unweigerlich zu schlechten Ergebnissen.
Kosten und Effizienz: Die leistungsfähigsten LLMs sind teuer und langsam. Für jede Aufgabe muss der richtige Kompromiss zwischen Kosten, Geschwindigkeit und Qualität gefunden werden. Nicht jede Aufgabe benötigt GPT-5 “extreme reasoning”.
Richtiger Einsatz: Agenten sind nicht die Lösung für alle Probleme. Oft ist ein “langweiliger” vordefinierter Workflow mit geeigneten KI-Komponenten für einzelne Tasks und menschlicher Überprüfung und Kontrolle die robustere und zuverlässigere Lösung.

Hype vs. Realität: der Stand von Agenten

Der anfängliche Hype um KI-Agenten als “Next Big Thing” beginnt abzuflauen, und es mehren sich kritische Stimmen – ausgerechnet von denen, die an vorderster Front entwickeln.

Andrej Karpathy, ehemaliger OpenAI-Wissenschaftler, bringt die aktuell zunehmende Enttäuschung auf den Punkt: „Agenten funktionieren einfach nicht.“ Heutigen Agenten fehle es an grundlegenden Fähigkeiten: Sie seien weder intelligent noch multimodal genug, könnten Endgeräte nicht verlässlich steuern und seien kognitiv enttäuschend. Ein Kernproblem sei das fehlende kontinuierliche Lernen; man könne ihnen nichts sagen, woran sie sich später erinnern.

Obwohl Karpathy diese Probleme für lösbar hält, erfordere dies massive Anstrengungen. Basierend auf seiner 15-jährigen Erfahrung in der KI-Forschung prognostiziert er, dass es „mindestens ein Jahrzehnt“ dauern wird, bis wir echte, vielseitige KI-Agenten sehen. Aktuell, so räumt er ein, funktionierten Agenten nur in eng definierten Nischen reibungslos, etwa bei simplen Copy-Paste-Aufgaben im Coding. Das sei aber weit entfernt von einem echten Agenten, der alle Aufgaben gut beherrschen müsse – und nicht nur textbasierte, wie Code, sondern auch visuelle, wie die Erstellung von Präsentationen.

Fazit: Agenten sind hier, um zu bleiben und durchaus hilfreich – wenn wir sie richtig einsetzen

Auch wenn sich KI-Agenten noch in den Anfängen befinden und die Forschung mittelfristig noch an der Zuverlässigkeit der LLMs arbeiten muss, stellen sie einen fundamental neuen Weg dar, um komplexe, mehrstufige Prozesse zu automatisieren. Der kurzfristige Erfolg liegt jedoch nicht im blinden Vertrauen auf die Autonomie von generischen Multi-Agenten-Systemen, sondern in durchdachtem Systemdesign und passgenauem Einsatz.

Die wichtigsten Erkenntnisse sind:

Kontrolle vs. Autonomie abwägen: Nicht jeder Prozess muss vollautonom sein. Oft sind gut definierte Workflows mit KI-Anreicherung die robustere und zuverlässigere Lösung.
Qualität beginnt bei den Daten: „Garbage in, garbage out“ gilt hier mehr denn je. Hochwertige, saubere Eingabedaten sind die halbe Miete.
Der Mensch bleibt im Loop: Bei kritischen Prozessen ist eine menschliche Überprüfung oft unerlässlich, um Fehlentscheidungen mit weitreichenden Folgen zu verhindern und die Kontrolle zu behalten.
Komplexität liegt im Detail: Das Schreiben des Agenten-Codes ist oft der einfachste Teil. Die wahre Herausforderung liegt im sorgfältigen Prompt- und Context-Engineering, dem Design von zuverlässigen Werkzeugen und - falls für den Use-Case erforderlich - der Koordination der Agenten.

Bei aller berechtigter Kritik: wir überschätzen oft, was kurzfristig möglich ist, aber unterschätzen den langfristigen Wandel. KI-Agenten werden nicht über Nacht alle Entwickler ersetzen, aber sie werden, ähnlich wie persönliche Assistenten, zunehmend in unseren Alltag und unsere Arbeitsabläufe integriert. Sie werden die Art und Weise, wie wir Software entwickeln und mit digitalen Systemen interagieren, nachhaltig verändern. Die Zukunft ist agentisch, und es ist an der Zeit, sich darauf vorzubereiten.

Agent Smith - reloaded

Mehr als nur ein Chat: Was ist ein KI-Agent?

Teamwork: Die Macht der Multi-Agenten-Systeme

Aus der Praxis: Ein Agent, der Testfälle für User Stories schreibt

Die ungeschminkte Wahrheit: Herausforderungen und Fallstricke

Hype vs. Realität: der Stand von Agenten

Fazit: Agenten sind hier, um zu bleiben und durchaus hilfreich – wenn wir sie richtig einsetzen

Alex Bloss

You May Also Like

Agent Smith - übernehmen Sie?

Model Context Protocol: die 'USB-Schnittstelle' für Chatbots und agentische Systeme