Ein KI-Agent geht live. Die Demo hat funktioniert. Der Workflow schien klar. Drei Tage später produziert der Agent Ergebnisse, die richtig aussehen, aber falsch sind.
Die Annahme war, dass Komplexität das Problem sein würde — dass schwierige Workflows scheitern und einfache reibungslos laufen. Diese Annahme ist falsch. Komplexität bringt KI-Agenten im Produktivbetrieb nicht zu Fall. Unklarheit schon.
KI-Agenten scheitern an unklaren Aufgaben, nicht an schwierigen
Eine schwierige Aufgabe lässt sich automatisieren, wenn jeder Entscheidungspunkt darin definiert ist. Eine einfache Aufgabe scheitert, sobald der Agent etwas wissen muss, das niemand spezifiziert hat.
„Sende eine Follow-up-E-Mail an jeden Lead, der seit fünf Werktagen nicht geantwortet hat" ist komplex genug, um wie eine Urteilsaufgabe zu wirken. Der Workflow läuft zuverlässig, weil der Auslöser definiert ist, der Input ein CRM-Datensatz ist, der Output eine E-Mail ist und die Bedingungen explizit sind. Der Agent trifft keine Entscheidungen, die nicht bereits im Briefing getroffen wurden.
„Kundenanfragen bearbeiten" klingt einfach genug, um unkompliziert zu sein. Im Produktivbetrieb scheitert es, weil „Kundenanfragen bearbeiten" keine Aufgabe ist. Es ist eine Kategorie, die Hunderte von Aufgaben enthält — jede mit eigenen Eingaben, Ausgaben und Ausnahmefällen — und keine davon wurde spezifiziert.
Das Versagensmuster ist Unterspezifizierung. Der Agent liefert genau das, was er erhalten hat. Wenn das Erhaltene unvollständig ist, spiegelt die Ausgabe das wider.
Die vier Versagensmuster im Produktivbetrieb
Vier Muster erklären die meisten Agentenfehler nach der ersten Woche im Produktivbetrieb.
Mehrdeutige Eingaben — Der Agent empfängt etwas, für das er nicht konzipiert wurde. Ein Kunde schreibt in einer Sprache, für die der Agent nicht gebrieft wurde. Eine Bestellung kommt mit zwei Positionen statt einer. Ein Formular wird mit einem leeren Pflichtfeld eingereicht. Die Eingabe ist nicht falsch — sie wurde nur nicht antizipiert. Der Agent produziert eine Ausgabe, die korrekt wirkt, es aber nicht ist, weil der aufgetretene Fall nie definiert wurde.
Kontextabhängiges Urteilsvermögen — Die Aufgabe erfordert Wissen, das dem Agenten nie gegeben wurde. „Diesen Lead nachfassen" klingt definiert. Aber der richtige Ton hängt davon ab, wie der Lead eingegangen ist, wie lange er sich bereits in der Pipeline befindet und ob es im letzten Quartal einen schwierigen Austausch gab. Ein Mensch, der sechs Monate im Unternehmen gearbeitet hat, navigiert das automatisch. Ein Agent ohne Zugang zu dieser Geschichte kann es nicht.
Sich verschiebender Umfang — Die Aufgabendefinition verschiebt sich, weil sich das Unternehmen verändert. Der Agent wurde gebrieft, wie der Workflow im Februar funktionierte. Im April hat das Team einen Schritt hinzugefügt, einen Feldnamen geändert oder einen neuen Falltyp eingeführt. Niemand hat das Briefing aktualisiert. Der Agent führt weiterhin die alte Version des Workflows aus.
Koordination mit mehreren Beteiligten — Die Aufgabe erfordert das Warten auf eine andere Person oder ein anderes System und anschließendes Handeln auf Basis der Antwort. „Angebot senden, dann nachfassen, wenn keine Antwort" klingt einfach. Aber was, wenn der Interessent mit einer Frage statt einer Entscheidung antwortet? Was, wenn die Antwort in einem anderen E-Mail-Thread eintrifft? Der Agent wurde für einen Pfad gebrieft. Der Produktivbetrieb enthält mehrere.
Aufgaben, die automatisierbar wirken, aber regelmäßig scheitern
Agenten scheitern nicht an schwierigen Aufgaben. Sie scheitern an unklaren.
Ein Agent ist nicht schlecht in Kundenkommunikation. Er ist schlecht in „Kundenkommunikation bearbeiten" — ein Satz, der fünfzig Aufgaben enthält, die ihm nie gegeben wurden.
Einige Workflow-Kategorien stehen auf fast jeder Automatisierungsliste von Unternehmen. Sie enttäuschen durchgängig, weil ihre scheinbare Einfachheit strukturelle Probleme verbirgt.
„Postfach verwalten" — Jede Nachricht ist anders. Ein Agent kann einen bestimmten Nachrichtentyp bearbeiten — Rückerstattungsanfragen, Lieferfragen, Kontoänderungen — wenn dieser Typ isoliert und spezifiziert ist. Das gesamte Postfach ist keine Aufgabe. Es ist eine Kategorie.
„Meetings planen" — Wirkt mechanisch. Enthält Präferenzlogik. Was, wenn zwei Zeitfenster verfügbar sind, aber eines direkt vor einem Gespräch liegt, das der Agent nicht kennt? Was, wenn die andere Partei Vormittage bevorzugt und sich in einer anderen Zeitzone befindet? Ein Mensch wendet diese Regeln an, ohne gefragt zu werden. Ein Agent wendet keine davon an, es sei denn, sie sind schriftlich festgehalten.
„Aktivitäten dieser Woche zusammenfassen" — Was gilt als diese Woche? Welche Aktivitäten sind relevant? Für welches Publikum? Eine Zusammenfassung für sich selbst enthält andere Punkte als eine, die an einen Investor gesendet wird. Der Agent braucht einen definierten Umfang und eine feste Vorlage — keine allgemeine Anweisung.
„Leads beobachten und beantworten" — Die Beobachtung ist automatisierbar. Die Antwort hängt davon ab, wie der Lead eingegangen ist, was er gesagt hat und in welchem Stadium er sich befindet. Beides in einer Anweisung zu kombinieren, produziert einen Agenten, der jeden Lead mit der gleichen Logik behandelt.
Wie Sie diese Grenzen nutzen, bevor Sie sich festlegen
Die vier oben genannten Versagensmuster sind erkennbar, bevor eine einzige Zeile Agentencode geschrieben wird. Für jeden Workflow, den Sie in Betracht ziehen, zeigen vier Fragen, wo die Lücken liegen.
Können alle Eingaben, die dieser Agent erhalten wird, in einem einzigen Absatz beschrieben werden? Wenn die Antwort „es kommt darauf an, wer schreibt" enthält, ist der Eingaberaum nicht definiert.
Kann Erfolg bewertet werden, ohne die Ausgabe zu lesen? Wenn eine Person prüfen müsste, ob der Agent es richtig gemacht hat, braucht die Aufgabe mehr Spezifikation, bevor ein Agent sie zuverlässig bearbeiten kann.
Wie oft tritt eine Ausnahme auf, und was passiert, wenn sie es tut? Wenn Ausnahmen mehr als einmal pro Woche vorkommen und jede anders behandelt wird, hat der Workflow undefiniertes Verhalten an den Rändern. Diese Ränder zeigen sich im Produktivbetrieb.
Was tut der Agent, wenn er nicht entscheiden kann? Jedes Briefing braucht einen expliziten Eskalationspfad — eine benannte Aktion für Eingaben, die nicht dem erwarteten Muster entsprechen. Nicht „der Agent wird damit umgehen" — einen konkreten Schritt: zur Prüfung markieren, in eine Warteschlange leiten, eine Zwischennachricht senden.
Diese Fragen schließen die Automatisierung nicht aus. Sie identifizieren, was zuerst definiert werden muss. Ein Workflow, der alle vier Fragen nicht besteht, kann trotzdem automatisiert werden — nachdem die Eingaben begrenzt, der Erfolg messbar gemacht, die Ausnahmen begrenzt und der Eskalationspfad benannt wurden.