Was KI-Agenten wirklich schlecht können

Ein KI-Agent geht live. Die Demo hat funktioniert. Der Workflow schien klar. Drei Tage später produziert der Agent Ergebnisse, die richtig aussehen, aber falsch sind — er antwortet auf jede Anfrage gleich und übersieht Kontext, den jedes Teammitglied sofort erkannt hätte. Die Annahme war, dass KI-Agenten mit Komplexität kämpfen. Das eigentliche Versagensmuster ist ein anderes: Agenten scheitern an unklaren Aufgaben, nicht an schwierigen. Dieser Unterschied entscheidet, welche Workflows sich sicher automatisieren lassen.

Die Annahme war, dass Komplexität das Problem sein würde — dass schwierige Workflows scheitern und einfache reibungslos laufen. Diese Annahme ist falsch. Komplexität bringt KI-Agenten im Produktivbetrieb nicht zu Fall. Unklarheit schon.

KI-Agenten scheitern an unklaren Aufgaben, nicht an schwierigen

Eine schwierige Aufgabe lässt sich automatisieren, wenn jeder Entscheidungspunkt darin definiert ist. Eine einfache Aufgabe scheitert, sobald der Agent etwas wissen muss, das niemand spezifiziert hat.

„Sende eine Follow-up-E-Mail an jeden Lead, der seit fünf Werktagen nicht geantwortet hat" ist komplex genug, um wie eine Urteilsaufgabe zu wirken. Der Workflow läuft zuverlässig, weil der Auslöser definiert ist, der Input ein CRM-Datensatz ist, der Output eine E-Mail ist und die Bedingungen explizit sind. Der Agent trifft keine Entscheidungen, die nicht bereits im Briefing getroffen wurden.

„Kundenanfragen bearbeiten" klingt einfach genug, um unkompliziert zu sein. Im Produktivbetrieb scheitert es, weil „Kundenanfragen bearbeiten" keine Aufgabe ist. Es ist eine Kategorie, die Hunderte von Aufgaben enthält — jede mit eigenen Eingaben, Ausgaben und Ausnahmefällen — und keine davon wurde spezifiziert.

Das Versagensmuster ist Unterspezifizierung. Der Agent liefert genau das, was er erhalten hat. Wenn das Erhaltene unvollständig ist, spiegelt die Ausgabe das wider.

Die vier Versagensmuster im Produktivbetrieb

Vier Muster erklären die meisten Agentenfehler nach der ersten Woche im Produktivbetrieb.

Mehrdeutige Eingaben: Der Agent empfängt etwas, für das er nicht konzipiert wurde. Ein Kunde schreibt in einer Sprache, für die der Agent nicht gebrieft wurde. Eine Bestellung kommt mit zwei Positionen statt einer. Ein Formular wird mit einem leeren Pflichtfeld eingereicht. Die Eingabe ist nicht falsch — sie wurde nur nicht antizipiert. Der Agent produziert eine Ausgabe, die korrekt wirkt, es aber nicht ist, weil der aufgetretene Fall nie definiert wurde.

Kontextabhängiges Urteilsvermögen: Die Aufgabe erfordert Wissen, das dem Agenten nie gegeben wurde. „Diesen Lead nachfassen" klingt definiert. Aber der richtige Ton hängt davon ab, wie der Lead eingegangen ist, wie lange er sich bereits in der Pipeline befindet und ob es im letzten Quartal einen schwierigen Austausch gab. Ein Mensch, der sechs Monate im Unternehmen gearbeitet hat, navigiert das automatisch. Ein Agent ohne Zugang zu dieser Geschichte kann es nicht.

Sich verschiebender Umfang: Die Aufgabendefinition verschiebt sich, weil sich das Unternehmen verändert. Der Agent wurde gebrieft, wie der Workflow im Februar funktionierte. Im April hat das Team einen Schritt hinzugefügt, einen Feldnamen geändert oder einen neuen Falltyp eingeführt. Niemand hat das Briefing aktualisiert. Der Agent führt weiterhin die alte Version des Workflows aus.

Koordination mit mehreren Beteiligten: Die Aufgabe erfordert das Warten auf eine andere Person oder ein anderes System und anschließendes Handeln auf Basis der Antwort. „Angebot senden, dann nachfassen, wenn keine Antwort" klingt einfach. Aber was, wenn der Interessent mit einer Frage statt einer Entscheidung antwortet? Was, wenn die Antwort in einem anderen E-Mail-Thread eintrifft? Der Agent wurde für einen Pfad gebrieft. Der Produktivbetrieb enthält mehrere.

Die vier Muster mit ihren Erkennungssignalen:

Versagensmuster	Grundursache	Erkennungsfrage	Symptom im Produktivbetrieb
Mehrdeutige Eingaben	Eingaberaum wurde nie vollständig definiert	Können alle Eingaben, die dieser Agent erhält, in einem Absatz beschrieben werden?	Bekannte Fälle werden gut bearbeitet; unbekannte Eingaben erzeugen Ausgaben, die richtig wirken, aber den Kontext verfehlen
Kontextabhängiges Urteilsvermögen	Erforderlicher Kontext wurde dem Agenten nie gegeben	Hängt die richtige Antwort von etwas ab, das nicht in den Datenquellen des Agenten gespeichert ist?	Ausgaben sind technisch korrekt, aber Ton, Priorität oder Framing passt nicht zum konkreten Fall
Sich verschiebender Umfang	Briefing wurde nach Workflow-Änderungen nicht aktualisiert	Hat sich seit dem Schreiben des Briefings ein Schritt, ein Feld oder ein Falltyp geändert?	Agent führt alten Workflow auf neuen Eingaben aus; Fehler wirken zufällig, weil sie vom jeweiligen neuen Falltyp abhängen
Koordination mit mehreren Beteiligten	Workflow verzweigt sich anhand externer Antworten	Erfordert ein Schritt das Warten auf eine Antwort und unterschiedliches Handeln je nach Inhalt?	Funktioniert in der Demo (ein Pfad); scheitert im Produktivbetrieb, wenn Antworten vom erwarteten Pfad abweichen

Vier Versagensmuster-Karten: mehrdeutige Eingaben, kontextabhängiges Urteilsvermögen, sich — Diese vier Muster erklären die meisten Produktionsfehler. Alle vier sind sichtbar, bevor ein Agent gebaut wird.

Aufgaben, die automatisierbar wirken, aber regelmäßig scheitern

Agenten scheitern nicht an schwierigen Aufgaben. Sie scheitern an unklaren.

Ein Agent ist nicht schlecht in Kundenkommunikation. Er ist schlecht in „Kundenkommunikation bearbeiten" — ein Satz, der fünfzig Aufgaben enthält, die ihm nie gegeben wurden.

Einige Workflow-Kategorien stehen auf fast jeder Automatisierungsliste von Unternehmen. Sie enttäuschen durchgängig, weil ihre scheinbare Einfachheit strukturelle Probleme verbirgt.

„Postfach verwalten": Jede Nachricht ist anders. Ein Agent kann einen bestimmten Nachrichtentyp bearbeiten — Rückerstattungsanfragen, Lieferfragen, Kontoänderungen — wenn dieser Typ isoliert und spezifiziert ist. Das gesamte Postfach ist keine Aufgabe. Es ist eine Kategorie.

„Meetings planen": Wirkt mechanisch. Enthält Präferenzlogik. Was, wenn zwei Zeitfenster verfügbar sind, aber eines direkt vor einem Gespräch liegt, das der Agent nicht kennt? Was, wenn die andere Partei Vormittage bevorzugt und sich in einer anderen Zeitzone befindet? Ein Mensch wendet diese Regeln an, ohne gefragt zu werden. Ein Agent wendet keine davon an, es sei denn, sie sind schriftlich festgehalten.

„Aktivitäten dieser Woche zusammenfassen": Was gilt als diese Woche? Welche Aktivitäten sind relevant? Für welches Publikum? Eine Zusammenfassung für sich selbst enthält andere Punkte als eine, die an einen Investor gesendet wird. Der Agent braucht einen definierten Umfang und eine feste Vorlage — keine allgemeine Anweisung.

„Leads beobachten und beantworten": Die Beobachtung ist automatisierbar. Die Antwort hängt davon ab, wie der Lead eingegangen ist, was er gesagt hat und in welchem Stadium er sich befindet. Beides in einer Anweisung zu kombinieren, produziert einen Agenten, der jeden Lead mit der gleichen Logik behandelt.

Lösungsansätze für jedes Versagensmuster

Jedes Versagensmuster hat eine spezifische Lösung. Die meisten sind nicht technisch — sie sind Spezifikationsprobleme, was bedeutet, dass die Lösungen im Briefing liegen, nicht im Code.

Bei mehrdeutigen Eingaben: Alle Falltypen, die der Agent bearbeiten wird, sowie alle, die er nicht bearbeiten wird, aufzählen. Eine explizite Regel für „unbekannte Eingabe" schreiben — was der Agent tut, wenn er etwas außerhalb seiner definierten Fälle erhält. Im Produktivbetrieb treffen unbekannte Eingaben in der ersten Woche ein. Der Agent braucht eine definierte Aktion dafür vor der Liveschaltung, nicht eine, die erst nach einem Fehler entwickelt wird. Die wirksamste Lösung ist ein Hybrid-Scope: Der Agent bearbeitet die definierte Teilmenge präzise, unbekannte Eingaben werden in eine Menschenwarteschlange weitergeleitet. Ein 90%-automatisierter Workflow mit sauberem 10%-Ausnahmepfad übertrifft einen 100%-automatisierten Workflow mit unvorhersehbaren Ausnahmen.

Bei kontextabhängigem Urteilsvermögen: Den benötigten Kontext als strukturierte Daten extrahieren und dem Agenten Lesezugriff darauf geben. Wenn das richtige Follow-up davon abhängt, wie lange ein Lead in der Pipeline ist, dieses als CRM-Feld speichern. Wenn der Ton von einem früheren Interaktionsergebnis abhängt, es als Deal-Notiz protokollieren. Der Agent wendet Kontext an, den er lesen kann — er kann keine Geschichte ableiten, die ihm nie gegeben wurde. Für beziehungssensible Kommunikation bewahrt ein menschlicher Genehmigungsschritt für den Agent-Entwurf die Beziehungsschicht, während der Entwurfsvorteil erhalten bleibt. Das ist das OpenClaw-Modell: Agent entwirft, Mensch genehmigt vor dem Versand.

Bei sich verschiebenden Umfang: Einen Briefing-Überprüfungsrhythmus einplanen, bevor der Agent live geht. Monatlich ist das richtige Intervall für die meisten Dienstleistungsworkflows. Wenn ein Schritt hinzugefügt, ein Tool geändert oder ein neuer Falltyp eingeführt wird, aktualisiert der Agent-Verantwortliche das Briefing vor der Übernahme in den Produktivbetrieb. Workflow-Änderungen ohne diesen Schritt erscheinen als unerklärliche Fehler — weil der Agent Anweisungen für einen Workflow ausführt, der dem Produktivbetrieb nicht mehr entspricht.

Bei Koordination mit mehreren Beteiligten: Den Workflow an der Antwortgrenze aufteilen. Der Agent übernimmt die ausgehende Aktion: Angebot versenden, Follow-up, Bestätigung. Eine separate Regel überwacht Antworten und leitet sie weiter. Erwartete Antworten — Zustimmung, Buchung, Genehmigung — setzen den Workflow fort. Unerwartete Antworten — Fragen, Einwände, nicht zum Scope gehörende Anfragen — gehen in eine Menschenwarteschlange. Der Agent muss nie entscheiden, was eine mehrdeutige Antwort bedeutet.

Wie Sie diese Grenzen nutzen, bevor Sie sich festlegen

Die vier oben genannten Versagensmuster sind erkennbar, bevor eine einzige Zeile Agentencode geschrieben wird. Für jeden Workflow, den Sie in Betracht ziehen, zeigen vier Fragen, wo die Lücken liegen.

Können alle Eingaben, die dieser Agent erhalten wird, in einem einzigen Absatz beschrieben werden? Wenn die Antwort „es kommt darauf an, wer schreibt" enthält, ist der Eingaberaum nicht definiert.

Kann Erfolg bewertet werden, ohne die Ausgabe zu lesen? Wenn eine Person prüfen müsste, ob der Agent es richtig gemacht hat, braucht die Aufgabe mehr Spezifikation, bevor ein Agent sie zuverlässig bearbeiten kann.

Wie oft tritt eine Ausnahme auf, und was passiert, wenn sie es tut? Wenn Ausnahmen mehr als einmal pro Woche vorkommen und jede anders behandelt wird, hat der Workflow undefiniertes Verhalten an den Rändern. Diese Ränder zeigen sich im Produktivbetrieb.

Was tut der Agent, wenn er nicht entscheiden kann? Jedes Briefing braucht einen expliziten Eskalationspfad — eine benannte Aktion für Eingaben, die nicht dem erwarteten Muster entsprechen. Nicht „der Agent wird damit umgehen" — einen konkreten Schritt: zur Prüfung markieren, in eine Warteschlange leiten, eine Zwischennachricht senden.

Diese Fragen schließen die Automatisierung nicht aus. Sie identifizieren, was zuerst definiert werden muss. Ein Workflow, der alle vier Fragen nicht besteht, kann trotzdem automatisiert werden — nachdem die Eingaben begrenzt, der Erfolg messbar gemacht, die Ausnahmen begrenzt und der Eskalationspfad benannt wurden.

Was verwenden, wenn ein Agent nicht das richtige Tool ist

Nicht jeder Workflow, der die Prüffragen nicht besteht, sollte aufgegeben werden. Manche gehören zu einem anderen Tool oder einem engeren Scope.

Szenario	Warum der Agent scheitert	Was stattdessen verwenden
Variable Eingaben ohne definierbares Muster	Scope kann nicht eingegrenzt werden	Menschlicher Reviewer + enger Agent für definierte Teilmenge
Urteilsvermögen, das undokumentierten Kontext erfordert	Kontext nicht als strukturierte Daten verfügbar	Mensch mit Agent-erstelltem Entwurf zur Überprüfung und Genehmigung
Workflow ändert sich öfter als monatlich	Briefing kann nicht mit dem Änderungstempo Schritt halten	Regelbasierte Automatisierung oder menschliche Checkliste
Mehrseitiger Workflow mit verzweigten Antworten	Agent kann Antwortvarianten ohne explizites Routing nicht verarbeiten	Agent für ausgehende Aktionen + menschliches Eskalationsprotokoll für unerwartete Antworten
Beziehungssensible Kommunikation	Ton-Risiko überwiegt den Entwurfsvorteil	Agent entwirft, Mensch genehmigt vor dem Versand
Regulatorische oder vertragliche Entscheidungen	Haftung kann nicht an ein automatisiertes System delegiert werden	Mensch — keine Agentenkonfiguration ändert daran etwas

Die richtige Fragestellung ist nicht „Agent oder keine Automatisierung". Die richtige Fragestellung lautet: Was ist der kleinste, präziseste definierte Scope, in dem der Agent zuverlässige Ausgaben produziert? Die meisten Workflows, die als Ganzes scheitern, enthalten einen Kern definierter Aufgaben, der gut funktioniert. Diesen Kern isolieren und den Agenten darum herum aufbauen — statt zu versuchen, die gesamte Kategorie auf einmal zu automatisieren — ist der Weg, wie enge Implementierungen zu skalierbaren Systemen werden.

Häufig gestellte Fragen

Was können KI-Agenten wirklich schlecht?

KI-Agenten scheitern an unklaren Aufgaben, nicht an schwierigen. Workflows mit unvorhersehbaren Eingaben, erforderlichem Kontext, der nie bereitgestellt wurde, sich veränderndem Umfang oder Koordination mit mehreren Beteiligten — das sind die Kategorien, die unzuverlässige Ausgaben produzieren. Ein komplexer Workflow mit definierten Entscheidungspunkten läuft zuverlässig. Eine einfache Aufgabe mit undefiniertem Umfang scheitert.

Was ist Unterspezifizierung bei einem KI-Agenten?

Unterspezifizierung liegt vor, wenn das Briefing Eingabegrenzen, Ausnahmebehandlung oder Eskalationspfade nicht enthält. Der Agent liefert genau das, was er erhalten hat — wenn das Briefing unvollständig ist, spiegelt die Ausgabe das wider. Der Agent macht keinen Fehler; er arbeitet mit der Definition, die er bekommen hat.

Warum kann ein KI-Agent nicht „das Postfach verwalten"?

„Postfach verwalten" ist keine Aufgabe — es ist eine Kategorie mit Hunderten von Aufgaben, jede mit anderen Eingaben, Ausgaben und Ausnahmefällen. Ein Agent kann einen spezifischen, definierten Nachrichtentyp zuverlässig bearbeiten. Alle Postfach-Verwaltung in einer Anweisung zusammenzufassen produziert einen Agenten, der jede Nachricht mit der gleichen Logik behandelt.

Was muss jedes Agenten-Briefing enthalten?

Jedes Briefing braucht vier definierte Elemente: den vollständigen Bereich der Eingaben, die der Agent erhält; eine Methode zur Bewertung der Ausgabequalität, ohne jedes Ergebnis lesen zu müssen; die maximale akzeptable Ausnahmerate und was bei Ausnahmen passiert; sowie einen expliziten Eskalationspfad für Eingaben außerhalb des erwarteten Musters.

Was KI-Agenten wirklich schlecht können

KI-Agenten scheitern an unklaren Aufgaben, nicht an schwierigen

Die vier Versagensmuster im Produktivbetrieb

Aufgaben, die automatisierbar wirken, aber regelmäßig scheitern

Lösungsansätze für jedes Versagensmuster

Wie Sie diese Grenzen nutzen, bevor Sie sich festlegen

Was verwenden, wenn ein Agent nicht das richtige Tool ist

Häufig gestellte Fragen

KI-Agent für Lieferantenmanagement

KI-Agenten für Hausverwaltungen

KI-Agenten für Personalvermittlungen

Bereit, Agenten an die Arbeit zu schicken?