Ein KI-Agent, der läuft, führt seinen Prozess aus, wenn er ausgelöst wird. Ein KI-Agent, der funktioniert, produziert Ausgaben, die dem Geschäftsziel entsprechen. Die meisten Teams definieren Erfolg beim Launch als 'der Agent läuft' — und stellen nie fest, dass sich beides still voneinander entfernt hat. Ohne vor dem Go-live definierte Ausgabequalitätskriterien sehen ein funktionierender Agent und ein degradierender von außen identisch aus.
Drei Monate nach dem Go-live eines KI-Agenten überprüft ein Gründer den Workflow. Der Agent läuft noch. Eingaben werden verarbeitet. Ausgaben werden produziert. Nach jedem sichtbaren Maßstab ist das Projekt erfolgreich. Dann erwähnt jemand im Team, dass er die Ausgaben des Agenten seit sechs Wochen still korrigiert, bevor er sie versendet. Der Agent lief. Der Agent funktionierte nicht. Niemand hatte definiert, wie Funktionieren aussieht.
Laufen und Funktionieren sind nicht dasselbe
Ein laufender Agent führt seinen Prozess aus, wenn er ausgelöst wird. Ein funktionierender Agent produziert Ausgaben, die dem Geschäftsziel mit einer akzeptablen Rate entsprechen. Diese zwei Zustände sind nicht gleichwertig. Sie driften still auseinander — und ohne eine definierte Möglichkeit, sie zu unterscheiden, ist die Divergenz unsichtbar, bis sie sich wochenlang aufgebaut hat.
Ein konkretes Beispiel: Ein Agent, der eingehende Support-E-Mails kategorisiert, läuft, wenn er jede E-Mail liest und in eine Kategorie einordnet. Der Agent funktioniert, wenn er E-Mails in die richtige Kategorie mit einer akzeptablen Rate einordnet, Fälle markiert, die er nicht sicher kategorisieren kann, und die richtigen Informationen für jeden Falltyp nachgelagert weitergibt. Ein laufender Agent erfüllt den ersten Test. Ein funktionierender Agent erfüllt beide. Ein laufender Agent kann den zweiten Test monatelang nicht bestehen, bevor jemand es bemerkt.
Wie Erfolgskriterien für einen KI-Agenten aussehen
Die meisten Agent-Implementierungen definieren Erfolg als „der Agent läuft." Das ist ein Prozesskritierium. Prozesskritierien sagen Ihnen, ob der Agent ausgeführt wird — nicht ob die Ausgaben korrekt sind.
Nützliche Erfolgskriterien definieren Ausgabequalität, nicht den Prozessstatus. Ein Qualitätskriterium hat drei Komponenten. Erstens: ein messbares Ergebnis — nicht „E-Mails werden bearbeitet", sondern „90 % der eingehenden E-Mails werden beim ersten Durchgang korrekt kategorisiert." Zweitens: einen definierten Ausnahmeschwellenwert — nicht „der Agent markiert unsichere Fälle", sondern „als unsicher markierte Fälle bleiben unter 15 % des wöchentlichen Gesamtvolumens." Drittens: einen Review-Auslöser — einen Schwellenwert, bei dessen Überschreitung ein Prompt-Review eingeleitet wird, anstatt auf die nächste geplante Prüfung zu warten.
Die Kontrolle über einen Agenten zu behalten erfordert zu wissen, wie Kontrolle in der Praxis aussieht. Ohne spezifische Qualitätskriterien bedeutet „unter Kontrolle", dass der Prozess läuft — was nichts darüber aussagt, ob die Ausgaben korrekt sind.
Schwache Kriterien beschreiben Aktivität. Starke Kriterien beschreiben Genauigkeit.
Die folgende Tabelle zeigt, wie schwache und starke Kriterien für gängige Agent-Workflow-Typen aussehen.
| Workflow-Typ | Schwaches Kriterium (Aktivität) | Starkes Kriterium (Genauigkeit) | Review-Auslöser |
|---|---|---|---|
| E-Mail-Kategorisierung | E-Mails werden kategorisiert | 90 %+ korrekt kategorisiert; Markierungsrate unter 15 %/Woche | Markierungsrate über 20 % zwei Wochen in Folge |
| Entwürfe für Kundenstatus-Updates | Updates werden generiert | 85 %+ ohne wesentliche Bearbeitung genehmigt | Korrekturrate über 30 % zwei Wochen in Folge |
| Lead-Follow-up-Sequenzen | Follow-ups werden versendet | Follow-ups innerhalb des konfigurierten Zeitfensters; keine Duplikate | Jedes erkannte Duplikat; Terminverfehlung über 5 % |
| Rechnungserinnerungen | Erinnerungen werden verschickt | Korrekter Rechnungsbetrag und Kundenname in 98 %+ der Erinnerungen | Jeder sachliche Fehler bei Name, Betrag oder Kontonummer |
| Pipeline-Phasen-Updates | Phasen werden aktualisiert | Phasen-Updates entsprechen der vereinbarten Logik in 95 %+ der Datensätze | 10+ Datensätze in unerwarteter Phase bei wöchentlicher Stichprobe |
Laufen bedeutet, dass der Prozess ausgeführt wird. Funktionieren bedeutet, dass die Ausgabe stimmt.
Die drei Signale, dass ein live Agent degradiert
Drei beobachtbare Muster zeigen an, dass ein Agent läuft, aber nicht korrekt funktioniert. Jedes ist erkennbar, bevor es kostspielig wird — wenn jemand danach schaut.
Steigende Ausnahmerate. Die meisten Agenten sind so gebaut, dass sie Eingaben markieren, die sie nicht mit Zuversicht verarbeiten können. Wenn die Ausnahmerate Woche für Woche steigt, ohne dass das Eingabevolumen entsprechend zunimmt, haben die Anweisungen des Agenten vom aktuellen Workflow gedriftet. Der Agent begegnet Eingaben, für die er nicht ausgelegt wurde.
Zunehmende manuelle Korrekturen. Wenn das Team beginnt, die Ausgaben des Agenten regelmäßig zu korrigieren, bevor es sie versendet, produziert der Agent Ausgaben, die strukturell plausibel, aber inhaltlich falsch sind. Das ist Prompt-Drift, der sichtbar wird. Das Team arbeitet korrekt — indem es die Arbeit des Agenten vor dem Versand korrigiert. Der Agent nicht.
Ein Agent, der läuft, aber nicht funktioniert, kostet mehr als gar kein Agent — weil das Team den Ausgaben vertraut und aufhört, die Arbeit zu prüfen, die der Agent ersetzt hat.
Inkonsistente nachgelagerte Datensätze. Wenn Daten, die der Agent in ein verbundenes System schreibt, fehlende Felder, falsche Werte oder inkonsistente Formatierung über Datensätze desselben Typs zeigen, ist Integrations-Drift aufgetreten. Die Schreibaufrufe des Agenten gelingen — kein Fehler wird ausgelöst — aber das Feld-Mapping entspricht nicht mehr dem aktuellen Schema. Diese Inkonsistenzen sind nur durch direktes Prüfen der Datensätze sichtbar.
| Degradierungssignal | Was es anzeigt | Was zu prüfen ist | Maßnahme |
|---|---|---|---|
| Ausnahmerate steigt Woche für Woche | Agent begegnet Eingaben außerhalb seines Designs | Hat sich das Eingabevolumen geändert? Wurde ein neuer Eingabetyp eingeführt? | Ausnahme-Logs auf Muster prüfen; Brief aktualisieren, um neue Fälle abzudecken |
| Team korrigiert zunehmend Ausgaben | Prompt-Drift — Ausgaben strukturell korrekt, aber inhaltlich falsch | Aktuellen Prompt gegen aktuelle Workflow-Beschreibung des Teams vergleichen | Prompt aktualisieren, um aktuelle Prozesssprache und -logik widerzuspiegeln |
| Nachgelagerte Datensätze inkonsistent | Integrations-Drift — Feld-Mapping entspricht nicht mehr aktuellem Schema | Stichprobenweise 10 Datensätze pro verbundenem Tool prüfen; mit erwartetem Schema vergleichen | Integrations-Mapping aktualisieren; Schreibaufrufe auf korrekte Felder bestätigen |
| Team verwendet Workarounds | Agent-Ausgaben werden nicht mehr vertraut; Team arbeitet darum herum | Teammitglieder interviewen, was sie routinemäßig vor der Verwendung ändern | Vollständiger Review: Prompt, Integrationsgesundheit, Ausnahmemuster |
Wie Sie Erfolgskriterien für einen live Agenten definieren
Wenn der Agent bereits live ist und vor dem Launch keine Qualitätskriterien definiert wurden, definieren Sie sie jetzt. Die Dreischritte-Methode funktioniert für Agenten, die seit beliebiger Zeit live sind.
Schritt eins: Baseline etablieren. Rufen Sie die letzten 100 Ausgaben ab und bewerten Sie sie manuell gegen den aktuellen Standard des Unternehmens für diesen Workflow. Erfassen Sie die Genauigkeitsrate, die Ausnahmerate und die Rate der Ausgaben, die vor der Verwendung manuell korrigiert werden mussten. Diese Zahlen werden zur Baseline.
Schritt zwei: Schwellenwerte definieren. Legen Sie die Mindestgenauigkeitsrate, die maximale akzeptable Ausnahmerate und die Korrekturrate fest, die einen sofortigen Prompt-Review auslösen würde, anstatt auf die nächste geplante Prüfung zu warten.
Schritt drei: Verantwortung zuweisen. Eine benannte Person — nicht „das Team" — prüft diese Metriken nach einem festen Zeitplan. Monatlich funktioniert für stabile Workflows mit geringem Volumen. Wöchentlich funktioniert für hochvolumige oder sich schnell ändernde Workflows.
Die Kriterien bewerten den Agenten nicht rückwirkend. Die Kriterien sagen Ihnen, ob der Agent beim nächsten Check noch korrekt funktioniert — was ab diesem Zeitpunkt das Einzige ist, das zählt.
Ein praktischer Rhythmus für die Pflege der Kriterien: Überprüfen Sie sie vierteljährlich zusammen mit dem Review des Agenten selbst. Da sich das Unternehmen ändert, müssen möglicherweise die Schwellenwerte aktualisiert werden — ein Workflow, der beim Launch neu war und eine Ausnahmerate von 15 % hatte, sollte bis Monat sechs unter 5 % liegen, da der Brief verfeinert wurde. Kriterien, die sich nicht mit der Reife des Agenten ändern, werden zu leicht zu erfüllen und hören auf, als aussagekräftiges Qualitätssignal zu dienen.
Wenn ein zuvor funktionierender Agent aufhört zu funktionieren
Das Signal, dass ein zuvor stabiler Agent aufgehört hat zu funktionieren, ist nicht immer dramatisch. Die meisten Agenten degradieren schrittweise — die Korrekturrate steigt monatlich um einige Prozentpunkte, das Ausnahmevolumen wächst langsam, die Workarounds akkumulieren sich einen nach dem anderen. Kein einzelnes Ereignis markiert den Übergang von funktionierend zu nicht funktionierend.
Der Weg, diesen graduellen Drift zu erkennen, ist, die Leistung des Agenten nach einem festen Zeitplan gegen seine definierten Erfolgskriterien zu vergleichen — nicht wenn etwas schiefläuft, sondern routinemäßig. Ein Agent, der monatlich gegen seine Kriterien geprüft wird, wird seinen Drift innerhalb von 30 Tagen erkannt haben. Ein Agent, der nur geprüft wird, wenn jemand ein Problem bemerkt, wird so lange degradiert haben, wie es dauert, bis die Degradierung für ein Team sichtbar wird, das davon ausgegangen ist, er funktioniere.
Der zuverlässigste Prädiktor für langfristigen Agentenerfolg ist nicht die Qualität des initialen Builds. Es ist, ob das Team die Disziplin aufrechthält zu prüfen, ob die Ausgabequalität noch den Kriterien entspricht, die definiert wurden, als der Build als abgeschlossen galt. Für die Wartungsroutine, die diese Prüfung operativ nachhaltig macht, siehe was die Wartung eines KI-Agenten wirklich bedeutet.
Häufig gestellte Fragen
Was ist der Unterschied zwischen einem laufenden und einem funktionierenden KI-Agenten?
Ein laufender Agent führt seinen Prozess aus, wenn er ausgelöst wird. Ein funktionierender Agent produziert Ausgaben, die dem Geschäftsziel mit einer akzeptablen Rate entsprechen. Die zwei Zustände driften still durch Prompt-Drift, Integrations-Drift und Sonderfall-Anhäufung auseinander — keines davon stoppt den Agenten oder löst eine Fehlerbenachrichtigung aus.
Was sind Erfolgskriterien für einen KI-Agenten?
Erfolgskriterien für einen live Agenten definieren Ausgabequalität, nicht den Prozessstatus. Ein nützliches Kriterium benennt ein messbares Ergebnis (z. B. 90 % Kategorisierungsgenauigkeit), einen Ausnahmeschwellenwert (z. B. unter 15 % markierte Fälle pro Woche) und einen Review-Auslöser, der bei Überschreitung einen Prompt-Review einleitet.
Wie erkennt man, ob ein KI-Agent degradiert?
Drei beobachtbare Signale zeigen Degradierung an: die Ausnahmerate steigt ohne entsprechenden Anstieg des Eingabevolumens, das Team korrigiert zunehmend Ausgaben vor dem Versand, und nachgelagerte Datensätze in verbundenen Systemen zeigen inkonsistente oder fehlende Felder. Alle drei sind erkennbar, bevor sie kostspielig werden — wenn jemand sie regelmäßig prüft.
Was tun, wenn man für den live Agenten nie Erfolgskriterien definiert hat?
Rufen Sie die letzten 100 Ausgaben ab und bewerten Sie sie gegen den aktuellen Standard des Unternehmens für diesen Workflow. Erfassen Sie Genauigkeitsrate, Ausnahmerate und Korrekturrate. Diese Zahlen werden zur Baseline. Dann definieren Sie den akzeptablen Schwellenwert für jede Metrik und weisen Sie eine benannte Person zu, die diese nach einem festen Zeitplan prüft.
Was bedeutet es, wenn Erfolgskriterien erfüllt sind, das Team den Agenten aber trotzdem unbrauchbar findet? Das zeigt an, dass die Kriterien schwach sind — sie messen Prozessaktivität statt Ausgabequalität. Ein Agent, der Statusupdates pünktlich sendet, aber Updates schreibt, die das Team vor dem Versand umschreibt, erfüllt ein Prozesskriterium, während er ein Qualitätskriterium verfehlt. Wenn dieses Muster auftaucht, ersetzen Sie die Prozesskritierien durch Qualitätskriterien: Wie viele Entwürfe können ohne wesentliche Bearbeitung versendet werden? Das ist die relevante Messgröße.
Wie geht man mit einem Agenten um, der beim Kern-Workflow korrekt funktioniert, aber bei Sonderfällen versagt? Sonderfall-Fehler ohne Kern-Workflow-Fehler sind für neu gestartete Agenten und Agenten mit gradueller Bereichserweiterung normal. Die Reaktion hängt vom Sonderfall-Volumen ab: Wenn unter 10 % der Eingaben Sonderfälle sind, behandeln Sie sie manuell und dokumentieren Sie das Muster für das nächste Brief-Update; wenn über 20 %, muss der Brief aktualisiert werden, um die häufigsten Sonderfall-Typen abzudecken, bevor der manuelle Aufwand den Wert übersteigt, den der Agent bei Kernfällen schafft.
Wie kommuniziert man dem Team, dass ein Agent korrekt funktioniert? Ein kurzes Update alle vier bis sechs Wochen — „die Korrekturrate des Agenten diesen Monat betrug X %, Ausnahmerate Y %, keine wesentlichen Integrationsprobleme" — schafft gemeinsames Verständnis dafür, was der Agent tatsächlich tut. Teams, die keine Kommunikation über Agentenqualität erhalten, neigen dazu, den Ausgaben entweder zu sehr oder zu wenig zu vertrauen; beides ist nicht optimal. Eine einfache Berichtskarte normalisiert das Gespräch über Agentenqualität und erleichtert die Eskalation, wenn die Zahlen sich in die falsche Richtung bewegen.
Lässt sich Erfolgskriterien-Tracking automatisieren statt manuell? Für klar definierte Erfolgskriterien ja. Die Korrekturrate kann über Genehmigungsworkflow-Daten verfolgt werden — wie oft wird ein Entwurf ohne Bearbeitung genehmigt versus bearbeitet. Die Ausnahmerate ist typischerweise im Log des Agenten verfügbar. Integrations-Gesundheitsprüfungen für spezifische Felder können als Datenvalidierungsabfrage automatisiert werden. Die manuelle Arbeit ist das Log-Lesen und die Mustererkennung — zu identifizieren, was die Ausnahmen gemeinsam haben und ob sich die Korrekturen auf bestimmte Ausgabetypen konzentrieren. Dieser Interpretationsschritt ist nicht automatisierbar.