Was ist die Kontextdefinition und warum ist sie wichtig für die Hermes-Leistung?

Die Kontextdefinition ist das Beibringen, wie Ihre Aufgaben tatsächlich aussehen, wer Ausnahmen behandelt und was eine korrekte Ausgabe bedeutet. Sie erfordert vier Eingaben pro Workflow: 5–10 echte Beispiel-Eingaben aus der tatsächlichen Aufgabenhistorie, annotierte Beispielausgaben, einen benannten Ausnahme-Handler und ein Aufgabenkategorie-Label. Schlechte Kontextdefinition in Woche eins wirkt sich auf jeden Skill aus, der aus diesen Aufgaben aufgebaut wird.

Was ist der häufigste Grund, warum Hermes-Setups nach dem Launch unterdurchschnittlich performen?

Die meisten unterdurchschnittlichen Setups lassen sich auf einen von fünf Fehlern zurückführen: erfundene Beispiel-Eingaben (echte Beispiele aus der tatsächlichen Aufgabenhistorie erzeugen deutlich bessere Skills), generische Ausnahme-Handler ohne benannte Person, keine Annotation bei Beispielausgaben, Aktivierung von Aktionen vor Abschluss der Testphase oder ein einzelner Kontextblock für mehrere verschiedene Workflow-Typen. Eine Korrektionsrate über 30% in Woche eins ist das klarste Diagnosesignal, dass die Kontextdefinition aktualisiert werden muss.

Hermes Setup-Anleitung

Q: Auf welchem Server läuft Hermes und welche Anforderungen gibt es?

Hermes läuft auf jedem Standard-VPS über Docker. Eine 2-vCPU, 4-GB-RAM-Instanz verarbeitet Hunderte täglicher Aufgaben für ein kleines Team. Drei Dinge sind vor dem Start erforderlich: Docker und Docker Compose auf dem Server installiert, API-Zugang zu einem kompatiblen Sprachmodell (OpenAI oder Anthropic) und das Hermes-Repository von Nous Research's GitHub geklont. Die meisten Setups sind innerhalb eines Tages live.

Q: Welche Plattformen unterstützt Hermes?

Hermes verbindet sich aus einem einzigen Deployment mit 20+ Plattformen, darunter Slack, Gmail, Telegram, Discord, WhatsApp, Microsoft Teams und Signal. Jede Plattform erfordert einen separaten Token oder OAuth-Zugangsdaten. Es müssen nicht alle Plattformen gleichzeitig verbunden werden — die meisten Implementierungen für Dienstleistungsunternehmen nutzen zwei bis drei Plattformen.

Die Installation von Hermes dauert unter einem Tag. Der Schritt, der die Leistung in den nächsten sechs Monaten bestimmt, ist nicht das Deployment — es ist die Kontextdefinition: dem Agenten beibringen, wie Ihre Aufgaben tatsächlich aussehen, wer Ausnahmen behandelt und was eine korrekte Ausgabe bedeutet. Stimmt das, beginnt Hermes ab der ersten Aufgabe zu verbessern. Stimmt es nicht, kodiert der erste Monat falsche Muster.

Deployment

Klonen Sie das Hermes-Repository, setzen Sie die Umgebungsvariablen und starten Sie den Docker-Container auf Ihrem Server.

Plattformen verbinden

Fügen Sie API-Token oder OAuth-Zugangsdaten für Slack, Gmail, Telegram oder andere Plattformen Ihres Teams hinzu.

Kontext definieren

Schreiben Sie Beispielaufgaben, erwartete Ausgabeformate und Eskalationspfade für jeden Workflow, den Hermes übernehmen soll.

Mit echten Aufgaben testen

Führen Sie 20–50 Live-Aufgaben im reinen Überprüfungsmodus aus und bestätigen Sie, dass die Ausgaben der Kontextdefinition entsprechen, bevor Sie Aktionen aktivieren.

Live gehen

Aktivieren Sie die Aktionsberechtigungen und legen Sie einen wöchentlichen Überprüfungsrhythmus für den ersten Monat fest, um die Skill-Qualität zu verfolgen.

Wie stellen Sie die Hermes-Instanz bereit?

Hermes läuft über Docker und kann auf jedem Standard-VPS bereitgestellt werden. Eine Instanz mit 2 vCPUs und 4 GB RAM reicht für Teams aus, die bis zu einige Hundert Aufgaben täglich verarbeiten. Drei Dinge sind vor dem Start des Containers erforderlich: Docker und Docker Compose auf dem Server installiert, API-Zugang zum Sprachmodell, das Hermes verwenden wird (kompatibel mit OpenAI- und Anthropic-Modell-APIs), und das Hermes-Repository von Nous Research geklont.[¹]

Die Kernkonfiguration liegt in einer .env-Datei: Modell-API-Schlüssel, Server-Port und das agentskills.io-Verbindungstoken für die Skill-Speicherung. Das Ausführen von docker compose up startet die Instanz. Beim ersten Start wird die Modellverbindung initialisiert und das Deployment bei agentskills.io registriert.

Hermes wird unter der MIT-Lizenz veröffentlicht und läuft vollständig auf der eigenen Infrastruktur. Keine Aufgabendaten verlassen den Server — die gesamte Verarbeitung erfolgt lokal über die konfigurierte Modell-API. Nous Research beschreibt das Deployment-Modell als "einen intelligenten persönlichen Assistenten, der mit zunehmender Betriebszeit leistungsfähiger wird" — er arbeitet auf Ihren Servern, ohne dass Daten an einen Drittanbieter gesendet werden.[¹]

Zwei Dinge vor dem Start des Containers zu prüfen spart am meisten Zeit: Sicherstellen, dass der API-Schlüssel die richtigen Berechtigungen für den Modellanbieter hat (Anthropic erfordert eine separate API-Schlüssel-Erstellung aus der Konsole; bei OpenAI muss die Abrechnung im Account aktiviert sein), und bestätigen, dass die Server-Firewall eingehenden Webhook-Traffic auf dem konfigurierten Port zulässt.

Die häufigsten Probleme in dieser Phase: ungültiges API-Schlüsselformat, Port-Konflikte mit bestehenden Diensten und Firewall-Regeln, die die Webhooks blockieren, die Hermes benötigt, um eingehende Plattformnachrichten zu empfangen. Die meisten lassen sich innerhalb der ersten Stunde des Setups beheben.

Wie verbinden Sie Ihre Plattformen?

Ein einziges Hermes-Deployment verarbeitet alle verbundenen Plattformen gleichzeitig — keine separate Agenteninstanz pro Kanal. Jede Plattform erfordert ein Token oder OAuth-Zugangsdaten. Die Hermes-Admin-Oberfläche führt Schritt für Schritt durch jeden Verbindungsprozess:

Slack: Erstellen Sie eine Slack-App, fügen Sie Bot-Berechtigungen hinzu (channels:read, chat:write, messages:read), installieren Sie sie im Workspace und fügen Sie das Bot User OAuth Token zur Hermes-Konfiguration hinzu
Gmail: Erstellen Sie ein Google Cloud-Projekt, aktivieren Sie die Gmail API, generieren Sie OAuth2-Zugangsdaten und schließen Sie den Zustimmungsflow ab
Telegram: Erstellen Sie einen Bot über @BotFather und fügen Sie das Bot-Token hinzu
Microsoft Teams, Discord, WhatsApp: Folgen Sie den entsprechenden OAuth- oder Token-Flows, die im Hermes-Plattformhandbuch dokumentiert sind

Jede neue Plattform benötigt 15–30 Minuten zur Verbindung. Nach der Verbindung bestätigt die Hermes-Admin-Oberfläche den Status und zeigt eingehende Nachrichtenaktivität für jeden Kanal an.

Plattform	Verbindungstyp	Setup-Zeit	Hauptanwendungsfall
Slack	Bot-OAuth-Token	15–20 Min.	Internes Task-Routing, Team-Kommunikation, Freigabe-Warteschlangen
Gmail	OAuth2-Zugangsdaten	20–30 Min.	E-Mail-basierte Workflows, Kundenkommunikations-Sequenzen
Telegram	Bot-Token über @BotFather	10–15 Min.	Hochvolumiges Messaging, Kandidaten-Follow-Up
Microsoft Teams	OAuth	20–30 Min.	Enterprise-Team-Kommunikation, interne Benachrichtigungen
Discord	Bot-Token	10–15 Min.	Community-Management, Support-Ticket-Routing
WhatsApp	Business API	30–60 Min.	Kundennachrichten (Meta Business-Verifizierung erforderlich)
Signal	Signal CLI oder Gateway	45–90 Min.	Sichere Kommunikation; erfordert zusätzliches Server-Setup

Die meisten Dienstleistungsunternehmen nutzen zwei bis drei Plattformen. Weitere Plattformen zu verbinden erzeugt keine weiteren Agenten — Hermes verarbeitet alle verbundenen Plattformen aus einem einzigen Deployment.

Die meisten Hermes-Setups scheitern nicht am Deployment — sondern an der Kontextdefinition.

Ein Hermes-Deployment verarbeitet jede verbundene Plattform. Keine separate Instanz pro Kanal.

Was umfasst die Kontextdefinition?

Die Kontextdefinition ist der Bereich, in dem die meisten Hermes-Setups unterdurchschnittlich abschneiden. Hermes beginnt ab der ersten abgeschlossenen Aufgabe, Skill-Objekte zu erstellen — strukturierte Datensätze darüber, wie jede Aufgabenkategorie zu behandeln ist. Die in den ersten Monaten aufgebauten Skills spiegeln die empfangenen Eingaben und die produzierten Ausgaben wider. Eine schlechte Kontextdefinition in Woche eins überträgt sich auf jeden Skill, der aus diesen Aufgaben erstellt wird.

Das Gegenteil gilt ebenfalls. Ein Team, das einen zusätzlichen Tag in die Kontextdefinition investiert — echte Beispiele aus den letzten 30 Tagen sammelt, kommentiert, was jede Ausgabe korrekt macht, und einen spezifischen Eskalations-Verantwortlichen benennt — wird in den ersten zwei Wochen deutlich niedrigere Korrekturquoten sehen. Die Kontextdefinitionsarbeit ist kein Konfigurations-Overhead. Sie ist die Qualitätsinvestition, die bestimmt, ob Hermes in Monat drei Ihre spezifischen Workflows zuverlässig verarbeitet.

Hermes beginnt ab der ersten abgeschlossenen Aufgabe, Skills zu kodieren. Wenn die ersten 50 Aufgaben schlecht formuliert sind oder ständig korrigiert werden, werden diese Korrekturen zum kodierten Ansatz. Die Qualität der Skills in Monat drei spiegelt die Qualität der Kontextdefinition in Woche eins wider.

Die Kontextdefinition erfordert vier Eingaben für jeden Workflow, den Hermes übernehmen soll:

Beispieleingaben: 5–10 echte Beispiele von Aufgaben, die der Workflow empfangen wird (tatsächliche E-Mails, Nachrichten oder Anfragen, keine erfundenen)
Erwartetes Ausgabeformat: wie eine korrekte Ausgabe aussieht, mit kommentierten Beispielen, die zeigen, was jede Ausgabe richtig macht
Ausnahmen-Zuständiger: Name und Kontaktdaten der Person, an die Hermes eskaliert, wenn unsicher
Aufgabenkategoriebezeichnung: wie Hermes diesen Aufgabentyp in seiner Skill-Bibliothek benennen und gruppieren soll

Dieser Schritt dauert in der Regel 1–3 Arbeitstage pro Workflow — nicht weil er technisch komplex ist, sondern weil das Festlegen von "korrekt" den Input der Mitarbeiter erfordert, die die Aufgaben heute erledigen.

Kontext-Element	Was einzubeziehen ist	Häufiger Fehler
Beispieleingaben	5–10 echte Aufgaben aus den letzten 30 Tagen	Erfundene Beispiele, die nicht die echte Eingabevariation widerspiegeln
Erwartetes Ausgabeformat	Kommentierte Beispiele, die zeigen was jede Ausgabe korrekt macht	Format in Prosa beschreiben ohne tatsächliche Beispiele zu zeigen
Ausnahmen-Zuständiger	Eine namentlich benannte Person und Kontaktmethode	„Das Team" oder „wer verfügbar ist" — Eskalation braucht einen konkreten Namen
Aufgabenkategoriebezeichnung	Eindeutiger beschreibender Name für diesen Workflow	Generische Labels wie „E-Mail" die keine Aufgabentypen unterscheiden

Die Beispieleingaben sind das Element mit der höchsten Hebelwirkung. Echte Beispiele erfassen die Variation, wie Aufgaben tatsächlich eintreffen — verschiedene E-Mail-Formate, unvollständige Informationen, weitergeleitete Nachrichten. Erfundene Beispiele erzeugen Skills, die bei dem erfundenen Format funktionieren und bei dem echten scheitern.

Kontextdefinitionskarte mit vier Feldern: Beispieleingaben (5–10 echte Aufgaben), Erwartetes — Die Kontextdefinition gibt Hermes die Informationen, die es braucht, um von Anfang an präzise Skills aufzubauen.

Wie testen Sie Hermes vor dem Live-Gang?

Bevor Sie Aktionsberechtigungen aktivieren, führen Sie eine Testphase von 20–50 echten Aufgaben im reinen Überprüfungsmodus durch. Hermes verarbeitet eingehende Aufgaben und produziert Ausgaben, ergreift aber keine Aktion in verbundenen Systemen — keine E-Mails werden versendet, keine Datensätze erstellt — bis eine Person jede Ausgabe genehmigt.

Überprüfen Sie jede Ausgabe anhand der Kontextdefinition. Eine korrekte Ausgabe entspricht dem erwarteten Format und verwendet die Informationen aus der Eingabe präzise. Markieren Sie Ausgaben, die nicht stimmen, und fügen Sie die korrekte Version als Beispielpaar zur Kontextdefinition hinzu. Nach 20 aufeinanderfolgenden korrekten Ausgaben für einen Workflow ist dieser Workflow bereit für den Live-Betrieb.

Die Testphase im reinen Überprüfungsmodus ist nicht nur ein Qualitätsgate — sie ist der schnellste Weg, die Kontextdefinition zu vervollständigen. Ausgaben, die beim Testen nicht stimmen, zeigen Lücken in den Beispielen oder Mehrdeutigkeiten im Ausgabeformat, die beim Schreiben des Kontexts nicht sichtbar waren. Jede im Testen vorgenommene Korrektur aktualisiert die Kontextdefinition und verbessert die Skill-Qualität für jede nachfolgende echte Aufgabe. Ein Testfenster von 20–30 Aufgaben ist das Minimum. Das Signal für abgeschlossenes Testen ist nicht der Zeitablauf — es sind 20 aufeinanderfolgende Ausgaben, die keine Korrektur erforderten.

Beim Live-Gang aktivieren Sie die Aktionsberechtigungen pro Plattform. Legen Sie für den ersten Monat einen wöchentlichen Überprüfungsrhythmus fest: Überprüfen Sie eine Auswahl aktueller Ausgaben, notieren Sie wiederkehrende Fehlermuster und aktualisieren Sie Kontextdefinitionen wo nötig. Die Skill-Akkumulation beschleunigt sich in den Wochen 2–4, wenn Hermes mehr Aufgabenvarianten verarbeitet — am Ende von Monat eins werden gängige Aufgabentypen in der Regel korrekt verarbeitet. Der erste Monat Überprüfungsrhythmus ist keine Option. Jede korrigierte Ausgabe verbessert den zugehörigen Skill. Das wöchentliche Investment beträgt 20–30 Minuten; der Kumulationsnutzen läuft für die gesamte Lebensdauer des Deployments. Für eine vollständige Erklärung, wie Skills aufgebaut werden und sich im Laufe der Zeit kompoundieren, lesen Sie wie Hermes lernt.

Drei-Phasen-Zeitstrahl: Woche 1 zeigt Deployment und erste Aufgaben; Wochen 2–4 zeigt Skill-Aufbau — Die Skill-Qualität verbessert sich am schnellsten in den ersten vier Wochen. Monat zwei ist typischerweise der stabile Zustand für gängige Aufgabentypen.

Häufige Setup-Fehler, die die Skill-Qualität beeinflussen

Fehler	Warum er passiert	Was er produziert	Wie man ihn verhindert
Erfundene Beispieleingaben	Echte Beispiele erfordern das Suchen tatsächlicher Nachrichten	Skills kodieren Muster, die in echten Aufgaben nicht vorkommen; hohe Korrekturquote in Woche zwei	Nur echte Aufgabenbeispiele verwenden; nie aus dem Gedächtnis schreiben
Generischer Ausnahmen-Zuständiger	„Das Team" scheint ausreichend	Eskalationen haben keinen Empfänger; Aufgaben bleiben ungelöst	Eine Person pro Workflow benennen; spezifische Kontaktmethode einschließen
Keine Ausgabe-Kommentierung	Das richtige Format erscheint dem Schreiber offensichtlich	Hermes erstellt Skills aus nicht-kommentierten Ausgaben; falscher Ansatz kodiert	2–3 Sätze pro Beispiel hinzufügen, die erklären, was es korrekt macht
Aktionen vor dem Testen aktiviert	Wunsch schnell live zu gehen	Erste echte Fehler erreichen Kunden bevor das Muster erkannt wird	Immer 20–50 Aufgaben im reinen Überprüfungsmodus laufen lassen
Ein Kontext-Block für mehrere Workflows	Scheint einfacher einzurichten	Skills verschiedener Aufgabentypen kodieren gegenseitige Muster	Separaten Kontext pro Workflow; eine Kategoriebezeichnung pro Aufgabentyp

Häufig gestellte Fragen

Auf welchem Server läuft Hermes? Hermes läuft über Docker auf jedem Standard-VPS. Eine Instanz mit 2 vCPUs und 4 GB RAM verarbeitet Hunderte von täglichen Aufgaben für ein kleines Team. Nous Research empfiehlt mindestens 2 GB RAM; 4 GB bietet Spielraum für gleichzeitige Plattformverbindungen und Skill-Verarbeitung.

Wie lange dauert das Hermes-Setup? Deployment und Plattformverbindungen dauern weniger als einen Tag. Die Kontextdefinition — der Schritt, der die Skill-Qualität bestimmt — dauert 1–3 Tage pro Workflow, je nachdem wie viele Workflows konfiguriert werden und wie schnell das Team echte Aufgabenbeispiele und Ausgabestandards bereitstellen kann.

Welche Plattformen unterstützt Hermes? Hermes verbindet sich von einem einzigen Deployment aus mit 20+ Plattformen, darunter Slack, Gmail, Telegram, Discord, WhatsApp, Microsoft Teams und Signal. Jede Plattform erfordert ein separates Token oder OAuth-Zugangsdaten. Die Hermes-Admin-Oberfläche dokumentiert die Verbindungsschritte für jede Plattform.

Was passiert, wenn Hermes bei einer Aufgabe unsicher ist? Hermes eskaliert an den in der Kontextdefinition für diesen Workflow festgelegten Ausnahmen-Zuständigen. Dieser erhält die Aufgabe und Hermes' besten Ausgabeversuch, prüft ihn und genehmigt oder korrigiert ihn. Korrekturen werden als Feedback in den Skill für diese Aufgabenkategorie eingespeist.

Wie viele Workflows kann eine Hermes-Instanz verarbeiten? Eine Hermes-Instanz verarbeitet mehrere Workflows gleichzeitig, jeder mit eigener Kontextdefinition und Skill-Bibliothek. Die meisten kleinen Dienstleistungsunternehmen betreiben zwei bis fünf Workflows aus einem einzigen Deployment. Die Leistung skaliert mit dem Aufgabenvolumen, nicht der Workflow-Anzahl — eine Instanz mit 2 vCPUs und 4 GB verarbeitet hunderte tägliche Aufgaben über mehrere Workflow-Typen hinweg ohne Einbußen.

Quellenangaben

Nous Research, Hermes documentation. https://hermes-agent.nousresearch.com/docs/

Für eine vollständige Erklärung, wie Hermes Skills aufbaut und kompoundiert, lesen Sie wie Hermes lernt. Für einen Überblick darüber, was Hermes für ein Dienstleistungsunternehmen leisten kann, lesen Sie was ist Hermes.

Hermes Setup-Anleitung

Wie stellen Sie die Hermes-Instanz bereit?

Wie verbinden Sie Ihre Plattformen?

Was umfasst die Kontextdefinition?

Wie testen Sie Hermes vor dem Live-Gang?

Häufige Setup-Fehler, die die Skill-Qualität beeinflussen

Häufig gestellte Fragen

Quellenangaben

KI-Agent für Lieferantenmanagement

KI-Agenten für Hausverwaltungen

KI-Agenten für Personalvermittlungen

Bereit, Agenten an die Arbeit zu schicken?