Die Installation von Hermes dauert unter einem Tag. Der Schritt, der die Leistung in den nächsten sechs Monaten bestimmt, ist nicht das Deployment — es ist die Kontextdefinition: dem Agenten beibringen, wie Ihre Aufgaben tatsächlich aussehen, wer Ausnahmen behandelt und was eine korrekte Ausgabe bedeutet. Stimmt das, beginnt Hermes ab der ersten Aufgabe zu verbessern. Stimmt es nicht, kodiert der erste Monat falsche Muster.

1

Deployment

Klonen Sie das Hermes-Repository, setzen Sie die Umgebungsvariablen und starten Sie den Docker-Container auf Ihrem Server.

2

Plattformen verbinden

Fügen Sie API-Token oder OAuth-Zugangsdaten für Slack, Gmail, Telegram oder andere Plattformen Ihres Teams hinzu.

3

Kontext definieren

Schreiben Sie Beispielaufgaben, erwartete Ausgabeformate und Eskalationspfade für jeden Workflow, den Hermes übernehmen soll.

4

Mit echten Aufgaben testen

Führen Sie 20–50 Live-Aufgaben im reinen Überprüfungsmodus aus und bestätigen Sie, dass die Ausgaben der Kontextdefinition entsprechen, bevor Sie Aktionen aktivieren.

5

Live gehen

Aktivieren Sie die Aktionsberechtigungen und legen Sie einen wöchentlichen Überprüfungsrhythmus für den ersten Monat fest, um die Skill-Qualität zu verfolgen.

Wie stellen Sie die Hermes-Instanz bereit?

Hermes läuft über Docker und kann auf jedem Standard-VPS bereitgestellt werden. Eine Instanz mit 2 vCPUs und 4 GB RAM reicht für Teams aus, die bis zu einige Hundert Aufgaben täglich verarbeiten. Drei Dinge sind vor dem Start des Containers erforderlich: Docker und Docker Compose auf dem Server installiert, API-Zugang zum Sprachmodell, das Hermes verwenden wird (kompatibel mit OpenAI- und Anthropic-Modell-APIs), und das Hermes-Repository von Nous Research geklont.[¹]

Die Kernkonfiguration liegt in einer .env-Datei: Modell-API-Schlüssel, Server-Port und das agentskills.io-Verbindungstoken für die Skill-Speicherung. Das Ausführen von docker compose up startet die Instanz. Beim ersten Start wird die Modellverbindung initialisiert und das Deployment bei agentskills.io registriert.

Hermes wird unter der MIT-Lizenz veröffentlicht und läuft vollständig auf der eigenen Infrastruktur. Keine Aufgabendaten verlassen den Server — die gesamte Verarbeitung erfolgt lokal über die konfigurierte Modell-API. Nous Research beschreibt das Deployment-Modell als "einen intelligenten persönlichen Assistenten, der mit zunehmender Betriebszeit leistungsfähiger wird" — er arbeitet auf Ihren Servern, ohne dass Daten an einen Drittanbieter gesendet werden.[¹]

Zwei Dinge vor dem Start des Containers zu prüfen spart am meisten Zeit: Sicherstellen, dass der API-Schlüssel die richtigen Berechtigungen für den Modellanbieter hat (Anthropic erfordert eine separate API-Schlüssel-Erstellung aus der Konsole; bei OpenAI muss die Abrechnung im Account aktiviert sein), und bestätigen, dass die Server-Firewall eingehenden Webhook-Traffic auf dem konfigurierten Port zulässt.

Die häufigsten Probleme in dieser Phase: ungültiges API-Schlüsselformat, Port-Konflikte mit bestehenden Diensten und Firewall-Regeln, die die Webhooks blockieren, die Hermes benötigt, um eingehende Plattformnachrichten zu empfangen. Die meisten lassen sich innerhalb der ersten Stunde des Setups beheben.

Wie verbinden Sie Ihre Plattformen?

Ein einziges Hermes-Deployment verarbeitet alle verbundenen Plattformen gleichzeitig — keine separate Agenteninstanz pro Kanal. Jede Plattform erfordert ein Token oder OAuth-Zugangsdaten. Die Hermes-Admin-Oberfläche führt Schritt für Schritt durch jeden Verbindungsprozess:

  • Slack: Erstellen Sie eine Slack-App, fügen Sie Bot-Berechtigungen hinzu (channels:read, chat:write, messages:read), installieren Sie sie im Workspace und fügen Sie das Bot User OAuth Token zur Hermes-Konfiguration hinzu
  • Gmail: Erstellen Sie ein Google Cloud-Projekt, aktivieren Sie die Gmail API, generieren Sie OAuth2-Zugangsdaten und schließen Sie den Zustimmungsflow ab
  • Telegram: Erstellen Sie einen Bot über @BotFather und fügen Sie das Bot-Token hinzu
  • Microsoft Teams, Discord, WhatsApp: Folgen Sie den entsprechenden OAuth- oder Token-Flows, die im Hermes-Plattformhandbuch dokumentiert sind

Jede neue Plattform benötigt 15–30 Minuten zur Verbindung. Nach der Verbindung bestätigt die Hermes-Admin-Oberfläche den Status und zeigt eingehende Nachrichtenaktivität für jeden Kanal an.

PlattformVerbindungstypSetup-ZeitHauptanwendungsfall
SlackBot-OAuth-Token15–20 Min.Internes Task-Routing, Team-Kommunikation, Freigabe-Warteschlangen
GmailOAuth2-Zugangsdaten20–30 Min.E-Mail-basierte Workflows, Kundenkommunikations-Sequenzen
TelegramBot-Token über @BotFather10–15 Min.Hochvolumiges Messaging, Kandidaten-Follow-Up
Microsoft TeamsOAuth20–30 Min.Enterprise-Team-Kommunikation, interne Benachrichtigungen
DiscordBot-Token10–15 Min.Community-Management, Support-Ticket-Routing
WhatsAppBusiness API30–60 Min.Kundennachrichten (Meta Business-Verifizierung erforderlich)
SignalSignal CLI oder Gateway45–90 Min.Sichere Kommunikation; erfordert zusätzliches Server-Setup

Die meisten Dienstleistungsunternehmen nutzen zwei bis drei Plattformen. Weitere Plattformen zu verbinden erzeugt keine weiteren Agenten — Hermes verarbeitet alle verbundenen Plattformen aus einem einzigen Deployment.

Die meisten Hermes-Setups scheitern nicht am Deployment — sondern an der Kontextdefinition.
Hub-Diagramm mit Hermes im Zentrum, verbunden durch gestrichelte Linien mit Slack, Gmail, Telegram
Ein Hermes-Deployment verarbeitet jede verbundene Plattform. Keine separate Instanz pro Kanal.

Was umfasst die Kontextdefinition?

Die Kontextdefinition ist der Bereich, in dem die meisten Hermes-Setups unterdurchschnittlich abschneiden. Hermes beginnt ab der ersten abgeschlossenen Aufgabe, Skill-Objekte zu erstellen — strukturierte Datensätze darüber, wie jede Aufgabenkategorie zu behandeln ist. Die in den ersten Monaten aufgebauten Skills spiegeln die empfangenen Eingaben und die produzierten Ausgaben wider. Eine schlechte Kontextdefinition in Woche eins überträgt sich auf jeden Skill, der aus diesen Aufgaben erstellt wird.

Das Gegenteil gilt ebenfalls. Ein Team, das einen zusätzlichen Tag in die Kontextdefinition investiert — echte Beispiele aus den letzten 30 Tagen sammelt, kommentiert, was jede Ausgabe korrekt macht, und einen spezifischen Eskalations-Verantwortlichen benennt — wird in den ersten zwei Wochen deutlich niedrigere Korrekturquoten sehen. Die Kontextdefinitionsarbeit ist kein Konfigurations-Overhead. Sie ist die Qualitätsinvestition, die bestimmt, ob Hermes in Monat drei Ihre spezifischen Workflows zuverlässig verarbeitet.

Hermes beginnt ab der ersten abgeschlossenen Aufgabe, Skills zu kodieren. Wenn die ersten 50 Aufgaben schlecht formuliert sind oder ständig korrigiert werden, werden diese Korrekturen zum kodierten Ansatz. Die Qualität der Skills in Monat drei spiegelt die Qualität der Kontextdefinition in Woche eins wider.

Die Kontextdefinition erfordert vier Eingaben für jeden Workflow, den Hermes übernehmen soll:

  1. Beispieleingaben: 5–10 echte Beispiele von Aufgaben, die der Workflow empfangen wird (tatsächliche E-Mails, Nachrichten oder Anfragen, keine erfundenen)
  2. Erwartetes Ausgabeformat: wie eine korrekte Ausgabe aussieht, mit kommentierten Beispielen, die zeigen, was jede Ausgabe richtig macht
  3. Ausnahmen-Zuständiger: Name und Kontaktdaten der Person, an die Hermes eskaliert, wenn unsicher
  4. Aufgabenkategoriebezeichnung: wie Hermes diesen Aufgabentyp in seiner Skill-Bibliothek benennen und gruppieren soll

Dieser Schritt dauert in der Regel 1–3 Arbeitstage pro Workflow — nicht weil er technisch komplex ist, sondern weil das Festlegen von "korrekt" den Input der Mitarbeiter erfordert, die die Aufgaben heute erledigen.

Kontext-ElementWas einzubeziehen istHäufiger Fehler
Beispieleingaben5–10 echte Aufgaben aus den letzten 30 TagenErfundene Beispiele, die nicht die echte Eingabevariation widerspiegeln
Erwartetes AusgabeformatKommentierte Beispiele, die zeigen was jede Ausgabe korrekt machtFormat in Prosa beschreiben ohne tatsächliche Beispiele zu zeigen
Ausnahmen-ZuständigerEine namentlich benannte Person und Kontaktmethode„Das Team" oder „wer verfügbar ist" — Eskalation braucht einen konkreten Namen
AufgabenkategoriebezeichnungEindeutiger beschreibender Name für diesen WorkflowGenerische Labels wie „E-Mail" die keine Aufgabentypen unterscheiden

Die Beispieleingaben sind das Element mit der höchsten Hebelwirkung. Echte Beispiele erfassen die Variation, wie Aufgaben tatsächlich eintreffen — verschiedene E-Mail-Formate, unvollständige Informationen, weitergeleitete Nachrichten. Erfundene Beispiele erzeugen Skills, die bei dem erfundenen Format funktionieren und bei dem echten scheitern.

Kontextdefinitionskarte mit vier Feldern: Beispieleingaben (5–10 echte Aufgaben), Erwartetes
Die Kontextdefinition gibt Hermes die Informationen, die es braucht, um von Anfang an präzise Skills aufzubauen.

Wie testen Sie Hermes vor dem Live-Gang?

Bevor Sie Aktionsberechtigungen aktivieren, führen Sie eine Testphase von 20–50 echten Aufgaben im reinen Überprüfungsmodus durch. Hermes verarbeitet eingehende Aufgaben und produziert Ausgaben, ergreift aber keine Aktion in verbundenen Systemen — keine E-Mails werden versendet, keine Datensätze erstellt — bis eine Person jede Ausgabe genehmigt.

Überprüfen Sie jede Ausgabe anhand der Kontextdefinition. Eine korrekte Ausgabe entspricht dem erwarteten Format und verwendet die Informationen aus der Eingabe präzise. Markieren Sie Ausgaben, die nicht stimmen, und fügen Sie die korrekte Version als Beispielpaar zur Kontextdefinition hinzu. Nach 20 aufeinanderfolgenden korrekten Ausgaben für einen Workflow ist dieser Workflow bereit für den Live-Betrieb.

Die Testphase im reinen Überprüfungsmodus ist nicht nur ein Qualitätsgate — sie ist der schnellste Weg, die Kontextdefinition zu vervollständigen. Ausgaben, die beim Testen nicht stimmen, zeigen Lücken in den Beispielen oder Mehrdeutigkeiten im Ausgabeformat, die beim Schreiben des Kontexts nicht sichtbar waren. Jede im Testen vorgenommene Korrektur aktualisiert die Kontextdefinition und verbessert die Skill-Qualität für jede nachfolgende echte Aufgabe. Ein Testfenster von 20–30 Aufgaben ist das Minimum. Das Signal für abgeschlossenes Testen ist nicht der Zeitablauf — es sind 20 aufeinanderfolgende Ausgaben, die keine Korrektur erforderten.

Beim Live-Gang aktivieren Sie die Aktionsberechtigungen pro Plattform. Legen Sie für den ersten Monat einen wöchentlichen Überprüfungsrhythmus fest: Überprüfen Sie eine Auswahl aktueller Ausgaben, notieren Sie wiederkehrende Fehlermuster und aktualisieren Sie Kontextdefinitionen wo nötig. Die Skill-Akkumulation beschleunigt sich in den Wochen 2–4, wenn Hermes mehr Aufgabenvarianten verarbeitet — am Ende von Monat eins werden gängige Aufgabentypen in der Regel korrekt verarbeitet. Der erste Monat Überprüfungsrhythmus ist keine Option. Jede korrigierte Ausgabe verbessert den zugehörigen Skill. Das wöchentliche Investment beträgt 20–30 Minuten; der Kumulationsnutzen läuft für die gesamte Lebensdauer des Deployments. Für eine vollständige Erklärung, wie Skills aufgebaut werden und sich im Laufe der Zeit kompoundieren, lesen Sie wie Hermes lernt.

Drei-Phasen-Zeitstrahl: Woche 1 zeigt Deployment und erste Aufgaben; Wochen 2–4 zeigt Skill-Aufbau
Die Skill-Qualität verbessert sich am schnellsten in den ersten vier Wochen. Monat zwei ist typischerweise der stabile Zustand für gängige Aufgabentypen.

Häufige Setup-Fehler, die die Skill-Qualität beeinflussen

FehlerWarum er passiertWas er produziertWie man ihn verhindert
Erfundene BeispieleingabenEchte Beispiele erfordern das Suchen tatsächlicher NachrichtenSkills kodieren Muster, die in echten Aufgaben nicht vorkommen; hohe Korrekturquote in Woche zweiNur echte Aufgabenbeispiele verwenden; nie aus dem Gedächtnis schreiben
Generischer Ausnahmen-Zuständiger„Das Team" scheint ausreichendEskalationen haben keinen Empfänger; Aufgaben bleiben ungelöstEine Person pro Workflow benennen; spezifische Kontaktmethode einschließen
Keine Ausgabe-KommentierungDas richtige Format erscheint dem Schreiber offensichtlichHermes erstellt Skills aus nicht-kommentierten Ausgaben; falscher Ansatz kodiert2–3 Sätze pro Beispiel hinzufügen, die erklären, was es korrekt macht
Aktionen vor dem Testen aktiviertWunsch schnell live zu gehenErste echte Fehler erreichen Kunden bevor das Muster erkannt wirdImmer 20–50 Aufgaben im reinen Überprüfungsmodus laufen lassen
Ein Kontext-Block für mehrere WorkflowsScheint einfacher einzurichtenSkills verschiedener Aufgabentypen kodieren gegenseitige MusterSeparaten Kontext pro Workflow; eine Kategoriebezeichnung pro Aufgabentyp

Häufig gestellte Fragen

Auf welchem Server läuft Hermes? Hermes läuft über Docker auf jedem Standard-VPS. Eine Instanz mit 2 vCPUs und 4 GB RAM verarbeitet Hunderte von täglichen Aufgaben für ein kleines Team. Nous Research empfiehlt mindestens 2 GB RAM; 4 GB bietet Spielraum für gleichzeitige Plattformverbindungen und Skill-Verarbeitung.

Wie lange dauert das Hermes-Setup? Deployment und Plattformverbindungen dauern weniger als einen Tag. Die Kontextdefinition — der Schritt, der die Skill-Qualität bestimmt — dauert 1–3 Tage pro Workflow, je nachdem wie viele Workflows konfiguriert werden und wie schnell das Team echte Aufgabenbeispiele und Ausgabestandards bereitstellen kann.

Welche Plattformen unterstützt Hermes? Hermes verbindet sich von einem einzigen Deployment aus mit 20+ Plattformen, darunter Slack, Gmail, Telegram, Discord, WhatsApp, Microsoft Teams und Signal. Jede Plattform erfordert ein separates Token oder OAuth-Zugangsdaten. Die Hermes-Admin-Oberfläche dokumentiert die Verbindungsschritte für jede Plattform.

Was passiert, wenn Hermes bei einer Aufgabe unsicher ist? Hermes eskaliert an den in der Kontextdefinition für diesen Workflow festgelegten Ausnahmen-Zuständigen. Dieser erhält die Aufgabe und Hermes' besten Ausgabeversuch, prüft ihn und genehmigt oder korrigiert ihn. Korrekturen werden als Feedback in den Skill für diese Aufgabenkategorie eingespeist.

Wie viele Workflows kann eine Hermes-Instanz verarbeiten? Eine Hermes-Instanz verarbeitet mehrere Workflows gleichzeitig, jeder mit eigener Kontextdefinition und Skill-Bibliothek. Die meisten kleinen Dienstleistungsunternehmen betreiben zwei bis fünf Workflows aus einem einzigen Deployment. Die Leistung skaliert mit dem Aufgabenvolumen, nicht der Workflow-Anzahl — eine Instanz mit 2 vCPUs und 4 GB verarbeitet hunderte tägliche Aufgaben über mehrere Workflow-Typen hinweg ohne Einbußen.

Quellenangaben

  1. Nous Research, Hermes documentation. https://hermes-agent.nousresearch.com/docs/

Für eine vollständige Erklärung, wie Hermes Skills aufbaut und kompoundiert, lesen Sie wie Hermes lernt. Für einen Überblick darüber, was Hermes für ein Dienstleistungsunternehmen leisten kann, lesen Sie was ist Hermes.