Glossar

robots.txt

Die robots.txt ist eine einfache Textdatei im Wurzelverzeichnis einer Domain (z. B. https://example.de/robots.txt), die Crawlern mitteilt, welche Bereiche einer Website sie abrufen dürfen und welche nicht. Sie steuert über User-Agent- und Disallow-Regeln den Zugriff von Suchmaschinen-Bots wie Googlebot und KI-Crawlern wie GPTBot oder ClaudeBot, ist aber eine Bitte an gutwillige Bots und keine technische Sperre.

Was ist die robots.txt genau?

Die robots.txt ist eine Textdatei, die im Wurzelverzeichnis einer Domain liegen muss, also direkt unter der Adresse /robots.txt. Sie folgt dem Robots Exclusion Protocol, das seit 2022 als offizieller Standard (RFC 9309) festgeschrieben ist. Bevor ein gutwilliger Crawler eine Website durchsucht, ruft er zuerst diese Datei ab und richtet sich nach den darin formulierten Regeln.

Eine robots.txt besteht aus Regelblöcken. Jeder Block beginnt mit einer User-Agent-Zeile, die einen bestimmten Bot anspricht, gefolgt von Disallow- und Allow-Anweisungen, die Pfade sperren oder freigeben. So kannst du jedem Crawler einzeln vorgeben, welche Verzeichnisse er meiden soll und welche er abrufen darf.

User-agent: bestimmt, für welchen Bot der Regelblock gilt (* steht für alle).
Disallow: sperrt einen Pfad für den angesprochenen Bot.
Allow: gibt einen Pfad innerhalb eines gesperrten Bereichs wieder frei.
Sitemap: verweist auf die XML-Sitemap und hilft Crawlern, alle wichtigen URLs zu finden.

Warum die robots.txt für Ranking und KI-Zitate wichtig ist

Für klassisches SEO entscheidet die robots.txt darüber, ob der Googlebot deine Inhalte überhaupt abrufen darf. Sperrst du wichtige Bereiche versehentlich, kann Google sie nicht crawlen und schlechter oder gar nicht ranken. Umgekehrt hilft die richtige Steuerung, das Crawl-Budget auf relevante Seiten zu lenken und unwichtige Bereiche wie interne Suchergebnisse oder Filter-URLs auszuklammern.

Für GEO (Generative Engine Optimization) ist die robots.txt der zentrale Hebel, um KI-Crawler zu steuern. KI-Systeme wie ChatGPT, Perplexity, Google AI Overviews und Claude nutzen eigene Bots, die sich mit eigenem User-Agent identifizieren. Sperrst du diese pauschal, kann die jeweilige KI deine Seite nicht abrufen und folglich nicht als Quelle zitieren. Wer in KI-Antworten erscheinen will, muss den richtigen Crawlern Zugang gewähren.

GPTBot (OpenAI) sammelt Trainingsdaten; OAI-SearchBot indexiert für die ChatGPT-Suche.
ClaudeBot und Claude-SearchBot (Anthropic) rufen Inhalte für Training und KI-Suche ab.
PerplexityBot indexiert Inhalte für KI-Antworten in Perplexity.
Du kannst Trainings- und Such-Crawler getrennt behandeln, weil sie unterschiedliche User-Agents haben.

Wichtig: robots.txt steuert Crawling, nicht Indexierung

Ein häufiges Missverständnis: Eine Disallow-Regel verhindert nicht zuverlässig, dass eine Seite im Google-Index auftaucht. Sie verhindert nur, dass der Bot den Seiteninhalt abruft. Ist eine gesperrte URL stark verlinkt, kann Google sie trotzdem ohne Inhaltsbeschreibung in den Suchergebnissen listen.

Willst du eine Seite sicher aus dem Index halten, gehört dazu ein Meta-Robots-Tag mit 'noindex' im HTML der Seite oder ein entsprechender HTTP-Header. Damit Google das 'noindex' aber überhaupt sieht, darf die Seite nicht zusätzlich per robots.txt gesperrt sein. Crawling-Steuerung (robots.txt) und Index-Steuerung (noindex) sind also zwei getrennte Werkzeuge, die du nicht verwechseln solltest.

Die robots.txt im SEO- und GEO-Audit

In einem SEO/GEO-Audit ist die robots.txt einer der ersten Prüfpunkte, weil sie an der Wurzel der Crawlbarkeit steht. Geprüft wird, ob die Datei erreichbar ist und mit Statuscode 200 ausgeliefert wird, ob keine wichtigen Verzeichnisse versehentlich gesperrt sind und ob die Sitemap korrekt referenziert ist. Auf der GEO-Ebene wird zusätzlich geprüft, wie die Datei mit KI-Crawlern umgeht.

Typische Befunde sind eine 'Disallow: /', die aus einer Test- oder Staging-Phase stehengeblieben ist und die gesamte Website blockiert, oder eine Konfiguration, die GPTBot und ClaudeBot pauschal aussperrt, obwohl die Seite in KI-Antworten erscheinen soll. Auf deingeoaudit.de kannst du kostenlos prüfen, ob deine Seite bei Google rankt und von KI-Systemen zitiert werden kann — der Zustand der robots.txt fließt dabei mit ein.

Erreichbarkeit: Die robots.txt muss unter /robots.txt liegen und mit Status 200 antworten.
Keine ungewollten Total-Sperren: 'Disallow: /' blockiert die komplette Domain.
KI-Crawler bewusst behandeln: pro Anbieter entscheiden, ob Training und KI-Suche erlaubt sind.
Sitemap-Verweis vorhanden: erleichtert Suchmaschinen und Bots das Finden aller URLs.

Praktische Tipps und Beispiele

Halte die robots.txt so einfach wie möglich und sperre nur das, was wirklich nicht gecrawlt werden soll. Im Zweifel ist eine offene robots.txt sicherer als eine zu restriktive, weil eine versehentliche Total-Sperre erheblichen Schaden anrichten kann. Prüfe in deinen Server-Logs, welche Bots dich tatsächlich besuchen, und entscheide pro Crawler bewusst.

Eine minimale, offene Datei: 'User-agent: *' gefolgt von 'Disallow:' (leer) erlaubt allen Bots alles.
Den Sitemap-Verweis als absolute URL angeben, z. B. 'Sitemap: https://example.de/sitemap.xml'.
Keine sensiblen Daten über die robots.txt 'verstecken' — die Datei ist öffentlich lesbar und listet gesperrte Pfade offen auf.
Aggressive Scraper und nutzerinitiierte Abrufe halten sich nicht immer an die robots.txt; für echte Zugriffssperren braucht es Server- oder Firewall-Regeln.
Nach jeder Änderung mit einem Tester prüfen, ob wichtige Seiten weiterhin crawlbar sind.

Häufige Fragen

Wo muss die robots.txt liegen?+

Die robots.txt muss im Wurzelverzeichnis der Domain liegen und unter der Adresse /robots.txt erreichbar sein, also zum Beispiel https://example.de/robots.txt. Crawler suchen die Datei ausschließlich an dieser Stelle; in einem Unterverzeichnis abgelegt wird sie nicht beachtet. Jede Subdomain benötigt zudem ihre eigene robots.txt.

Verhindert eine Disallow-Regel, dass eine Seite bei Google erscheint?+

Nein, nicht zuverlässig. Eine Disallow-Regel verhindert nur, dass der Bot den Inhalt der Seite abruft. Eine stark verlinkte, gesperrte URL kann trotzdem ohne Beschreibung in den Suchergebnissen auftauchen. Um eine Seite sicher aus dem Index zu halten, brauchst du ein Meta-Robots-Tag mit 'noindex' — und die Seite darf dann nicht zusätzlich per robots.txt gesperrt sein, damit Google das 'noindex' lesen kann.

Kann ich mit der robots.txt KI-Crawler wie GPTBot steuern?+

Ja. KI-Crawler identifizieren sich mit eigenen User-Agents (z. B. GPTBot von OpenAI, ClaudeBot von Anthropic, PerplexityBot von Perplexity) und lassen sich darüber einzeln erlauben oder sperren. So kannst du etwa den reinen Trainings-Crawler blockieren, die Such-Crawler für KI-Antworten aber zulassen, damit deine Inhalte weiterhin zitiert werden können. Die offiziellen Crawler dieser Anbieter beachten die robots.txt.