robots.txt
Die robots.txt ist eine einfache Textdatei, die sich im Wurzelverzeichnis einer Website befindet und sogenannten Webcrawlern oder Bots Anweisungen gibt, welche Seiten oder Bereiche sie durchsuchen dürfen – und welche nicht. Sie ist ein zentrales Werkzeug im technischen SEO und dient der Steuerung der Indexierung durch Suchmaschinen wie Google, Bing oder DuckDuckGo.
Die Datei basiert auf dem sogenannten Robots Exclusion Protocol und ist öffentlich zugänglich (z. B. unter www.beispielseite.de/robots.txt).
Beispiel
Ein Unternehmen betreibt eine Website mit einem internen Bereich für Mitarbeitende, der nicht in Suchmaschinen erscheinen soll. Die Webentwicklerin ergänzt in der robots.txt-Datei folgenden Eintrag:
User-agent: *
Disallow: /intern/
Damit teilt sie allen Crawlern mit, dass der Ordner /intern/ nicht indexiert oder durchsucht werden soll.
Typische Funktionen der robots.txt
- Zugriffsbeschränkungen für bestimmte Verzeichnisse oder Dateien
- Crawler gezielt zulassen oder ausschließen
- Pfadangaben für Sitemap-Dateien einbinden
- Entwicklungs- oder Testseiten vor Indexierung schützen
Wichtig: Die robots.txt ist eine Empfehlung, kein Zwang. Sie verhindert nicht das Aufrufen der Inhalte, sondern nur deren Indexierung und nur, wenn sich der Crawler daran hält.
Kurz gesagt: Die robots.txt ist der digitale Türsteher einer Website. Sie sagt Suchmaschinen, was sie sehen dürfen und was besser verborgen bleibt.