Robots.txt

TL;DR

Robots.txt ist ein Ausschlussprotokoll für Web-Crawler, um bestimmte Seiten, Ordner oder Dateien auf einer Website zu ignorieren, und wird zur Verbesserung der Suchmaschinenoptimierung verwendet.

Über Robots.txt

Der Robots-Exclusion-Standard, auch Robots-Exclusion-Protokoll (kurz Robots.txt) genannt, ist eine Datei, die den Suchmaschinen-Spidern mitteilt, welche Webseiten oder Abschnitte einer Website nicht gecrawlt werden sollen. Es ist wichtig, dass die robots.txt korrekt eingerichtet wird, da ein einziger Fehler dazu führen kann, dass eine gesamte Website von den Suchmaschinen deindexiert wird.

Warum ist Robots.txt wichtig?

Robots.txt ist ein wichtiger Bestandteil der Suchmaschinenoptimierung, da alle großen Suchmaschinen diesen Ausschlussstandard anerkennen und befolgen.
Die meisten Websites benötigen dieses Protokoll nicht, da Google nur die wichtigen Seiten einer Website indexiert und den Rest auslässt (z. B. doppelte Seiten), aber es gibt einige Fälle, in denen es empfohlen wird, robots.txt zu verwenden. Der Standard für den Ausschluss von Robots kann verwendet werden, um die Indizierung von Multimedia-Ressourcen (z. B. Bilder) zu verhindern, Seiten zu blockieren, die nicht öffentlich sind (z. B. Login-Seiten für Mitglieder), und um das Crawl-Budget zu maximieren.

Beispiele für Robot.txt-Dateien

Das grundlegende Format für die robots.txt-Datei ist:
Benutzer-Agent: ______
Nicht zulassen: ______
Wobei der User-Agent der Name des angesprochenen Roboters ist und der Teil, der nach "disallow" kommt, den Namen der Webseite, des Ordners oder der Datei enthält, die der Roboter beim Besuch einer Website ignorieren muss. Ein Sternchen (*) kann anstelle des Namens eines bestimmten Roboters verwendet werden, wenn man alle Robots ansprechen möchte, die die Website besuchen könnten.
In diesem Beispiel werden die Crawler darüber informiert, dass sie die genannten Verzeichnisse nicht betreten sollen:
User-Agent: *
Disallow: /tmp/
Disallow: /junk/
Während in diesem Beispiel die Crawler darüber informiert werden, eine bestimmte Datei zu meiden:
Benutzer-Agent: *
Disallow: /verzeichnisse/datei.html

up-arrow.svg