TL;DR
Robots.txt ist ein Ausschlussprotokoll für Web-Crawler, um bestimmte Seiten, Ordner oder Dateien auf einer Website zu ignorieren, und wird zur Verbesserung der Suchmaschinenoptimierung verwendet.
Über Robots.txt
Der Robots-Ausschlussstandard, auch Robots-Ausschlussprotokoll (kurz Robots.txt) genannt, ist eine Datei, die Suchmaschinen-Spider wissen lässt, welche Webseiten oder Abschnitte einer Website nicht gecrawlt werden sollen. Es ist wichtig, dass die robots.txt korrekt eingerichtet wird, da ein einziger Fehler dazu führen kann, dass eine ganze Website von den Suchmaschinen deindexiert wird.
Warum ist robots.txt wichtig?
Robots.txt ist ein wichtiger Bestandteil der Suchmaschinenoptimierung, da alle großen Suchmaschinen diesen Ausschlussstandard anerkennen und befolgen.
Die meisten Websites benötigen dieses Protokoll nicht, da Google nur die wichtigen Seiten einer Website indexiert und den Rest auslässt (z. B. doppelte Seiten), aber es gibt einige Fälle, in denen die Verwendung von robots.txt empfohlen wird. Der Standard für den Ausschluss von Robots kann verwendet werden, um die Indizierung von Multimedia-Ressourcen (z. B. Bilder) zu verhindern, Seiten zu blockieren, die nicht öffentlich sind (z. B. Login-Seiten für Mitglieder), und um das Crawl-Budget zu maximieren.
Beispiele für Robot.txt-Dateien
Das grundlegende Format für die robots.txt-Datei ist:
Benutzer-Agent: ______
Nicht zulassen: ______
Dabei ist der User-Agent der Name des angesprochenen Roboters, und der Teil nach "disallow" enthält den Namen der Webseite, des Ordners oder der Datei, die der Roboter beim Besuch einer Website ignorieren muss. Ein Sternchen (*) kann anstelle des Namens eines bestimmten Roboters verwendet werden, wenn man alle Robots ansprechen möchte, die die Website besuchen könnten.
In diesem Beispiel werden die Crawler darüber informiert, dass sie die genannten Verzeichnisse nicht betreten sollen:
Benutzer-Agent: *
Disallow: /tmp/
Disallow: /junk/
Während in diesem Beispiel die Crawler informiert werden, eine bestimmte Datei zu meiden:
Benutzer-Agent: *
Disallow: /verzeichnisse/datei.html