Robots.txt
Aus WISSEN-digital.de
Die robots.txt ist eine Textdatei, die vom Webmaster eingesetzt wird, um allen und ggf. auch explizit ausgewählten Spidern mitzuteilen, ob und in welchem Rahmen sie die jeweilige Domain crawlen dürfen. Hierfür wird die Datei direkt im Stammverzeichnis der Domain abgelegt. Die Kleinschreibung ist zwingend zu beachten.
Spider werden in erster Linie von Suchmaschinen eingesetzt, um das Web zu durchsuchen und einerseits neue Seiten aufzuspüren und andererseits zu prüfen, ob sich Inhalte auf bereits bekannten Seiten geändert haben. Zu diesem Zweck werden vor allem Startseiten besucht, um anschließend den darauf befindlichen Links zu folgen. Das konsequente Verfolgen neu ermittelter Links soll gewährleisten, dass alle Seiten erfasst werden.
Es kommt jedoch vor, dass Webmaster einzelne Unterseiten oder sogar vollständige Domains ausschließen möchte, damit diese in den Suchergebnissen nicht erscheinen. In der robots.txt können die Spider genau nachlesen, ob der Webmaster solche Einschränkungen gemacht hat. Hierbei kann sich der Webmaster äußerst präzise ausdrücken und beispielsweise lediglich ausgewählte Verzeichnisse oder gar einzelne Dateien sperren.
Beim Erstellen einer robots.txt Datei gilt es unbedingt, die Syntax zu beachten, die im Robots-Exclusion-Standard Protokoll definiert ist. Die wichtigsten Befehle (Auszug) lauten:
Beispiel für eine robots.txt
User-agent: Beispiel-Robot Disallow: /
User-agent: * Disallow: /temp/ Disallow: /nachrichten.html
| User-agent: | Gibt an, für welche Spider eine oder mehrere Anweisungen gelten |
| Disallow: | Domain, Verzeichnisse oder Dateien werden gezielt ausgeschlossen |
| Allow: | Ausgewählten Spidern wird das Crawlen bestimmter Verzeichnisse oder Dateien gestattet |
Aus Sicht des Suchmaschinenoptimierers ist es wichtig, dass relevante Seiten nicht ausgeschlossen sind – ansonsten werden sie in den Suchergebnisseiten nicht erscheinen. Andererseits ist nicht garantiert, dass sich die Spider an die Regeln des Webmasters halten. Letztlich gibt die Datei lediglich ein Regelwerk vor. Ein technischer Ausschluss der Spider ist hingegen nicht möglich.
Kalenderblatt - 17. März
| 1810 | Uraufführung des Schauspiels "Das Käthchen von Heilbronn" von Heinrich von Kleist. |
| 1939 | Der englische Premierminister Chamberlain verkündet nach dem Einmarsch Hitlers in die "Resttschechei" das Ende der Appeasement-Politik. |
| 1948 | In Brüssel unterzeichnen die Außenminister Belgiens, Frankreichs, Luxemburgs, der Niederlande und Großbritanniens einen Verteidigungspakt. |
Magazin
- Angriff auf den Iran: Was seit dem 28. Februar passiert ist – militärische Eskalation, Gegenangriffe und Folgen für die Welt
- Wenn die Wege weiter werden: Familienleben im demografischen Wandel
- Passwörter im appgestützten Alltag: Warum viele Nutzer ein Sicherheitsproblem haben
- Ganzheitliche Gesundheit: Essen und mentale Balance
- Zwischen Gesetzestext und Navigations-App: Wie komplex unser Alltag geworden ist
![[Hauptseite]](/extensions/SkinDarwin/wissen-digital/header.png)