Robots.txt ist eine Datei auf einer Website, die Suchmaschinen-Robotern Anweisungen gibt, welche Seiten und Inhalte auf der Website gecrawlt und indexiert werden dürfen und welche nicht. Die robots.txt-Datei kann verwendet werden, um Suchmaschinen-Roboter davon abzuhalten, bestimmte Bereiche einer Website zu durchsuchen, die möglicherweise vertraulich sind oder nicht relevant sind.
Die robots.txt-Datei befindet sich normalerweise im Stammverzeichnis einer Website und enthält eine Liste von Anweisungen, die von Suchmaschinen-Robotern verstanden werden können. Diese Anweisungen werden als "Disallow"- oder "Allow"-Anweisungen bezeichnet und werden durch den Roboter interpretiert, um zu bestimmen, welche Teile einer Website durchsucht werden dürfen und welche nicht.
Wenn eine Seite oder ein Verzeichnis von Suchmaschinen-Robotern ausgeschlossen werden soll, wird die URL in der robots.txt-Datei mit der "Disallow"-Anweisung gekennzeichnet. Wenn eine Seite oder ein Verzeichnis zugänglich sein soll, wird die URL mit der "Allow"-Anweisung gekennzeichnet. Wenn keine Anweisungen in der robots.txt-Datei vorhanden sind, können Suchmaschinen-Roboter standardmäßig alle Seiten und Inhalte auf der Website durchsuchen und indexieren.
Es ist wichtig zu beachten, dass die robots.txt-Datei nur von Suchmaschinen-Robotern interpretiert wird und nicht als Zugriffssteuerungsmechanismus für Benutzer fungiert. Wenn es bestimmte Bereiche einer Website gibt, die nur für bestimmte Benutzer zugänglich sein sollen, müssen andere Zugriffssteuerungsmechanismen wie Passwortschutz oder Zugriffsbeschränkungen verwendet werden.
Beispiel für eine robots.txt-Datei
Die Struktur und der Inhalt einer robots.txt-Datei hängen von den Anforderungen und der Struktur der Website ab. Allgemein lässt sich jedoch sagen, dass eine robots.txt-Datei in der Regel wie folgt aufgebaut ist:
User-agent: [Name des Suchmaschinen-Roboters] Disallow: [Pfad der Seite oder des Verzeichnisses, das nicht gecrawlt werden soll]
Die "User-agent"-Zeile identifiziert den Suchmaschinen-Roboter, für den die nachfolgenden Anweisungen gelten sollen. Die "Disallow"-Zeile gibt den Pfad der Seite oder des Verzeichnisses an, das vom Suchmaschinen-Roboter ausgeschlossen werden soll. Wenn Sie eine Seite oder ein Verzeichnis zulassen möchten, anstatt es auszuschließen, können Sie stattdessen die "Allow"-Anweisung verwenden.
Beispielsweise kann eine robots.txt-Datei folgendermaßen aussehen:
User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-json/ Disallow: /xmlrpc.php Disallow: /trackback/ Disallow: /comments/ Disallow: /category/ Disallow: /tag/ Disallow: /author/ Disallow: /search/ Disallow: /?s=
In diesem Beispiel werden alle Suchmaschinen-Roboter durch die "User-agent: *"-Zeile angesprochen, und die "Disallow"-Anweisungen schließen bestimmte Verzeichnisse und Dateien auf der Website aus, um zu verhindern, dass sie von Suchmaschinen-Robotern indiziert werden.
Verwendung einer Sitemap.xml-Datei
Eine Sitemap ist eine Datei auf einer Website, die eine strukturierte Liste aller Seiten und Inhalte auf der Website enthält. Die Sitemap hilft Suchmaschinen-Robotern, die Seiten und Inhalte auf einer Website effizienter zu finden und zu indexieren. Eine Sitemap kann in der Regel in zwei Formaten vorliegen: als HTML-Datei oder als XML-Datei.
Weitere Infos zu "Sitemap.xml" in unseren separaten Beitrag zu diesem Thema.