Robot Einstellungen sind wichtig

Anweisungen für die Suchmaschinen mit robots.txt

 

Mit einer Datei namens robots.txt ist es möglich, dass an die Suchmaschinen Anweisungen übermittelt werden, die es gestatten oder auch verbieten Webverzeichnisse auszulesen und dies gilt für das ganze Webprojekt. Es könnte als Alternative auch so sein, dass die HTML-Datei die Hinweise in den Metatags liefert, dies würde dann allerdings nur für diese eine Datei gelten und darüber hinaus Gültigkeitsverweise vorweisen. Die Datei robots.txt wird aber im Wurzelbereich abgelegt. Die Erstellung und die Bearbeitung können mit jedem beliebigen Editor geschehen, da es sich um eine reine Textdatei handelt. In Datensätzen werden die einzelnen Anweisungen für Web-Crawler definiert. In dem ersten Datensatz werden daher die Angaben gemacht, für welche Suchmaschine diese Anweisung gilt. Mit den User-Agenten werden die Crawler dann angesprochen. Für den zweiten Teil ist vorgesehen, dass ein Verbot für den Crawler ausgesprochen wird. Dieses geschieht mit Disallow und greift auf die Verzeichnisse und auch alle Unterverzeichnisse, die angegeben wurden.

 

Genaue Schreibweise beachten

Gilt das Verbot für mehr Suchmaschinen, müssen diese der Reihe nach aufgeführt werden. So könnte die robots.txt aussehen:

User-agent: Suchmaschinen-Crawler a

User-agent: Suchmaschinen-Crawler b

Disallow: /template/

Disallow: /privat/

Es muss immer ein Doppelpunkt und ein Leerzeichen eingefügt werden. Bei dieser Auflistung geht es darum, dass die Crawler der Suchmaschine a und b ein Verbot erteilt für die Verzeichnisse /template und /privat. Sollen mehrere Datensätze aufgelistet werden, so werden sie mit einem Leerzeichen getrennt. Werden alle angesprochen, wird das „Sternchen*“ vor den Doppelpunkt gesetzt.

 

 

 

Garantie nicht möglich

Durch das Verbot soll erreicht werden, dass eben nur die wirklich relevanten Inhalte aufgelistet werden, die die Suchmaschine anzeigt. Besonders zu empfehlen wäre diese Art der Verbotsaussprechung bei Internetauftritten, die nur aus Template-Dateien bestehen und dabei viele ohne Informationen untergebracht sind. Der Erfolg ist die Freihaltung der Suchmaschinen von nicht erwünschten Inhalten. Eine Definition für die Erlaubnis der Indizierung gibt es nicht. Es besteht zudem die Möglichkeit, dass man einem Crawler sämtliche Zugriffe gestattet:

User-agent: Suchmaschinen-Crawler c

Disallow:

Sämtliche Angaben in der zweiten Zeile fehlen und es wird der Zugriff auf die Verzeichnisse und auch die Unterverzeichnisse erlaubt. Suchmaschinen, die seriös sind, halten sich an die robots-Protokolle. Der Crawler liest dann erst die robots.txt-Datei und zeigt dann die gewünschten Inhalte. Diese können aber nicht vor Zugriffen auf diese Weise geschützt werden, denn eine Garantie kann nicht gegeben werden. Dafür müsste man einen Verzeichnisschutz einrichten „.htaccess“. Diese Einstellungen sind hinsichtlich SEO sehr wichtig.