Ich hatte ein SEO Audit von Alexa für meine Website gemacht. Es wurde gemeldet, dass alle Crawler aufgrund meiner robots.txt von meiner Website blockiert sind. Meine robots.txt sieht ungefähr so aus
User-agent: *
Disallow: /
User-Agent: GoogleBot
Allow: /
User-Agent: Bingbot
Allow: /
User-Agent: Slurp
Allow: /
User-agent: ia_archiver
Allow: /
Sitemap : [Sitemap URL]
Ich habe auch diese Suchmaschinen überprüft und sie zeigen indizierte Ergebnisse von meiner Website. Auch bevor ich die Erlaubnis für Alexas Bot hinzugefügt hatte
User-agent: ia_archiver
Allow: /
ohne die Alexa das Audit nicht durchführen konnte. Ich bin verwirrt, warum Alexa immer noch so berichtet, dass alle Crawler blockiert sind, auch wenn Alexa selbst diese robots.txt-Berechtigung zum Crawlen meiner Website verwendet hat.
Ich hatte bereits das Robots.txt-Testtool von Google verwendet. Es wird gemeldet, dass GoogleBot nicht blockiert ist. Ergebnis, wenn ich eine URL zu einer Seite meiner Website füttere, um sie anhand der Auswahl von GoogleBot zu testen
Ich verwende den Operator Zulassen, damit nur ausgewählte Bots meine Website crawlen können. Ich möchte auch darauf hinweisen, dass Alexas eigener Bot meine Website nicht zur Überprüfung crawlen konnte, bis ich sie mit derselben selektiven Erlaubnismethode zur robots.txt-Website hinzugefügt hatte.
Die Standardanweisung für Spinnen ist allow
und wenn Google Ihre robots.txt besucht und den Befehl disallow
sieht, weiß es sofort, dass es nicht mehr erlaubt ist, die Website zu crawlen. Die nachfolgenden Erlaubnisse spielen keine Rolle.
Beachten Sie, dass Spinnen die restriktivste Regel befolgen müssen, wenn in der Robots-Datei oder zwischen der robots.txt und dem Meta Robots-Tag einer Seite widersprüchliche Codes vorhanden sind.
Wenn Sie verhindern möchten, dass bestimmte Bots Ihre Website crawlen, müssen Sie für jeden dieser Bots individuelle Verbotsregeln festlegen.
Wenn Sie jedoch einige Bots zulassen und den Rest nicht zulassen möchten, können Sie Folgendes eingeben:
User-agent: Googlebot
Disallow:
User-agent: Slurp
Disallow:
User-agent: *
Disallow: /
Sie können Ihre aktuelle robots.txt-Datei mit dem eingebauten Checker in der Google Search Console (ehemals Webmaster-Tools) analysieren.