webentwicklung-frage-antwort-db.com.de

Verhindern, dass Bing Tausende von im Wesentlichen identischen Seiten crawlt?

Ich habe eine Webseite mit einem Dutzend Datentabellen mit jeweils einem halben Dutzend Spalten. Jede Tabelle kann durch Anklicken der entsprechenden Überschrift nach einer Spalte sortiert werden, die an den Querystring angehängt wird.

z.B. Eine Seite mit drei Tabellen, sortiert nach Spalte 4, 6 und absteigend 3:

page.html?s1=4&s2=6&s3=-3

usw.

Ich habe keine folgenden Links in den Spaltenüberschriften und

<link rel="canonical" href="page.html">

auf der Seite.

Aber Bing krabbelt immer noch durch Tausende von Kombinationen. 5772 von ihnen gestern!

Ich habe s1/s2/s3/s4 ... als zu ignorierende Parameter markiert (vor langer Zeit), aber das hat nicht geholfen.

Wie kann ich das verhindern? Es ist unnötige Serverlast für keinen Gewinn.

3
Codemonkey

Mithilfe einer Datei namens robots.txt im Stammverzeichnis Ihrer Website können Sie Bing und anderen Webcrawlern mitteilen, was sie spinnen und was sie ignorieren sollen.

Sie können bestimmten oder allen Crawlern anweisen, bestimmte URLs zu ignorieren.

in deinem Fall

User-Agent: *
Disallow: /*?s1=*&s2=*&s3=*

abhängig von den auf Ihrer Site verwendeten Parametern müssen Sie möglicherweise kleine Änderungen in der Zeile "Nicht zulassen" vornehmen.

Mehr zu den robots.txt-Dateien hier

1
Marco Tolk