webentwicklung-frage-antwort-db.com.de

BingBot schlägt auf mehrere Subdomains gleichzeitig ein und verursacht Panik

Ich habe eine Site mit mehreren Subdomains. Zu bestimmten Tageszeiten versammelten sich Bingbots auf meiner Site und führten einen massiven Scan wie folgt durch:

01:23:11 a.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 b.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 c.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 d.example.com GET /index HTTP/1.1 200 Bot.A
01:23:12 e.example.com GET /index HTTP/1.1 200 Bot.A
01:23:12 f.example.com GET /index HTTP/1.1 403 Bot.A
01:23:12 g.example.com GET /index HTTP/1.1 403 Bot.A
01:23:22 h.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 i.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 j.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 k.example.com GET /index HTTP/1.1 200 Bot.B
01:23:23 l.example.com GET /index HTTP/1.1 200 Bot.B
01:23:23 m.example.com GET /index HTTP/1.1 403 Bot.B
01:23:23 n.example.com GET /index HTTP/1.1 403 Bot.B

Da die Bots über mehrere Unterdomänen scannen, hat die Anweisung Crawl-delay: 1 in robots.txt keine Auswirkung auf dieses Verhalten. Der Server-Abwehrmechanismus würde diese Crawler aktivieren und blockieren, indem er 403 Fehler ausgibt.

Gibt es eine Möglichkeit, BingBots Crawling gleichmäßig zu verteilen? Die Standardeinstellung Crawling-Muster in Bing's Webmaster-Tool scheint nicht befolgt zu werden.

1

Dies ist Vincent von Bing Webmaster Tools und ich habe Ihren Beitrag bemerkt.

Zuallererst tut es mir leid, dass Sie ein Problem mit der Crawling-Aktivität unseres Crawlers in Ihren Subdomains haben. Ich bin sicher, wir können es besser machen.

Ein paar Dinge:

Ich habe bemerkt, dass Sie erwähnt haben, dass die Einstellung des Crawling-Musters in den Webmaster-Tools nicht funktioniert. Der Grund dafür ist, dass bei Verwendung einer Crawl-delay: -Direktive in robots.txt und - diese Direktive immer Vorrang vor den Einstellungen der Crawl-Kontrolle in den Bing Webmaster-Tools hat, weshalb dies nicht wie erwartet funktioniert (siehe den Hinweis in - http://www.bing.com/webmaster/help/crawl-control-55a30302 ).

Da dies jedoch durch mehrere subdomainspezifische robots.txt mit unterschiedlicher Durchforstungsverzögerung gemildert werden muss: Direktiven sind nicht optimal Ich habe hier keine gute Self-Service-Lösung, weshalb ich empfehle, dass Sie sich an Bing Webmaster wenden Unterstützen und teilen Sie die Domain-/Sub-Domain-Informationen, damit sie an das richtige Team weitergeleitet werden können, um einen genaueren Blick darauf zu werfen (möglicherweise fordern sie Serverprotokolle an, um bei der Untersuchung zu helfen).

Um den Webmaster-Support zu kontaktieren, rufen Sie http://go.Microsoft.com/fwlink/p/?linkid=261881 auf, füllen Sie die erforderlichen Felder aus und klicken Sie im Feld "Welche Art von Problem haben Sie?" " Wählen Sie in der Dropdown-Liste "Unter- oder Über-Crawling-Anfrage" aus und beschreiben Sie das Problem, das Sie sehen. Auch wenn sie nicht sofort eine personalisierte Antwort erhalten (es kann 24-48 Stunden dauern), sollte dies zumindest den Ball ins Rollen bringen.

4
Vincent Wehren

Nach meiner Erfahrung waren MSN Bots für robots.txt immer zu widerspenstig und bringen keinen erkennbaren Verkehrsvorteil. In den letzten drei Jahren habe ich ihr schreckliches Verhalten sehr toleriert. Und ja, sie sind von Microsoft.

  • 403 Sie mit RewriteCond% {HTTP_USER_AGENT} in .htaccess

  • Verwenden Sie fail2ban oder mod_security, um sie zu blockieren oder zu blockieren

  • Beide der obigen

  • Sammeln Sie die Protokolldaten und leiten Sie sie nicht weiter

Sie verdienen keinen Zugang.

1
user45000