webentwicklung-frage-antwort-db.com.de

Server-Overhead durch Bots verursacht?

Ich habe eine Kundenwebsite, die Overhead verursacht (http://www.modacalcio.it/en/by-kind/football-boots.html).

Wenn htop geöffnet ist, versuche ich, auf der Website zu navigieren, und das Laden der Website erfolgt durch den Ajax-Link auf der linken Seite der Website.

Die Website wird von einem VPS mit 3 Prozessoren und 2 GB RAM gehostet, mit genügend Festplattenspeicher.

Das eigentliche Problem ist, dass diese Website neu ist und nicht viel besucht wird.

Aus dem http-Status-Modul sehe ich, dass der Overhead durch Bots verursacht wird (Google Bots, Bing Bots, Hrefs Checker und so weiter).

Also dachte ich, das liegt wahrscheinlich daran, dass diese Spinnen versuchen, all diese Links auf einmal zu crawlen - könnte dies diesen Overhead verursachen?

Ich habe auch rel="nofollow" in diese Links eingefügt, aber das hält die Bots nicht fern.

Gibt es einen Weg durch Code oder Plesk, um diese Links zu diesen Bots zu deaktivieren?

1
giuseppe

Der Overhead wird wahrscheinlich durch die Daten und deren Bereitstellung verursacht:

Das Ausführen einer Diagnose wie hier hat ergeben, dass jede Anforderung für diese Seite zu 150 separaten Anforderungen mit einer Seitengröße von über 2,2 MB führt. Das Laden dauert bis zu 9 Sekunden. Wenn Sie sich Ihre Header ansehen hier , scheint es, als hätten Sie no-cache in Cache-Control und Pragma angegeben.

Möglicherweise möchten Sie den HTTP-Cache aktivieren und die gzip -Komprimierung auch mit Ihrem Nginx-Server verwenden (wie in den Kopfzeilen als Ihr Server angegeben). Weitere Informationen finden Sie hier: HTTP-Cache und gzip mit nginx einrichten Siehe auch diesen Google-Artikel: Funktionsweise der gzip-Komprimierung

Sie können auch die Kernmodulkonfiguration Ihres Servers überprüfen, um sicherzustellen, dass keepalive_disable auf none und keepalive_requests gesetzt ist auf mindestens die Standardnummer (100). Für Apache in Plesk hilft dabei this thread.

Das Überwachen der Systemressourcen nach diesen Änderungen sollte anzeigen, ob Ihre VPS-Konfiguration ausreicht oder aktualisiert werden sollte.

Wenn Sie weiterhin verhindern möchten, dass Robots die Links crawlen, geben Sie sie in Ihrer robots.txt-Datei als nicht zulässig an (siehe hier ).

0
dan