webentwicklung-frage-antwort-db.com.de

Piwik-Besucherlog-Spam

Ich benutze Piwik, um Leute zu verfolgen, die meine Website besuchen. Leider sind viele der Besucher, die im Besucherprotokoll erscheinen, keine echten Personen, sondern Spam-Bots. Normalerweise verwenden diese Bots einen Anbieter aus einem Land, das sich von meiner Zielgruppe unterscheidet. Sie verweisen immer auf eine Spam-Site, wie Sie in der Referrer-Spalte sehen können.

Example

Da meine Website relativ klein ist, verzerren diese Bots die Statistiken (Besuche im Laufe der Zeit usw.) und machen die Besucherkarte fast unbrauchbar. Kann ich irgendetwas tun, um sie zu blockieren?

4
Andalur

Sie können sie von IP in Piwik blockieren ...

    To exclude all traffic from a given IP or IP range, log in Piwik as the Super User.
 Click on Settings > Websites. Below the list of websites, you will find the option to 
specify “Global list of Excluded IPs”. You can define a given IP address, or IP ranges 
(132.4.3.* or 143.2.. for example) to be excluded from being tracked on all websites. 
Each Piwik admin user can also specify the list of IPs or IP ranges to exclude for 
specific websites.

Es gibt wahrscheinlich bessere programmatische Lösungen, z. B. das Anzeigen des Tracking-Codes nur für bestimmte Länder oder das Blockieren von IP-Adressen in der Project Honeypot-Datenbank.

Eine einfachere Lösung könnte jedoch darin bestehen, alle <noscript> -Tags aus Ihrem Tracking-Code zu entfernen. Roboter können selten Javascript lesen, aber die meisten menschlichen Benutzer können es. Ohne Javascript würden Sie zwar keine menschlichen Benutzer verfolgen, wenn dies entfernt würde, dies sollte jedoch die Gesamtgenauigkeit erhöhen.

3
Richard B

Sie finden missbräuchliche Bots in Ihren Protokolldateien, wenn Sie eine Website in irgendeinem Alter haben. Für einige ist es ein riesiges Problem, während einige Websites weniger Missbrauch erfahren.

Sie haben eine hervorragende Vorstellung davon, wie Sie die Protokolldatei bearbeiten können. Vielleicht sollte es ein Werkzeug geben. Sofern Sie keinen Code schreiben können, ist es nicht wirklich praktisch, die Protokolldatei zu bearbeiten, um Einträge zu entfernen, und es gibt kein mir bekanntes Tool, das dies für Sie erledigt. Die meisten Menschen versuchen, diese Zugriffe zu blockieren, um ihre Protokolldateien sauber zu halten.

Es ist nicht ganz einfach zu bestimmen, wer wann gesperrt werden soll. Ich bin in der Sicherheitsforschung und dies ist ein Themenbereich für mich und ich sage Ihnen, es ist immer ein Urteilsspruch. Aber ich werde Ihnen einige Hinweise geben.

Wenn Sie sich Ihre Protokolldatei oder Protokolldateianalyse ansehen, möchten Sie nach ein paar Dingen suchen:

  • Zugriffe, bei denen keine Bilder angefordert werden.
  • Zugriffe, die robots.txt nicht anfordern.
  • Zugriffe, die robots.txt nicht befolgen.
  • Zugriffe, die schnell innerhalb eines Zeitintervalls erfolgen, das für einen Menschen unwahrscheinlich ist.
  • Bei Zugriffen ändern sich Browser oder Betriebssystem zu einem beliebigen Zeitpunkt.

Es gibt natürlich mehr Hinweise, aber es wird kompliziert.

  • Ein schlechter Bot kann Bilder anfordern oder nicht. Die Tatsache, dass auf eine Seitenansicht Bildanfragen folgen, ist nicht unbedingt ein Hinweis auf einen Menschen. Wenn Zugriffe jedoch keine Bildanforderungen enthalten, handelt es sich um einen Bot.
  • Ein fehlerhafter Bot kann robots.txt anfordern oder nicht. Nur weil ein Bot robots.txt anfordert, heißt das nicht, dass er sich gut benimmt.
  • Wenn ein fehlerhafter Bot robots.txt anfordert und versucht, auf durch robots.txt eingeschränkte Bereiche zuzugreifen, sollte er blockiert werden. Sie können einen kleinen Bildlink zum eingeschränkten Bereich erstellen. Es kann eine Seite sein, ein Verzeichnis ohne aktivierten Index, ein anderes Bild - es spielt keine Rolle. Stellen Sie einfach sicher, dass es etwas ist, dem ein Mensch wahrscheinlich nicht folgen würde. Nur kein 1 Pixel Link. Make ist ein kleines Bild. Wenn ein Zugriff auf diesen Bereich erfolgt, sollten Sie den Zugriff sperren.
  • Schlechte Bots greifen oft mit einer Geschwindigkeit auf Websites zu, die es unmöglich macht, ein Mensch zu sein. Ein Mensch kann Links mit einer Geschwindigkeit von weniger als einer Sekunde anklicken. Wenn Sie innerhalb von 2 Sekunden mindestens drei Zugriffe haben, handelt es sich wahrscheinlich um einen Bot.
  • Einige schlechte Bots können im Laufe der Zeit den Browser und das Betriebssystem wechseln, aber nicht immer. In diesem Fall ist das Blockieren sicher.

Dies ist ein Bereich, in dem Sie Ihr bestes Urteilsvermögen anwenden müssen. Sie können Domain-Namen und IP-Adressen von Google abrufen, um festzustellen, welche Erfahrungen andere Personen haben und ob andere Personen den Zugriff auf die von Ihnen gefundenen Informationen blockieren. Nutzen Sie die obige Liste, um sich selbst ein Urteil zu bilden. Sie werden anfangen, einige Muster zu sehen.

  • Schlechte Spinnen kommen aus ähnlich schlechten Gegenden.
  • Schlechte Spinnen verwenden einen Block ähnlicher IP-Adressen.
  • Schlechte Spinnen benutzen Subskribenten-Subdomains von Telecos.

Es kommt natürlich darauf an, welchen Webserver du hast. Ich habe lange nicht mehr mit IIS gearbeitet und auch keinen der neueren Webserver verwendet. Ich kenne Apache, daher werde ich einige Beispiele nennen, die Sie in Ihrer .htaccess-Datei verwenden können, wenn Sie Apache haben.

RewriteCond %{REMOTE_Host} example.com [NC]
RewriteRule .* - [F,L]

-und-

RewriteCond %{REMOTE_ADDR} 10.0.1.101 [NC]
RewriteRule .* - [F,L]
2
closetnoc

Seitdem diese Frage gestellt wurde, hat Piwik eine neue Funktion, mit der Besucher mit Empfehlern, die für diese Art von Empfehlerspam bekannt sind, standardmäßig ignoriert werden. https://piwik.org/blog/2015/05/stopping-referrer-spam/

Wenn Sie auf neue Domains stoßen, können Sie diese an die von der Community bereitgestellte Liste der Referrer-Spammer senden: https://github.com/piwik/referrer-spam-blacklist

0
lw1.at