webentwicklung-frage-antwort-db.com.de

Was ist der beste Weg, um festzustellen, ob der Verkehr legitim ist oder (Bot) nicht?

Wir planen, ein ähnliches Programm wie YouTube zu starten, bei dem Benutzer gemäß den Ansichten bezahlt werden.

Das Problem, mit dem wir konfrontiert sind, ist, dass die Leute das System spielen und Datenverkehr mithilfe von Botnetzen senden, um einen unangemessenen Vorteil zu erzielen.

Ich weiß, dass es möglicherweise keinen 100% legitimen Weg gibt, solchen Verkehr aufzuzählen, aber was ist der beste Weg, um den Verkehr zu filtern?

1
Vivek Sancheti

Da Sie Tags verwenden, die mit dem Web beginnen, gehen Sie davon aus, dass Sie ein System erstellen, für das HTML heruntergeladen werden muss, damit ein bezahlter Eindruck funktioniert.

Sie müssen lediglich das Verhalten des Roboters anhand der Serverzugriffsprotokolldateien lernen. Auf einem Server mit installiertem Apache heißt die Datei normalerweise access_log. Wenn Ihr Server häufig verwendet wird, werden Hunderte, wenn nicht Tausende von Zeilen darin angezeigt. Jede Zeile enthält die IP-Adresse des Remote-Geräts, das mit Ihrem Server verbunden ist, sowie die angeforderte Ressource sowie Datum und Uhrzeit.

Im Allgemeinen liegt zwischen dem Wechsel einer Seite von einer Seite zur nächsten auf einer Website mindestens eine Sekunde, es sei denn, die Website ist ein schlecht gestaltetes Hochgeschwindigkeits-Ratespiel ohne Anweisungen, und selbst dann ist die Geschwindigkeit möglicherweise nie höher als eine Sekunde aufgrund der anfänglichen Verbindungslatenz.

Wenn Sie dieselbe IP-Adresse zusammen mit genau demselben Datum und derselben Uhrzeit für die nächsten über 20 Zeilen sehen, handelt es sich eindeutig um einen Roboter, der versucht, Ihr System anzugreifen (möglicherweise versucht er, einen Denial-of-Service-Angriff auszulösen).

Eine andere Möglichkeit, um zu überprüfen, ob es sich um einen Roboter handelt, besteht darin, nach den angeforderten Dateien zu suchen, insbesondere in den Fehlerprotokollen. Wenn Sie immer wieder ein ähnliches Muster von Dateien sehen, insbesondere wenn keines davon vorhanden ist, bedeutet dies, dass ein oder mehrere Systeme möglicherweise versuchen, in Ihren Server einzudringen, indem Sie davon ausgehen, dass Content-Management-Systeme wie Wordpress installiert sind.

Einige Roboter fordern möglicherweise auch Dateien mit vermasselten Namen an oder identifizieren sich fälschlicherweise. Jede Zeile, die Quellcode enthält, ist wahrscheinlich eine Zeile, die von einem Roboter stammt. Beispiel: Code, der Folgendes enthält: (:;){}

Da ich nicht sicher bin, ob der Name des Servers (Apache? Nginx?) Den Inhalt auf Ihrem System bereitstellt, kann ich Ihnen nicht sagen, welche Spalte in den Protokolldateien zur IP-Adresse oder welche zur angeforderten Datei gehört usw., aber wenn Sie sie betrachten, insbesondere nachdem Sie eine Anfrage an den Server gestellt haben, werden die Muster möglicherweise leichter zu erkennen.

3
Mike

Einige weitere Methoden zur Erkennung des Bot-Verkehrs:

  1. Überprüfung des Benutzeragenten (es handelt sich um eine Clientanwendung, die ein bestimmtes Netzwerkprotokoll verwendet).
  2. Suchen Sie nach einer hochspezifischen Übereinstimmung mit einer Malware-Signatur oder einer bestimmten ausführbaren Datei oder einer C & C-Verbindungsadresse.
  3. Untersuchen von Verhaltensparametern wie Sichttiefe, Besuchsdauer, Engagement und einigen anderen Parametern.
  4. Programmlösungen. Mir sind zwei Lösungen bekannt, mit denen der Datenverkehr gefiltert und seine Qualität überprüft werden kann: Google Analytics und Maxymizely.com. Verwenden Sie GA, um Treffer aus bekannten Botnetzen und Verweisen zu filtern. Um den Bot- und Spider-Verkehr aus Google Analytics zu filtern, gehen Sie zu Ihren Admin-Einstellungen -> Einstellungen anzeigen -> Bot-Filterung mit dem Kontrollkästchen "Ausschließen" alle Treffer von bekannten Bots und Spinnen. Die zweite Lösung Maxymizely.com ermöglicht die Analyse der Verkehrsqualität unter Berücksichtigung von drei Dimensionen - Aktivität, Engagement und Monetarisierung des Verkehrs. Mit diesem Werkzeug können Sie die wesentlichen Unterparameter für jede Dimension auswählen und ihnen das erforderliche Gewicht zuweisen. Es gibt auch eine praktische Möglichkeit, dieses Zeug in einer Ansicht einer 3D-Karte zu visualisieren.
2
Olga Schors

Finden Sie heraus, wie viele Videos von normalen Nutzern pro Stunde angesehen werden.

Nehmen wir an, es sind 10 Videos, die von den meisten Besuchern pro Stunde angesehen werden.

Speichern und verwenden Sie die Anzahl der Videos, die mit Sitzung + Cookie + IP-Adresse angezeigt wurden.

Wenn die Anzahl der angezeigten Videos für eine Sitzung höher als 10 ist, verwenden Sie einfaches Captcha, um die Bots zu vermeiden.

Wenn die Captcha-Überprüfung fehlschlägt (kontinuierlich oder mehrmals), fügen Sie diese IP-Adressen in die schwarze Liste ein und behandeln Sie sie auf besondere Weise. Das heißt, Sie führen schrittweise mehr Captcha ein.

Mithilfe der Kombination aus IP-Adresse + Cookie + Sitzungsvariablen können Sie den Unterschied zwischen Bots und Benutzern leicht herausfinden.

1
Mani