webentwicklung-frage-antwort-db.com.de

Benutzeragentenidentifikation und SEO-Crawler-Datenbank

Ich werde gebeten, das Verkehrsprotokoll einer Site zu analysieren. Insbesondere muss ich die Crawler anhand der gesammelten user agent Werte identifizieren.

Ich weiß, dass es 'Trap'-Links gibt, mit denen Sie die Crawler von den Menschen unterscheiden können. Jetzt würde ich nur die user agent Werte analysieren.

Nun die Frage. Gibt es einen öffentlichen Katalog oder eine Bibliothek mit Webcrawlern?

Bearbeiten

Hier ist die zweite Frage. Es gibt auch viele leere User-Agents in meinen Traffic-Aufzeichnungen. Bezieht sich ein leerer Benutzeragenten-Header auf einen Crawler oder auf einen automatischen Prozess?

2
Alberto De Caro

Der erste Link in einer Google-Suche ist wahrscheinlich der, nach dem Sie suchen - http://www.user-agents.org/

2
Vince Pettit

Es ist sehr unwahrscheinlich, dass Sie eine vollständig universelle Liste von UserAgents finden, zum Teil, weil sie einfach erfunden werden können. Aber bevor ich überhaupt dazu komme, wäre es eine lächerliche Menge an Arbeit. Sie müssen nur ein paar Ressourcen kompilieren und dann weiter nach etwas suchen, das Sie nicht kennen. (Überraschenderweise kann ich dazu keinen Wikipedia-Artikel "Liste von ..." finden.)

  • Hier ist eine riesige Liste von nichts als iOS UA Strings . Wenn Sie sich ansehen, wie schnell einige davon in der Datumsspalte geändert werden und berücksichtigen, dass das Dokument vor 10 Wochen zuletzt aktualisiert wurde, fehlt möglicherweise bereits etwas.
  • serAgentString.com scheint vor kurzem gepflegt worden zu sein als user-agents.org. Jeder dieser Produktnamen führt zu einer separaten Seite mit einer eigenen, manchmal sehr großen Liste .
  • ser-agent-string.info hat viele Nicht-Browser, die im vorherigen scheinbar fehlen, daher ist es möglicherweise auch gut, sie in der Nähe zu haben.
2
Su'

Diese Woche startete unsere Firma (Incapsula) Botopedia.org - ein von der Community bezogenes Bot-Verzeichnis. Es ist 100% kostenlos und offen für alle. Sie können es verwenden, um eine vollständige User-Agent-Liste für alle Bots zu finden, die Sie nachschlagen möchten.

Bezüglich der Identifizierungsmethoden verweise ich auf diese Diskussion in Security.Stackexchange , das verschiedene Methoden zur Bot-Identifizierung abdeckt (d. H. JS-Challenge, Methodenprüfung, robot.txt-Zugriff und mehr).

1
Igal Zeifman