webentwicklung-frage-antwort-db.com.de

Verhinderung von Botvisits zur Website

Jedes Mal, wenn ein Benutzer die Adresse meiner Website in seinen Tweets teilt, werden die folgenden Bots auf meiner Website angezeigt:

UnwindFetchor/1.0 (+ http: //www.gnip.com/)
ShowyouBot (http://showyou.com/crawler)
JS-Kit URL Resolver, http://js-kit.com/
Bitlybot
EventMachine
HttpClient etaURI API/2.0 + metauri.com

Zehnmal in einer Minute kommt einer dieser Bots auf meine Website und holt sich meinen Inhalt. Meine Frage ist, ob das Verbieten der IPs dieser Bots mit htaccess oder das Verhindern ihrer Besuche mit robots.txt meiner SEO schaden kann. Oder kann es einige grundlegende Twitter-Funktionen behindern? Wenn der Benutzer beispielsweise meine URL freigibt, konnte die URL nicht gekürzt werden, sodass er sie nicht freigeben kann. Oder Twitter wird meine Seite verdächtig finden etc?

3
trante

Modernes Inbound-Marketing beruht nicht nur darauf, von Googles Spinnen oder gar nur von Google und Bing/Yahoo indiziert zu werden. Mit der zunehmenden Verflechtung von SEO und SMM kommen immer mehr Social Media- und Social-Sharing-Dienste ins Spiel. Als solches sehen Sie Crawler, die nicht nur Suchspinnen sind.

Wenn Sie einen Link auf Twitter posten und dieser nach und nach gekürzt wird, wird die Seite gecrawlt von:

  • Twitterbot
  • Schmetterling (http://labs.topsy.com/butterfly/)
  • Showyoubot (http://showyou.com/crawler)
  • UnwindFetchor (http://www.gnip.com/)
  • EventMachine HttpClient (kein Link)
  • TweetmemeBot (http://tweetmeme.com/)
  • JS-Kit URL Resolver (http://js-kit.com/)
  • PercolateCrawler ([email protected])
  • FlipboardProxy (http://flipboard.com/browserproxy)
  • Yahoo! Slurp (http://help.yahoo.com/help/us/ysearch/Slurp)
  • PaperLiBot (http://support.paper.li/entries/20023257-what-is-paper-li)
  • Kimengi (nineconnections.com)

Im Allgemeinen passiert Folgendes:

  1. Auf der wichtigsten Social Media-Site (Twitter, Facebook, Reddit, Digg usw.) wird die Seite gecrawlt, um den Seitentitel/die Überschrift, die Metabeschreibung und in einigen Fällen die Metaschlüsselwörter abzurufen und bestimmte Informationen für die Website automatisch auszufüllen Benutzer: wie der Linktext, die Linkbeschreibung, relevante Tags, Miniaturbild, Autor usw.
  2. Zweitens, wenn der Link geteilt wird, erfahren Suchmaschinen und andere Dienste, die die Twitter-API oder eine gleichwertige API verwenden, davon, und auch sie möchten ihn ihrem Index/ihrer Datenbank hinzufügen. Wenn es sich um eine Suchmaschine handelt, wird Ihr Suchranking/Ihre Exposition direkt verbessert. Wenn es sich um eine andere Social-Media-Site handelt, wird der nicht suchmaschinenbezogene organische Datenverkehr erhöht.

    Unabhängig davon müssen sie die Seite nach ungefähr denselben Informationen durchsuchen, um den Inhalt zu kategorisieren/zu verarbeiten. Manchmal wird der Inhalt analysiert, um Trendthemen zu verfolgen oder Social Media-Analysen bereitzustellen. Bei Flipboard und einigen Social-Media-Verwaltungsplattformen für Unternehmen muss der Inhalt neu formatiert werden, damit er über eine alternative Benutzeroberfläche (z. B. die Tablet-/Mobile-App von Flipboard oder ein Social-Media-Dashboard eines Drittanbieters) angezeigt werden kann. In ähnlicher Weise verwenden einige dieser Bots die Social-Sharing-APIs, um die Syndizierung Ihrer Inhalte zu ermöglichen.

    In jedem Fall ist das alles meistens gut für Ihre Site, da es Ihre Sichtbarkeit erhöht und die Konversation erleichtert.

Unter normalen Umständen sollte ein Webserver kein Problem damit haben, diese Bot-Anfragen zu bearbeiten, und Sie erhalten ein Vielfaches an organischem Datenverkehr. Wenn Sie jedoch einen überlasteten Server betreiben und keine effektiveren Optimierungen vornehmen können (Query-Caching, Ganzseiten-Caching, Bytecode-Caching, Browser-Caching, Lastenausgleich, Verwendung eines CDN oder eines leichten httpd als Server) statischer Inhalt, Optimierung Ihrer Datenbankabfragen und -struktur usw.) Dann gibt es einige Bots, die Sie wahrscheinlich blockieren können, ohne Schaden zuzufügen.

Die meisten legitimen Bots haben eine URL, die ihrer UA-Zeichenfolge zugeordnet ist. Dieser Link sollte Ihnen sagen, wer den Bot ausführt und zu welchem ​​Zweck. Wenn der Bot absolut keinen direkten oder indirekten Einfluss auf Ihre Website hat, können Sie ihn jederzeit blockieren. Wenn Sie beispielsweise nur sehr wenige Unternehmens-Follower haben, können Sie möglicherweise bestimmte Enterprise-Dashboards für soziale Medien und Social-Analytics-Apps blockieren. Es wird Ihnen nicht schaden, wenn Sony oder GM Ihre Einstellung zu ihrer Marke oder ihrem neuen Produkt nicht kennen. Ebenso sind einige dieser Bots tatsächlich für Dienste bestimmt, die heruntergefahren werden oder bereits heruntergefahren wurden (wie z. B. TweetMeme).

Wenn Sie jedoch so etwas wie Percolate verwenden, um Ihre Social Media-Identitäten zu verwalten und Ihre Social Media-Analysen zu überwachen, möchten Sie deren Bot offensichtlich nicht blockieren, oder deren Service wird für Sie nicht ordnungsgemäß funktionieren.

2
Lèse majesté