webentwicklung-frage-antwort-db.com.de

Stoppen Sie die Indizierung von Google

Gibt es eine Möglichkeit, Google von der Indexierung einer Website abzuhalten? 

61
Developer

robots.txt

User-agent: *
Disallow: /

dadurch werden alle Such-Bots von der Indizierung blockiert.

weitere Informationen finden Sie unter: http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=40360

96
UnkwnTech

Ich muss meine Antwort hier hinzufügen, da die akzeptierte Antwort das Problem nicht wirklich anspricht. Denken Sie auch daran, dass das Crawlen von Google nicht bedeutet, dass Sie Ihre Inhalte privat halten können.

Meine Antwort basiert auf wenigen Quellen: https://developers.google.com/webmasters/control-crawl-index/docs/getting_startedhttps://sites.google.com)/site/webmasterhelpforum/de/faq - crawling - indexing --- ranking

robots.txt-Datei steuert das Crawlen, aber keine Indizierung! Diese beiden sind völlig verschiedene Aktionen, die separat ausgeführt werden. Einige Seiten werden zwar gecrawlt, aber nicht indiziert, und manche können sogar aber niemals gecrawlt indiziert werden. Der Link zu einer nicht gecrawlten Seite ist möglicherweise auf anderen Websites vorhanden. Dies führt dazu, dass Google Indexer darauf folgt und versucht zu indexieren.

Bei der Frage geht es um die Indizierung, bei der Daten über die Seite erfasst werden, sodass sie möglicherweise in den Suchergebnissen verfügbar ist. Es kann das Hinzufügen eines Meta-Tags blockiert werden:

<meta name="robots" content="noindex" />

oder Hinzufügen eines HTTP-Headers zur Antwort:

X-Robots-Tag: noindex

Wenn es sich bei der Frage um das Crawlen handelt, können Sie natürlich eine robots.txt-Datei erstellen und folgende Zeilen einfügen:

User-agent: *
Disallow: /

Crawling ist eine Aktion, mit der Informationen über die Struktur einer bestimmten Website erfasst werden. Z.B. Sie haben die Website über die Google Webmaster-Tools hinzugefügt. Der Crawler wird das Konto berücksichtigen und Ihre Website besuchen und nach robots.txt suchen. Wenn keine gefunden wird, wird davon ausgegangen, dass sie alles crawlen kann (es ist sehr wichtig, dass auch die sitemap.xml-Datei vorhanden ist, um bei diesem Vorgang zu helfen, Prioritäten festzulegen und Änderungshäufigkeiten zu definieren). Wenn die Datei gefunden wird, folgt sie den Regeln. Nach dem erfolgreichen Crawlen wird zu einem bestimmten Zeitpunkt die Indizierung für gecrawlte Seiten ausgeführt, aber Sie können nicht sagen, wann ...

Important: Dies bedeutet, dass Ihre Seite unabhängig von robots.txt weiterhin in den Google-Suchergebnissen angezeigt werden kann.

Ich hoffe, zumindest einige Benutzer werden diese Antwort lesen und haben eine klare Antwort, da es wichtig ist zu wissen, was tatsächlich passiert.

77
Karol

Sie können diesen Server weitgehend deaktivieren, indem Sie die folgende Einstellung global in Apache conf hinzufügen oder dieselben Parameter in vhost verwenden, um sie nur für bestimmte vhost zu deaktivieren. 

Kopfsatz X-Robots-Tag "noindex, nofollow"

Sobald dies geschehen ist, können Sie es testen, indem Sie die zurückgegebenen Apache-Header überprüfen. 

curl -I staging.mywebsite.com HTTP/1.1 302 Gefundenes Datum: Sa 26 Nov 2016 22:36:33 GMT Server: Apache/2.4.18 (Ubuntu) Ort: /pages/ X-Robots-Tag: noindex, nofollow Inhaltstyp: Text/HTML; Zeichensatz = UTF-8

1
nisamudeen97

Es gibt mehrere Möglichkeiten, Crawler zu stoppen, einschließlich Google, um das Crawlen und Indexieren Ihrer Website zu stoppen.

Auf Serverebene durch Header

Header set X-Robots-Tag "noindex, nofollow"

Auf Stammdomänenebene über robots.txt-Datei

User-agent: *
Disallow: /

Auf Seitenebene durch Roboter-Meta-Tag

<meta name="robots" content="nofollow" />

Ich muss jedoch sagen, wenn Ihre Website veraltet ist und keine vorhandenen Seiten/URLs vorhanden sind, sollten Sie darauf warten, dass Google diese URLs beim nächsten Crawlen automatisch deindexiert. Lesen Sie https://support.google.com/webmasters/answer/. 1663419? Hl = de

1
Deepak Mathur

verwenden Sie ein Nofollow-Meta-Tag: 

<meta name="robots" content="nofollow" />

Um auf der Verbindungsebene nofollow anzugeben, fügen Sie der Verknüpfung das Attribut rel mit dem Wert nofollow hinzu:

<a href="example.html" rel="nofollow" />
0
SKR

Ich verwende eine einfache Aspx-Seite, um Ergebnisse von Google an meinen Browser zu übermitteln, wobei ein gefälschter 'Pref'-Cookie verwendet wird, der 100 Ergebnisse auf einmal abruft. Ich möchte nicht, dass Google diese Relay-Seite anzeigt. Ich überprüfe also die IP-Adresse und ob sie startet mit 66.249 mache ich dann einfach eine umleitung.

Klicken Sie auf meinen Namen, wenn Sie Wert auf Privatsphäre legen und eine Kopie wünschen.

ein weiterer Trick, den ich verwende, ist ein Javascript, das eine Seite aufruft, um ein Flag in einer Sitzung zu setzen, da die meisten (NICHT ALLE) Web-Bots das Javascript nicht ausführen. Sie wissen also, dass es ein Browser ist, bei dem Javascript deaktiviert ist oder ein mehr als ähnliches Verhalten ein Bot.

0
Flash

Sie können die Metaroboter auch auf diese Weise hinzufügen:

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

Eine weitere zusätzliche Ebene ist das Ändern von .htaccess, aber Sie müssen es gründlich prüfen.

0
user1586214

Gibt es eine Möglichkeit, Google von der Indexierung einer Website abzuhalten?

Um das Crawlen von Google zu verhindern, fügen Sie einfach das meta-Tag zu jeder head-Seite hinzu:

<meta name="googlebot" content="noindex, nofollow">
0
Josh Habdas

Beachten Sie, dass der Crawler von Bing für Bing trotz seines Anspruchs, robots.txt zu gehorchen, dies nicht immer tut.

Unsere Server-Statistiken zeigen, dass es eine Reihe von IPs gibt, die Crawler ausführen, die nicht robots.txt gehorchen, sowie einige, die dies tun.

0
Hades