webentwicklung-frage-antwort-db.com.de

Große Diskrepanz bei der Anzahl bekannter Seiten in Google Search Console und ScreamingFrog

Bei einem technischen SEO-Audit habe ich sowohl die Google Search Console als auch das ScreamingFrog-Crawling verwendet, um die Statusfehler zu überprüfen. Es gibt jedoch große Diskrepanzen bei der Anzahl der Seiten, die Google kennt, und denjenigen, die ScreamingFrog findet (ohne Einschränkungen oder Änderungen der Einstellungen von) die Spinne).

Ich habe 350 Gesamtseiten in ScreamingFrog und 7,2 KB Seiten in GSC. Das Gleiche gilt für die verschiedenen Statusfehler, und es besteht ein Konflikt, bei welchem ​​Tool was gefunden wird. Zum Beispiel findet GSC 16 404, aber es handelt sich um völlig andere Seiten als die von ScreamigFrog gefundenen 404 (nur eine überlappend).

Hast du dasselbe erlebt?

1
dtodorova

Nach mehr als zwei Stunden mit den ScreamingFrog Spider-Einstellungen konnte ich das Beste tun, indem ich die gecrawlten Seiten auf 700 erhöhte (von 7,5 KB auf der Website). Ich habe alle bekannten Seiten aus GSC extrahiert und im Listenmodus in ScreamingFrog zum Crawlen hochgeladen.

Der Nachteil war, dass mir GSC für einige Seitentypen nur die ersten 1000 Seiten gab, aber ansonsten funktionierte es - ich habe es geschafft, 6,5 KB von 7,5 KB zu crawlen, was machbar ist.

Vielen Dank an alle, die mitgeholfen haben, besonders an Dan Sharp. Sehr geschätzt.

0
dtodorova

Der Grund, warum GSC und SF wahrscheinlich unterschiedliche 404-URLs finden, liegt wahrscheinlich am Ausfall der Serverantwort. Wenn einer der Webcrawler versucht, eine Seite zu laden, diese jedoch nicht reagiert, wird ein 404 gemeldet. Dies kann vorkommen, wenn die Bandbreite oder der Server Ihres Webhosts überlastet ist.

Um den Status Ihrer Webseiten zu überprüfen, können Sie einen Header-Status-Checker verwenden, z. B .: http://tools.seobook.com/server-header-checker/

Solange die Seite von Ihrem Server geladen wird, wird der wahre Header-Status angezeigt.

2
Michael d

Ich habe ein FAQ zusammengestellt, um zu ermitteln, warum Crawls und GSC (oder Google-Site: Indexabfragen) möglicherweise nicht übereinstimmen.

https://www.screamingfrog.co.uk/seo-spider/faq/#why-does-the-number-of-urls-crawled-not-atch-the-number-of-results-indexed -in-google-oder-fehler-gemeldet-in-google-webmaster-tools

Erwähnenswert ist auch, dass der obige Kommentar veraltet ist. Der SEO Spider kann Seiten (und ausgeführtes JavaScript) auf dieselbe Weise rendern wie Suchmaschinen.

Ich hoffe, das hilft!

Übrigens: Ich glaube, ich möchte offenlegen, dass ich der Gründer von Screaming Frog bin. Dies ist eine FAQ, die direkte Fragen beantwortet und nicht als Werbung gedacht ist.

2
Sharp

Zum Beispiel findet GSC 16 404, aber es handelt sich um völlig andere Seiten als die von ScreamigFrog gefundenen 404 (nur eine überlappend).

Die 404-Werte, die von diesen verschiedenen Tools gemeldet werden, unterscheiden sich immer, da diese Tools unterschiedliche URLs ermitteln.

Screaming Frog (SF) erkennt Ihre Website anhand einer bestimmten Stamm-URL. Die gemeldeten 404s bestehen also nur aus internen Links, die auf nicht vorhandene Seiten verweisen.

Während GSC auch 404s meldet, bei denen ein eingehender Link von einer externen/Drittanbieter-Site auf eine nicht vorhandene Seite Ihrer Site verweist. Das könnte riesig sein.

Wenn Sie eine Seite auf Ihrer Site (zusammen mit allen internen Links zu dieser Seite) entfernen, würden Sie nicht erwarten, dass SF dies jemals als 404 meldet (da es keine Links dazu gibt). Wenn GSC diese Seite jedoch zuvor gecrawlt hat, wird nun erwartet, dass sie als 404 gemeldet wird (unabhängig davon, ob interne Links vorhanden sind) - was korrekt ist.

Sie können erwarten, dass GSC die Obermenge von 404-Werten enthält (einschließlich aller von SF gefundenen). Dies hängt jedoch davon ab, wie lange und wie gründlich Google Ihre interne Linkstruktur gecrawlt hat.

2
MrWhite