Konfiguration

Inhaltsverzeichnis

SEO Spider Konfiguration

Hier findest du die Konfigurations-Einstellungen beim SEO Spider von Screaming Frog. Der SEO Spider gehört nicht ohne Grund zu den besten und beliebsten Tools für technische SEOs und Websitebetreibern. Aufgrund seiner zahlreichen Einstellungsmöglichkeiten, sind eine große Anzahl von verschiedenen Analysen möglich.

Die vom Umfang reduzierte kostenfreie Version, kann für sehr kleine Seiten reichen. Für den professionellen Bereich benötigt man die kostenpflichtige Version für aktuell 245 EUR für eine Jahres-Lizenz.

Du kannst die Lizenz für das Tool hier auf der offiziellen Website kaufen.

Spider-Crawl-Registerkarte

Im Menü unter Konfiguration > Spider > Crawl findest du die einzelnen Einstellmöglichkeiten


Bilder

Konfiguration > Spider > Crawl > Bilder

Du kannst Bilder separat crawlen und speichern.

Wenn du die Option „Speichern“ deaktivierst, werden Bilddateien innerhalb eines img-Elements nicht gespeichert und erscheinen nicht im SEO Spider.

<img src="/bild.jpg">

Wenn du die Option „Crawlen“ deaktivierst, werden Bilddateien innerhalb eines img-Elements nicht gecrawlt, um ihren Antwortcode zu überprüfen.

Bilder, die über andere Mittel verlinkt sind, werden weiterhin gespeichert und gecrawlt, beispielsweise über einen Anker-Tag.

Für Bilder, die in Anker-Tags verlinkt sind, können die Optionen „Ausschließen“ oder „Benutzerdefinierte robots.txt“ verwendet werden.

 

Medien

Konfiguration > Spider > Crawl > Medien

Du kannst Medien-Dateien separat speichern und crawlen. Wenn du beide Optionen aktivierst, werden Dateien in <video>- und <audio>-Elementen gecrawlt.

Beispiel:

<video width="420" height="340" controls>

<source src="/seo-movie.mp4" type="video/mp4">

</video>

Wenn du die Konfiguration „Speichern“ deaktivierst, werden Dateien in Video- und Audioelementen nicht gespeichert und erscheinen nicht in SEO Spider.

Wenn du die Konfiguration „Crawl“ deaktivierst, werden Video- und Audioelemente nicht gecrawlt, um ihren Antwortcode zu überprüfen.

 

CSS

Konfiguration > Spider > Crawl > CSS

Hiermit können Sie CSS-Dateien separat speichern und crawlen.

Wenn Sie die Option „Speichern“ deaktivieren, werden CSS-Dateien nicht gespeichert und erscheinen nicht im SEO Spider.

<link rel="stylesheet" href="/themes/styles.css">

Wenn Sie die Option „Crawlen“ deaktivieren, werden Stylesheets nicht gecrawlt, um ihren Antwortcode zu überprüfen.

 

JavaScript

Konfiguration > Spider > Crawl > JavaScript

Du kannst JavaScript-Dateien separat speichern und crawlen.

Wenn du die Option „Speichern“ deaktivierst, werden JavaScript-Dateien nicht gespeichert und erscheinen nicht im SEO Spider.

<script type="text/javascript" src="/wp-includes/js/seo.js">

Wenn du die Option „Crawl“ deaktivierst, werden JavaScript-Dateien nicht gecrawlt, um ihren Antwortcode zu überprüfen.

 

SWF

Konfiguration > Spider > Crawl > SWF

Du kannst SWF-Dateien (Adobe Flash-Dateiformat) separat speichern und crawlen.

Wenn du die Konfiguration „Speichern“ deaktivierst, werden SWF-Dateien nicht gespeichert und erscheinen nicht im SEO Spider.

<embed type="application/x-shockwave-flash" src="/flash.swf">

Wenn du die Konfiguration „Crawlen“ deaktivierst, werden SWF-Dateien nicht gecrawlt, um ihren Antwortcode zu überprüfen.

 

Interne Hyperlinks

Konfiguration > Spider > Crawlen > Interne Hyperlinks

Standardmäßig crawlt und speichert der SEO Spider interne Hyperlinks in einem Crawl.

Als intern gelten URLs, die sich auf derselben Subdomain befinden, wie sie im SEO Spider eingegeben wurde. Hyperlinks sind URLs, die in HTML-Anker-Tags enthalten sind.

Wenn du „Crawlen“ deaktivierst, werden URLs, die in Anker-Tags enthalten sind und sich auf derselben Subdomain wie die Start-URL befinden, nicht verfolgt und gecrawlt.

<a href="/seo-beratung/">

Das Deaktivieren von „Speichern“ und „Crawlen“ kann im Listenmodus nützlich sein, wenn die Crawltiefe entfernt wird. Dadurch kann der SEO Spider die hochgeladenen URLs und alle anderen ausgewählten Ressourcen- oder Seitenlinks crawlen, jedoch keine internen Links mehr.

Du kannst beispielsweise eine Liste von URLs im Listenmodus bereitstellen und nur diese sowie die hreflang-Links crawlen. Oder du kannst eine Liste von Desktop-URLs bereitstellen und nur deren AMP-Versionen überprüfen. Du kannst eine Liste von URLs hochladen und nur die darauf enthaltenen Bilder oder externen Links usw. überprüfen.

 

Externe Links

Konfiguration > Spider > Crawling > Externe Links

Sie können externe Links separat speichern und crawlen. Externe Links sind URLs, die beim Crawling gefunden werden und von einer anderen Domain (oder Subdomain mit Standardkonfiguration) stammen als der, von der aus das Crawling gestartet wurde.

Wenn Sie die Option „Speichern“ deaktivieren, werden externe Links nicht gespeichert und erscheinen nicht im SEO Spider.

<a href="https://www.example.com/">

Wenn Sie die Option „Crawlen“ deaktivieren, werden externe Links nicht gecrawlt, um ihren Antwortcode zu überprüfen.

Bitte beachten Sie, dass dies Bilder, CSS, JS, hreflang-Attribute und Canonicals (sofern diese extern sind) umfassen kann.

Canonicals

Konfiguration > Spider > Crawl > Canonicals

Standardmäßig speichert und crawlt der SEO Spider Canonicals (in kanonischen Link-Elementen oder HTTP-Headern) und verwendet die darin enthaltenen Links für die Erkennung.

Wenn Sie die Konfiguration „Speichern“ deaktivieren, werden Canonicals nicht gespeichert und erscheinen nicht im SEO Spider.

<link rel="canonical" href="https://www.screamingfrog.co.uk/">

Wenn Sie die Option „Crawlen“ deaktivieren, werden die in den kanonischen URLs gefundenen URLs nicht gecrawlt. Wenn nur „Speichern“ ausgewählt ist, werden sie weiterhin in der Benutzeroberfläche angezeigt, aber nicht für die Erkennung verwendet.

Bitte lesen Sie unseren Leitfaden zum Thema Wie man kanonische URLs überprüft.

Paginierung (rel next/prev)

Konfiguration > Spider > Crawlen > Paginierung (Rel Next/Prev)

Standardmäßig crawlt SEO Spider keine rel=„next“- und rel=„prev“-Attribute und verwendet die darin enthaltenen Links nicht für die Erkennung.

Wenn Sie die Konfiguration „Speichern“ deaktivieren, werden die Attribute rel=„next“ und rel=„prev“ nicht gespeichert und erscheinen nicht in SEO Spider.

<link rel="prev" href="https://www.screamingfrog.co.uk/">

<link rel="next" href="https://www.screamingfrog.co.uk/page3/">

Wenn Sie die Konfiguration „Crawl“ deaktivieren, werden die in rel=“next“ und rel=“prev“ gefundenen URLs nicht gecrawlt.

Bitte lesen Sie unseren Leitfaden zum Thema Wie man rel=“next“ und rel=“prev“ Paginierungsattribute überprüft.

Hreflang

Konfiguration > Spider > Crawl > Hreflang

Standardmäßig extrahiert der SEO Spider hreflang-Attribute und zeigt hreflang-Sprach- und Regionscodes sowie die URL im hreflang-Tab an.

Die in den hreflang-Attributen gefundenen URLs werden jedoch nicht gecrawlt und für die Erkennung verwendet, es sei denn, „Crawl hreflang“ ist aktiviert. Wenn diese Einstellung aktiviert ist, werden hreflang-URLs aus einer im Listenmodus hochgeladenen XML-Sitemap extrahiert.

Wenn Sie die Konfiguration „Speichern” deaktivieren, werden hreflang-Attribute nicht gespeichert und erscheinen nicht im SEO Spider.

<link rel="alternate" hreflang="en-gb" href="https://www.screamingfrog.co.uk/technical-seo/" />

<link rel="alternate" hreflang="en-us" href="https://www.screamingfrog.com/us/technical-seo/" />

Wenn Sie die Option „Crawl“ deaktivieren, werden die in hreflang gefundenen URLs nicht gecrawlt.

Bitte lesen Sie unseren Leitfaden zum Thema Wie man Hreflang überprüft.

AMP

Konfiguration > Spider > Crawlen > AMP

Standardmäßig extrahiert SEO Spider keine Details von AMP-URLs, die in rel=“amphtml”-Link-Tags enthalten sind und anschließend unter der AMP-Registerkarte angezeigt werden.

Wenn Sie die Konfiguration „Speichern“ deaktivieren, werden URLs, die in rel=“amphtml”-Link-Tags enthalten sind, nicht gespeichert und erscheinen nicht in SEO Spider.

<link rel="amphtml" href="https://www.screamingfrog.co.uk/amp/seo-spider/">

Wenn Sie die Konfiguration „Crawlen“ deaktivieren, werden die in rel=“amphtml“-Link-Tags enthaltenen URLs nicht gecrawlt.

Wir empfehlen, bei der Prüfung von AMP beide Konfigurationsoptionen zu aktivieren. Bitte lesen Sie unseren Leitfaden zum Thema „So prüfen und validieren Sie Accelerated Mobile Pages (AMP)“.

Meta-Refresh

Konfiguration > Spider > Crawl > Meta-Refresh

Standardmäßig speichert und crawlt der SEO Spider URLs, die in einem Meta-Refresh enthalten sind.

<meta http-equiv=„refresh“ content="4; URL=‚www.screamingfrog.co.uk/meta-refresh-url‘"/>

Wenn Sie die Konfiguration „Speichern“ deaktivieren, werden die Meta-Refresh-Details nicht gespeichert und erscheinen nicht im SEO Spider.

Wenn Sie die Option „Crawlen“ deaktivieren, werden die in einem Meta-Refresh gefundenen URLs nicht gecrawlt.

iframes

Konfiguration > Spider > Crawlen > iframes

Standardmäßig speichert und crawlt der SEO Spider URLs, die in iframes enthalten sind.

<iframe src="https://www.screamingfrog.co.uk/iframe/"/>

Wenn Sie die Konfiguration „Speichern“ deaktivieren, werden die iframe-Details nicht gespeichert und erscheinen nicht im SEO Spider.

Wenn Sie die Konfiguration „Crawlen“ deaktivieren, werden die in einem iframe gefundenen URLs nicht gecrawlt.

 

Mobile Alternative

Konfiguration > Spider > Crawlen > Mobile Alternative

Standardmäßig crawlt oder speichert der SEO Spider keine URLs, die in rel=“alternate”-Link-Elementen enthalten sind.

<link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/">

Wenn Sie die Option „Speichern” deaktivieren, werden die Details der mobilen Alternativen nicht gespeichert und erscheinen nicht in der SEO-Spider.

Wenn Sie die Option „Crawlen” deaktivieren, werden die URLs, die in den Link-Elementen der mobilen Alternativen gefunden werden, nicht gecrawlt.

Links außerhalb des Startordners überprüfen

Konfiguration > Spider > Crawlen > Links außerhalb des Startordners überprüfen

Deaktivieren Sie dieses Kontrollkästchen, wenn Sie keine Links außerhalb des Startunterordners crawlen möchten. Mit dieser Option können Sie innerhalb eines Startunterordners crawlen, aber dennoch Links crawlen, die zu URLs außerhalb des Startordners führen.

Außerhalb des Startordners crawlen

Konfiguration > Spider > Crawlen > Außerhalb des Startordners crawlen

Standardmäßig crawlt der SEO Spider nur den Unterordner (oder das Unterverzeichnis), von dem aus Sie crawlen. Wenn Sie jedoch einen Crawl aus einem bestimmten Unterordner starten, aber die gesamte Website crawlen möchten, verwenden Sie diese Option.

Alle Subdomains crawlen

Konfiguration > Spider > Crawlen > Alle Subdomains crawlen

Standardmäßig crawlt der SEO Spider nur die Subdomain, von der aus Sie crawlen, und behandelt alle anderen Subdomains als externe Websites. Diese werden nur auf einer einzigen Ebene gecrawlt und unter der Registerkarte „Extern” angezeigt.

Wenn beispielsweise https://www.screamingfrog.co.uk als Start-URL eingegeben wird, werden andere Subdomains, die beim Crawlen entdeckt werden, wie https://cdn.screamingfrog.co.uk oder https://images.screamingfrog.co.uk, als „extern” behandelt, ebenso wie andere Domains wie www.google.co.uk usw.

Um alle Subdomains einer Root-Domain (wie https://cdn.screamingfrog.co.uk oder https://images.screamingfrog.co.uk) zu crawlen, sollte diese Konfiguration aktiviert werden.

Mit der Konfigurationsoption „CDNs“ können externe URLs als interne URLs behandelt werden.

Bitte beachten Sie: Wenn ein Crawl von der Root aus gestartet wird und zu Beginn keine Subdomain angegeben ist (z. B. wenn der Crawl von https://screamingfrog.co.uk aus gestartet wird), werden standardmäßig alle Subdomains gecrawlt. Dies ähnelt dem Verhalten einer site:Abfrage in der Google-Suche.

Interne oder externe „nofollow“ folgen

Konfiguration > Spider > Crawlen > Interne/externe „Nofollow“ folgen

Standardmäßig crawlt der SEO Spider keine internen oder externen Links mit den Attributen „nofollow“, „sponsored“ und „ugc“ oder Links von Seiten mit dem Meta-Nofollow-Tag und Nofollow im X-Robots-Tag-HTTP-Header.

Wenn Sie möchten, dass der SEO Spider diese crawlt, aktivieren Sie einfach diese Konfigurationsoption.

Verknüpfte XML-Sitemaps crawlen

Konfiguration > Spider > Crawlen > Verknüpfte XML-Sitemaps crawlen

Der SEO Spider crawlt XML-Sitemaps standardmäßig nicht (im regulären „Spider”-Modus). Um XML-Sitemaps zu crawlen und die Filter auf der Sitemap-Registerkarte zu füllen, sollte diese Konfiguration aktiviert sein.

Wenn die Konfiguration „Verknüpfte XML-Sitemaps crawlen“ aktiviert ist, können Sie entweder „XML-Sitemaps über robots.txt automatisch erkennen“ auswählen oder eine Liste von XML-Sitemaps angeben, indem Sie „Diese Sitemaps crawlen“ aktivieren und sie in das angezeigte Feld einfügen.

Bitte beachten Sie: Nach Abschluss des Crawls muss eine „Crawl-Analyse“ durchgeführt werden, um die Sitemap-Filter zu füllen. Bitte lesen Sie unseren Leitfaden „So überprüfen Sie XML-Sitemaps“.

Registerkarte „Spider-Extraktion“

Seitendetails

Konfiguration > Spider > Extraktion > Seitendetails

Die folgenden Elemente auf der Seite können so konfiguriert werden, dass sie im SEO Spider gespeichert werden.

  • Seitentitel
  • Meta-Beschreibungen
  • Meta-Keywords
  • H1
  • H2
  • Indizierbarkeit (und Indizierbarkeitsstatus)
  • Wortanzahl
  • Lesbarkeit
  • Verhältnis von Text zu Code
  • Hash-Wert
  • Seitengröße
  • Formulare
  • Barrierefreiheit – Für diese Funktion ist auch die JavaScript-Rendering über „Konfiguration > Spider > Rendering“ erforderlich. Dadurch wird der Open-Source-AXE-Barrierefreiheitsregelsatz für die automatisierte Barrierefreiheitsvalidierung aktiviert, der auf der Registerkarte „Barrierefreiheit“ und in den Filtern angezeigt wird.

Wenn Sie eine der oben genannten Optionen für die Extraktion deaktivieren, werden diese nicht mehr in der SEO Spider-Oberfläche in den entsprechenden Registerkarten, Spalten oder Filtern angezeigt.

Einige Filter und Berichte funktionieren natürlich nicht mehr, wenn sie deaktiviert sind. Wenn beispielsweise der „Hash-Wert“ deaktiviert ist, wird der Filter „URL > Duplikat“ nicht mehr ausgefüllt, da dieser den Hash-Wert als algorithmische Überprüfung für exakte Duplikate von URLs verwendet.

Durch das Nicht-Speichern der Daten jedes Elements wird eine geringe Menge an Speicherplatz eingespart.

URL-Details

Konfiguration > Spider > Extraktion > URL-Details

Die folgenden URL-Details können so konfiguriert werden, dass sie im SEO Spider gespeichert werden.

  • Antwortzeit – Zeit in Sekunden zum Herunterladen der URL. Weitere Informationen finden Sie in unseren FAQ.
  • Letzte Änderung – Wird aus dem Header „Letzte Änderung“ in der HTTP-Antwort des Servers gelesen. Wenn der Server diesen Wert nicht bereitstellt, bleibt das Feld leer.
  • HTTP-Header – Hier werden die vollständigen HTTP-Anfrage- und Antwort-Header gespeichert, die auf der unteren Registerkarte „HTTP-Header“ angezeigt werden. Die vollständigen Antwort-Header sind auch auf der Registerkarte „Intern“ enthalten, damit sie zusammen mit den Crawling-Daten abgefragt werden können. Sie können über „Massexport > Web > Alle HTTP-Header” gesammelt exportiert werden, und ein aggregierter Bericht kann über „Berichte > HTTP-Header > HTTP-Header-Zusammenfassung” exportiert werden.
  • Cookies – Hier werden die während eines Crawls gefundenen Cookies im unteren Reiter „Cookies” gespeichert. Der JavaScript-Rendering-Modus muss verwendet werden, um eine genaue Ansicht der Cookies zu erhalten, die mit JavaScript oder Pixel-Bild-Tags auf die Seite geladen werden. Cookies können über „Massexport > Web > Alle Cookies“ gesammelt exportiert werden, und ein aggregierter Bericht kann über „Berichte > Cookies > Cookie-Zusammenfassung“ exportiert werden. Bitte beachten Sie, dass bei der Speicherung von Cookies die automatische Ausschließung von Google Analytics-Tracking-Tags durch SEO Spider deaktiviert wird, um eine genaue Ansicht aller ausgegebenen Cookies zu ermöglichen. Dies wirkt sich auf Ihre Analyseberichte aus, es sei denn, Sie entscheiden sich dafür, Tracking-Skripte mithilfe der Konfiguration „Ausschließen“ („Konfiguration > Ausschließen“) vom Ausführen auszuschließen oder den User-Agent „Screaming Frog SEO Spider“ ähnlich wie beim Ausschließen von PSI herauszufiltern.

Wenn Sie eine der oben genannten Optionen für die Extraktion deaktivieren, werden sie nicht in den entsprechenden Registerkarten und Spalten der SEO Spider-Oberfläche angezeigt.

Durch das Nicht-Speichern der Daten jedes Elements wird eine geringe Menge an Speicherplatz eingespart.

Richtlinien

Konfiguration > Spider > Extraktion > Richtlinien

Die folgenden Richtlinien können so konfiguriert werden, dass sie im SEO Spider gespeichert werden.

  • Meta-Robots
  • X-Robots-Tag

Wenn Sie eine der oben genannten Optionen für die Extraktion deaktivieren, werden diese nicht in den entsprechenden Registerkarten, Spalten oder Filtern der SEO Spider-Oberfläche angezeigt.

Durch das Nicht-Speichern der Daten wird eine geringe Menge an Speicherplatz eingespart.

Strukturierte Daten

Konfiguration > Spider > Extraktion > Strukturierte Daten

Strukturierte Daten können vollständig konfiguriert und im SEO Spider gespeichert werden. Bitte lesen Sie unsere ausführliche Anleitung zum Testen und Validieren strukturierter Daten oder lesen Sie weiter unten, um mehr über die Konfigurationsoptionen zu erfahren.

Standardmäßig extrahiert und meldet SEO Spider keine strukturierten Daten. Die folgenden Konfigurationsoptionen müssen aktiviert werden, damit verschiedene strukturierte Datenformate in der Registerkarte „Strukturierte Daten” angezeigt werden.

  • JSON-LD – Mit dieser Konfigurationsoption kann SEO Spider strukturierte JSON-LD-Daten extrahieren, die dann in der Registerkarte „Strukturierte Daten” angezeigt werden.
  • Mikrodaten – Diese Konfigurationsoption ermöglicht es dem SEO Spider, strukturierte Mikrodaten zu extrahieren und unter der Registerkarte „Strukturierte Daten“ anzuzeigen.
  • RDFa – Diese Konfigurationsoption ermöglicht es dem SEO Spider, strukturierte RDFa-Daten zu extrahieren und unter der Registerkarte „Strukturierte Daten“ anzuzeigen.

Sie können auch auswählen, ob strukturierte Daten anhand von Schema.org und den Rich-Result-Funktionen von Google validiert werden sollen.

Schema.org-Validierung

Diese Konfigurationsoption ist nur verfügbar, wenn eines oder mehrere der strukturierten Datenformate für die Extraktion aktiviert sind.

Wenn diese Option aktiviert ist, validiert der SEO Spider strukturierte Daten anhand der Schema.org-Spezifikationen. Er überprüft, ob die Typen und Eigenschaften vorhanden sind, und zeigt bei Problemen „Fehler“ an.

Beispielsweise wird überprüft, ob http://schema.org/author für eine Eigenschaft oder http://schema.org/Book als Typ vorhanden ist. Die Validierung erfolgt anhand des aktuellen und ausstehenden Schema-Vokabulars in ihrer neuesten Version. Auf der Registerkarte „Strukturierte Daten“ und im Filter werden Details zu Validierungsfehlern angezeigt.

Zusätzlich überprüft diese Validierung, ob veraltete Schemata von Data-Vocabulary.org verwendet werden.

Validierung der Google Rich Result-Funktion

Diese Konfigurationsoption ist nur verfügbar, wenn eines oder mehrere der strukturierten Datenformate für die Extraktion aktiviert sind.

Wenn diese Option aktiviert ist, validiert SEO Spider strukturierte Daten anhand der Anforderungen der Google Rich Result-Funktion gemäß der entsprechenden Dokumentation. Validierungsprobleme für erforderliche Eigenschaften werden als Fehler klassifiziert, während Probleme im Zusammenhang mit empfohlenen Eigenschaften als Warnungen klassifiziert werden, genau wie beim Structured Data Testing Tool von Google.

Auf der Registerkarte „Strukturierte Daten“ und im Filter werden Details zu Fehlern und Warnungen bei der Validierung der Google-Funktionen angezeigt.

Die vollständige Liste der Google Rich Results-Funktionen, die der SEO Spider validieren kann, finden Sie in unserem Leitfaden zum Testen und Validieren strukturierter Daten.

Groß-/Kleinschreibung

Bei den Typen und Eigenschaften von Schema.org wird zwischen Groß- und Kleinschreibung unterschieden. Google und andere Suchmaschinen führen die Validierung jedoch unabhängig von der Groß-/Kleinschreibung durch. Wir empfehlen daher in der Regel, diese Option zu deaktivieren.

HTML

Konfiguration > Spider > Extraktion > HTML speichern / Gerendertes HTML

HTML speichern

Hiermit können Sie das statische HTML jeder von SEO Spider gecrawlten URL auf der Festplatte speichern und im unteren Fensterbereich „Quelltext anzeigen“ (auf der linken Seite unter „Original-HTML“) anzeigen. Sie können über „Massexport > Web > Alle Seitenquellen“ gesammelt exportiert werden.

Auf diese Weise können Sie den ursprünglichen HTML-Code anzeigen, bevor JavaScript zum Einsatz kommt, ähnlich wie beim Rechtsklick auf „Quelltext anzeigen“ in einem Browser. Dies ist ideal für die Fehlersuche oder zum Vergleich mit dem gerenderten HTML-Code.

Gerenderten HTML-Code speichern

Hiermit können Sie den gerenderten HTML-Code jeder von SEO Spider gecrawlten URL auf der Festplatte speichern und im unteren Fensterbereich „Quelltext anzeigen“ (auf der rechten Seite unter „Gerenderter HTML-Code“) anzeigen. Sie können über „Massexport > Web > Alle Seitenquellen“ gesammelt exportiert werden.

Auf diese Weise können Sie das DOM wie „Element untersuchen“ (in Chrome in DevTools) anzeigen, nachdem JavaScript verarbeitet wurde.

Bitte beachten Sie, dass diese Option nur funktioniert, wenn JavaScript-Rendering aktiviert ist.

PDF

Konfiguration > Spider > Extraktion > PDF

PDF speichern

Auf diese Weise können Sie PDFs während eines Crawls auf der Festplatte speichern. Sie können über „Massexport > Web > Alle PDF-Dokumente“ gesammelt exportiert werden, oder nur der Inhalt kann über „Massexport > Web > Alle PDF-Inhalte“ als .txt-Dateien exportiert werden.

Wenn PDFs gespeichert sind, kann das PDF in der Registerkarte „Gerenderte Seite“ angezeigt werden, und der Textinhalt des PDFs kann in der Registerkarte „Quelle anzeigen“ und dem Filter „Sichtbarer Inhalt“ angezeigt werden.

PDF-Eigenschaften extrahieren

Standardmäßig werden der PDF-Titel und die Schlüsselwörter extrahiert. Diese werden in den Spalten „Titel“ und „Meta-Schlüsselwörter“ auf der Registerkarte „Intern“ des SEO Spider angezeigt.

Google konvertiert die PDF-Datei in HTML und verwendet den PDF-Titel als Titelelement und die Schlüsselwörter als Meta-Schlüsselwörter, obwohl es Meta-Schlüsselwörter nicht für die Bewertung verwendet.

Wenn Sie „PDF-Eigenschaften extrahieren“ aktivieren, werden auch die folgenden zusätzlichen Eigenschaften extrahiert.

  • Betreff
  • Autor
  • Erstellungsdatum
  • Änderungsdatum
  • Seitenanzahl
  • Wortanzahl

Diese neuen Spalten werden auf der Registerkarte „Intern“ angezeigt.

Linktext extrahieren

Wenn diese Einstellung aktiviert ist, versucht der SEO Spider, den mit Links in PDFs verbundenen Text zu finden. Wenn diese Einstellung deaktiviert ist, bleiben die Spalten leer.

Der Ankertext kann in den unteren Registerkarten „Outlinks“ (und „Inlinks“) angezeigt werden, die mit Links verbunden sind.

Je nach Format der PDF-Datei kann dies ungenau, langsam und speicherintensiv sein.

Registerkarte „Spider-Limits“

Gesamtzahl der Crawls begrenzen

Konfiguration > Spider > Limits > Gesamtzahl der Crawls begrenzen

Die kostenlose Version der Software hat ein Crawl-Limit von 500 URLs. Wenn Sie eine lizenzierte Version des Tools haben, wird dieses Limit durch 5 Millionen URLs ersetzt, aber Sie können hier eine beliebige Zahl eingeben, um die Anzahl der Seiten, die Sie crawlen möchten, besser zu kontrollieren.

Crawl-Tiefe begrenzen

Konfiguration > Spider > Begrenzungen > Crawl-Tiefe begrenzen

Sie können festlegen, wie tief der SEO Spider eine Website crawlt (in Bezug auf Links, die von Ihrem gewählten Startpunkt wegführen).

URLs pro Crawl-Tiefe begrenzen

Konfiguration > Spider > Begrenzungen > URLs pro Crawl-Tiefe begrenzen

Steuern Sie die Anzahl der URLs, die bei jeder Crawl-Tiefe gecrawlt werden.

Maximale Ordnertiefe begrenzen

Konfiguration > Spider > Begrenzungen > Maximale Ordnertiefe begrenzen

Steuern Sie die Anzahl der Ordner (oder Unterverzeichnisse), die der SEO Spider crawlt.

Der Spider klassifiziert Ordner als Teil des URL-Pfads nach der Domain, die mit einem Schrägstrich enden:

  • https://www.screamingfrog.co.uk/ – Ordnertiefe 0
  • https://www.screamingfrog.co.uk/seo-spider/ – Ordnertiefe 1
  • https://www.screamingfrog.co.uk/seo-spider/#download – Ordnertiefe 1
  • https://www.screamingfrog.co.uk/seo-spider/fake-page.html – Ordnertiefe 1
  • https://www.screamingfrog.co.uk/seo-spider/user-guide/ – Ordnertiefe 2

 

Anzahl der Abfragezeichenfolgen begrenzen

Konfiguration > Spider > Begrenzungen > Anzahl der Abfragezeichenfolgen begrenzen

Schließt alle URLs, die mehr als die konfigurierte Anzahl von Abfragezeichenfolgen enthalten, vom Crawling aus. Wenn beispielsweise „2“ eingestellt ist, wird example.com/?query1&query2&query3 nicht gecrawlt.

Gesamtzahl der Crawls pro Subdomain begrenzen

Konfiguration > Spider > Begrenzungen > Gesamtzahl der Crawls pro Subdomain begrenzen

Steuert die Anzahl der URLs, die für jede Subdomain gecrawlt werden.

Wenn dieser Wert beispielsweise auf „100“ gesetzt ist und zwei Subdomains uk.example.com und us.example.com gefunden werden, werden jeweils 100 URLs gecrawlt.

Maximale Anzahl der zu verfolgenden Weiterleitungen

Konfiguration > Spider > Begrenzungen > Maximale Anzahl der zu verfolgenden Weiterleitungen

Mit dieser Option können Sie die Anzahl der Weiterleitungen steuern, denen der SEO Spider folgt.

Maximale URL-Länge zum Crawlen begrenzen

Konfiguration > Spider > Limits > Maximale URL-Länge begrenzen

Steuern Sie die Länge der URLs, die der SEO Spider crawlen soll.

Die standardmäßige maximale URL-Länge beträgt 10.000.

Maximale Links pro URL zum Crawlen

Konfiguration > Spider > Limits > Maximale Links pro URL zum Crawlen

Steuern Sie die Anzahl der Hyperlinks, die auf jeder Seite gecrawlt werden.

Der Standardwert beträgt 10.000 und kann erhöht werden. Wenn eine Seite eine hohe Anzahl von Links enthält, kann die Verarbeitung sehr lange dauern.

Maximale Seitengröße (KB) zum Crawlen

Konfiguration > Spider > Limits > Maximale Seitengröße (KB) zum Crawlen

Steuern Sie die Größe der gecrawlten HTML-Seiten.

Der Standardwert beträgt 50 MB und kann erhöht werden. Wenn eine Seite extrem groß ist, kann die Verarbeitung sehr lange dauern.

Begrenzung nach URL-Pfad

Konfiguration > Spider > Begrenzungen > Begrenzung nach URL-Pfad

Steuern Sie die Anzahl der URLs, die nach URL-Pfad gecrawlt werden. Geben Sie eine Liste mit URL-Mustern und die maximale Anzahl der zu crawlenden Seiten für jedes Muster ein.

 

Registerkarte „Spider-Rendering“

Rendering

Konfiguration > Spider > Rendering

Mit dieser Konfiguration können Sie den Rendering-Modus für das Crawling festlegen:

  • Nur Text: Der SEO Spider crawlt und extrahiert nur aus dem rohen HTML-Code. Er ignoriert das AJAX-Crawling-Schema und clientseitiges JavaScript.
  • Altes AJAX-Crawling-Schema: Der SEO Spider befolgt das längst veraltete AJAX-Crawling-Schema von Google, sofern er es entdeckt. Ist dies nicht vorhanden, crawlt er den rohen HTML-Code wie im Standardmodus „Nur Text“.
  • JavaScript: Der SEO Spider führt clientseitiges JavaScript aus, indem er die Seite in seinem Headless-Chrome-Browser rendert, crawlt und aus dem gerenderten HTML-Code Inhalte und Links extrahiert. Wie Google entdeckt er auch alle Links im rohen HTML-Code.

Bitte beachten Sie: Um Googlebot so genau wie möglich zu emulieren, verwendet unsere Rendering-Engine das Chromium-Projekt. Die folgenden Betriebssysteme werden unterstützt:

  • Windows 10
  • Windows 11
  • Windows Server 2016
  • Windows Server 2022
  • Ubuntu 14.04+ (nur 64-Bit)
  • macOS 11+

Bitte beachten Sie: Wenn Sie ein unterstütztes Betriebssystem verwenden und das Rendering dennoch nicht nutzen können, läuft Ihr System möglicherweise im Kompatibilitätsmodus.

Um dies zu überprüfen, gehen Sie zu Ihrem Installationsverzeichnis (C:\Program Files (x86)\Screaming Frog SEO Spider\), klicken Sie mit der rechten Maustaste auf ScreamingFrogSEOSpider.exe, wählen Sie „Eigenschaften“, dann die Registerkarte „Kompatibilität“ und überprüfen Sie, ob unter „Kompatibilitätsmodus“ nichts angekreuzt ist.

Screenshots der gerenderten Seite

Konfiguration > Spider > Rendering > JavaScript > Screenshots der gerenderten Seite

Diese Konfiguration ist standardmäßig aktiviert, wenn Sie „JavaScript-Rendering“ auswählen, und bedeutet, dass Screenshots der gerenderten Seiten aufgenommen werden, die Sie auf der Registerkarte „Rendered Page“ im unteren Fensterbereich anzeigen können.

Sie können verschiedene Fenstergrößen auswählen, darunter Googlebot Desktop, Googlebot Smartphone und verschiedene andere Geräte.

Diese können mit den folgenden Optionen angepasst werden:

  • Breite und Höhe – Zum Festlegen benutzerdefinierter Fenstergrößen.
  • Skalierungsfaktor – Erhöht die für die Screenshots verwendete Skalierung. Emuliert Geräte mit höherer Pixeldichte besser.
  • Mobil – Chrome-Flag, um anzuzeigen, dass der Bildschirm für ein mobiles Gerät bestimmt ist.
  • Touch-fähig – Chrome-Flag, um anzuzeigen, dass das Gerät touch-fähig ist.
  • An Inhalt anpassen – Wenn diese Option aktiviert ist, passt Spider die Größe des Browserfensters an, in dem der Screenshot aufgenommen wird, um die gesamte Seitenlänge im Screenshot zu erfassen (bis zu 8192 Pixel). Wenn diese Option deaktiviert ist, wird nur der obere Teil der Seite in einem Fenster mit der angegebenen Auflösung als Screenshot aufgenommen.
  • Zeit bis zur Größenänderung des Fensters – Wie lange nach der Größenänderung des Fensters der Screenshot der Seite aufgenommen wird.

Die gerenderten Screenshots können im Ordner „C:\Users\Benutzername\.ScreamingFrogSEOSpider\screenshots-XXXXXXXXXXXXXXX” angezeigt und über das Menü „Bulk Export > Web > Screenshots” exportiert werden, um das Navigieren, Kopieren und Einfügen zu sparen.

JavaScript-Fehlerberichterstattung

Konfiguration > Spider > Rendering > JavaScript > JavaScript-Fehlerberichterstattung

Mit dieser Einstellung können JavaScript-Fehler erfasst und unter den entsprechenden Filtern auf der Registerkarte „JavaScript” gemeldet werden.

Detaillierte JavaScript-Fehler, Warnungen und Probleme können auf der unteren Registerkarte „Chrome-Konsolenprotokoll” angezeigt und über „Massexport > JavaScript > Seiten mit JavaScript-Problemen” gesammelt exportiert werden.

Eine aggregierte Ansicht der JavaScript-Fehler, Warnungen und Probleme kann über „Berichte > JavaScript > JavaScript-Konsolenprotokollzusammenfassung“ angezeigt werden.

Shadow DOM abflachen

Konfiguration > Spider > Rendering > JavaScript > Shadow DOM abflachen

Google kann Shadow DOM-Inhalte als Teil des gerenderten HTML-Codes einer Seite abflachen und indexieren. Diese Konfiguration ist standardmäßig aktiviert, kann jedoch deaktiviert werden.

Iframes flach machen

Konfiguration > Spider > Rendering > JavaScript > Iframes flach machen

Google fügt Iframes in ein div im gerenderten HTML einer übergeordneten Seite ein, wenn die Bedingungen dies zulassen. Dazu gehören die festgelegte Höhe, ein mobiler Viewport und kein Noindex. Wir versuchen, das Verhalten von Google nachzuahmen. Diese Konfiguration ist standardmäßig aktiviert, kann aber deaktiviert werden.

 

Website archivieren

Konfiguration > Spider > Rendering > JavaScript > Website archivieren

Wenn diese Option aktiviert ist, lädt der SEO Spider alle während eines Crawls gefundenen HTML-Dateien und Ressourcen herunter, speichert sie und legt die Dateien lokal ab.

Es gibt zwei Optionen:

  • Hierarchisches URL-Archiv – Die Website wird lokal basierend auf dem Verzeichnispfad der Website gespeichert. Diese Dateien werden nicht komprimiert.
  • WARC – Das Standardformat von Web ARChive zum Archivieren von Websites. Das WARC-Dateiformat kann in vielen Open-Source-Tools angezeigt werden und ist komprimiert.

Die archivierten Dateien können unter C:\Users\Ihr Name\.ScreamingFrogSEOSpider\ProjectInstanceData\\results_

Sie können eine archivierte Seite in der App anzeigen, indem Sie mit der rechten Maustaste darauf klicken und „Archivierte Seite im Browser öffnen” auswählen, um eine Offline-Version anzuzeigen.

AJAX-Timeout

Konfiguration > Spider > Rendering > JavaScript > AJAX-Timeout

Dies ist die Zeit in Sekunden, die der SEO Spider JavaScript zur Ausführung zur Verfügung stellen sollte, bevor eine Seite als geladen betrachtet wird. Dieser Timer startet, nachdem der Chromium-Browser die Webseite und alle referenzierten Ressourcen wie JS, CSS und Bilder geladen hat.

In der Realität ist Google flexibler als die oben genannten 5 Sekunden. Das Unternehmen passt sich an, je nachdem, wie lange eine Seite zum Laden von Inhalten benötigt, wobei die Netzwerkaktivität und Faktoren wie Caching eine Rolle spielen. Allerdings wird Google natürlich nicht ewig warten. Inhalte, die gecrawlt und indexiert werden sollen, müssen daher schnell verfügbar sein, sonst werden sie einfach nicht gesehen.

Die 5-Sekunden-Regel ist eine vernünftige Faustregel für Nutzer und Googlebot.

Fenstergröße

Konfiguration > Spider > Rendering > JavaScript > Fenstergröße

Hiermit wird die Viewport-Größe im JavaScript-Rendering-Modus festgelegt, die in den Screenshots der gerenderten Seite auf der Registerkarte „Rendered Page“ zu sehen ist.

Sowohl für die Fenstergrößen „Googlebot Mobile: Smartphone“ als auch „Googlebot Desktop“ emuliert SEO Spider das Verhalten von Googlebot und passt die Größe der Seite an, sodass möglichst viele Daten erfasst werden können. Google streckt die Seite, um zusätzliche Inhalte zu laden und zu erfassen.

Der SEO Spider lädt die Seite mit einer Größe von 411 × 731 Pixeln für Mobilgeräte oder 1024 × 768 Pixeln für Desktop-Computer und passt dann die Länge auf bis zu 8192 Pixel an. Dies ist die Grenze, die wir derzeit im integrierten Chromium-Browser erfassen können. Google kann die Größe auf eine Höhe von bis zu 12.140 Pixeln anpassen.

In seltenen Fällen kann die Fenstergröße das gerenderte HTML beeinflussen. Beispielsweise können einige Websites bestimmte Elemente auf kleineren Viewports nicht anzeigen, was sich auf Ergebnisse wie die Wortanzahl und Links auswirken kann.

Für andere Gerätefenstergrößen wird der ausgewählte Viewport zum Rendern aller Inhalte, Links und Screenshots verwendet – ohne die Größe auf einen längeren Viewport anzupassen.

 

Spider – Registerkarte „Erweitert“

Cookie-Speicherung

Konfiguration > Spider > Erweitert > Cookie-Speicherung

Google crawlt das Web ohne Cookies, akzeptiert diese jedoch für die Dauer des Seitenaufrufs. Einige Websites können nur angezeigt werden, wenn Cookies akzeptiert werden, und funktionieren nicht, wenn die Akzeptanz von Cookies deaktiviert ist.

Standardmäßig akzeptiert SEO Spider Cookies nur für eine „Sitzung“. Das bedeutet, dass sie für das Laden der Seite akzeptiert werden, dann gelöscht werden und nicht für weitere Anfragen verwendet werden, genau wie bei Googlebot.

Sie können die Cookie-Speicherung auf „Persistent“ (Dauerhaft) umstellen, wodurch Cookies über mehrere Sitzungen hinweg gespeichert werden, oder auf „Do Not Store“ (Nicht speichern), wodurch sie überhaupt nicht akzeptiert werden.

Bei „Persistent“ werden Cookies pro Crawl gespeichert und zwischen Crawler-Threads geteilt. Cookies werden beim Speichern eines Crawls nicht gespeichert, sodass bei der Wiederaufnahme von Crawls aus einer gespeicherten .seospider-Datei die zuvor verwendeten Cookies nicht beibehalten werden.

Cookies werden zu Beginn eines neuen Crawls zurückgesetzt.

Nicht indizierbare URLs für Probleme ignorieren

Konfiguration > Spider > Erweitert > Nicht indizierbare URLs für Probleme ignorieren

Wenn diese Option aktiviert ist, füllt der SEO Spider nur dann problembezogene Filter aus, wenn die Seite indizierbar ist. Dies umfasst alle Filter unter den Registerkarten „Seitentitel“, „Meta-Beschreibung“, „Meta-Keywords“, „H1“ und „H2“ sowie die folgenden weiteren Probleme:

  • „Seiten mit geringem Inhalt“ auf der Registerkarte „Inhalt“.
  • „Fehlende“, „Validierungsfehler“ und „Validierungswarnungen“ auf der Registerkarte „Strukturierte Daten“.
  • „Verwaiste URLs“ auf der Registerkarte „Sitemaps“.
  • „Keine GA-Daten“ auf der Registerkarte „Analytics“.
  • „Keine Suchanalysedaten“ auf der Registerkarte „Search Console“.
  • „Seiten mit hoher Crawl-Tiefe“ auf der Registerkarte „Links“.

Das bedeutet beispielsweise, dass URLs nicht als „Duplikate“, „über X Zeichen“ oder „unter X Zeichen“ betrachtet werden, wenn sie beispielsweise als „noindex“ festgelegt und somit nicht indexierbar sind.

Wir empfehlen, diese Funktion zu deaktivieren, wenn Sie eine Staging-Website crawlen, die siteweit mit „noindex“ versehen ist.

Paginierte URLs für Duplikatsfilter ignorieren

Konfiguration > Spider > Erweitert > Paginierte URLs für Duplikatsfilter ignorieren

Wenn diese Option aktiviert ist, werden URLs mit rel=„prev“ in der Sequenz nicht für „Duplikatsfilter“ unter den Registerkarten „Seitentitel“, „Meta-Beschreibung“, „Meta-Keywords“, „H1“ und „H2“ berücksichtigt. Nur die erste URL in der paginierten Sequenz mit einem rel=„next”-Attribut wird berücksichtigt.

Das bedeutet, dass paginierte URLs nicht als „doppelte” Seitentitel mit der ersten Seite der Serie betrachtet werden. Dies ist ein normales und erwartetes Verhalten, daher wird dies bei dieser Konfiguration nicht als Problem gemeldet.

Immer Weiterleitungen folgen

Konfiguration > Spider > Erweitert > Immer Weiterleitungen folgen

Mit dieser Funktion kann der SEO Spider im Listenmodus Weiterleitungen bis zur endgültigen Weiterleitungsziel-URL verfolgen und dabei die Crawltiefe ignorieren. Dies ist besonders nützlich bei Website-Migrationen, bei denen URLs möglicherweise eine Reihe von 3XX-Weiterleitungen durchführen, bevor sie ihr endgültiges Ziel erreichen.

Um Weiterleitungen bei einer Website-Migration anzuzeigen, empfehlen wir die Verwendung des Berichts „Alle Weiterleitungen“.

Weitere Informationen zur Verwendung dieser Konfiguration finden Sie in unserem Leitfaden „Verwendung des Listenmodus“.

Immer kanonischen URLs folgen

Konfiguration > Spider > Erweitert > Immer kanonischen URLs folgen

Mit dieser Funktion kann der SEO Spider im Listenmodus kanonischen URLs bis zur endgültigen Weiterleitungsziel-URL folgen, wobei die Crawltiefe ignoriert wird. Dies ist besonders nützlich bei Website-Migrationen, bei denen kanonische URLs möglicherweise mehrfach kanonisiert werden, bevor sie ihr endgültiges Ziel erreichen.

Um die Kette der Kanonischen zu sehen, empfehlen wir, diese Konfiguration zu aktivieren und den Bericht „Kanonische Ketten“ zu verwenden.

Weitere Informationen zur Verwendung dieser Konfiguration finden Sie in unserem Leitfaden „Verwendung des Listenmodus“, beispielsweise „Immer Weiterleitungen folgen“.

Noindex respektieren

Konfiguration > Spider > Erweitert > Noindex respektieren

Diese Option bedeutet, dass URLs mit „noindex“ nicht im SEO Spider gemeldet werden. Diese URLs werden weiterhin gecrawlt und ihre Outlinks verfolgt, aber sie werden nicht im Tool angezeigt.

Canonical respektieren

Konfiguration > Spider > Erweitert > Canonical respektieren

Diese Option bedeutet, dass URLs, die zu einer anderen URL kanonisiert wurden, nicht im SEO Spider gemeldet werden. Diese URLs werden weiterhin gecrawlt und ihre Outlinks verfolgt, aber sie werden nicht im Tool angezeigt.

Nächste/vorherige respektieren

Konfiguration > Spider > Erweitert > Nächste/vorherige respektieren

Diese Option bedeutet, dass URLs mit einem rel=„prev“ in der Sequenz nicht im SEO Spider gemeldet werden. Nur die erste URL in der paginierten Sequenz mit einem rel=„next“-Attribut wird gemeldet.

Diese URLs werden weiterhin gecrawlt und ihre Outlinks verfolgt, aber sie werden nicht im Tool angezeigt.

 

HSTS-Richtlinie beachten

Konfiguration > Spider > Erweitert > HSTS-Richtlinie beachten

HTTP Strict Transport Security (HSTS) ist ein in RFC 6797 definierter Standard, mit dem ein Webserver einem Client mitteilen kann, dass er nur über HTTPS aufgerufen werden darf.

Der Client (in diesem Fall der SEO Spider) wird dann alle zukünftigen Anfragen über HTTPS stellen, selbst wenn er einem Link zu einer HTTP-URL folgt. In diesem Fall zeigt der SEO Spider den Statuscode 307, den Status „HSTS-Richtlinie” und den Umleitungstyp „HSTS-Richtlinie” an.

Sie können diese Funktion deaktivieren und den „echten” Statuscode hinter einer Umleitung anzeigen (z. B. eine permanente 301-Umleitung). Weitere Informationen finden Sie in unserem Artikel „Ein SEO-Leitfaden zum Crawlen von HSTS- und 307-Weiterleitungen“.

Selbstreferenzierende Meta-Refresh-Tags berücksichtigen

Konfiguration > Spider > Erweitert > Selbstreferenzierende Meta-Refresh-Tags berücksichtigen

Sie können die Konfiguration „Selbstreferenzierende Meta-Refresh-Tags berücksichtigen“ deaktivieren, um zu verhindern, dass selbstreferenzierende Meta-Refresh-URLs als „nicht indexierbar“ betrachtet werden.

Es ist durchaus üblich, dass Websites aus verschiedenen Gründen selbstreferenzierende Meta-Refreshs verwenden, was in der Regel keinen Einfluss auf die Indizierung der Seite hat. Da es sich jedoch um eine Weiterleitung zu sich selbst handelt, sollte dies weiter untersucht werden, da es deshalb als „nicht indexierbar“ gekennzeichnet wird.

Bilder aus dem Attribut „img srcset“ extrahieren

Konfiguration > Spider > Erweitert > Bilder aus dem Attribut „IMG SRCSET“ extrahieren

Wenn diese Option aktiviert ist, werden Bilder aus dem srcset-Attribut des <img>-Tags extrahiert. Im folgenden Beispiel wären dies image-1x.png und image-2x.png sowie image-src.png.

<img src="image-src.png" srcset="image-1x.png 1x, image-2x.png 2x" alt="Retina-freundliche Bilder" />

Fragment-Identifikatoren crawlen

Konfiguration > Spider > Erweitert > Fragment-Identifikatoren crawlen

Wenn diese Option aktiviert ist, crawlt der SEO Spider URLs mit Hash-Fragmenten und betrachtet sie als separate, eindeutige URLs.

https://www.screamingfrog.co.uk/#this-is-treated-as-a-separate-url/

Standardmäßig ignoriert der SEO Spider alles aus dem Hash-Wert, genau wie eine Suchmaschine. Dies kann jedoch beispielsweise bei der Analyse von Sprunglinks und Lesezeichen innerhalb einer Seite nützlich sein.

HTML-Validierung durchführen

Konfiguration > Spider > Erweitert > HTML-Validierung durchführen

Wenn diese Option aktiviert ist, überprüft der SEO Spider grundlegende HTML-Fehler, die zu Crawling- und Indizierungsproblemen führen können. Diese Konfiguration füllt die Filter der Registerkarte „Validierung“ und verschiedene Filter „Außerhalb von <head>“ in Registerkarten wie Seitentitel, Meta-Beschreibung, Canonicals und mehr.

Berechnung der CO2-Bilanz von Green Hosting

Konfiguration > Spider > Erweitert > Berechnung der CO2-Bilanz von Green Hosting

Diese Konfiguration wird für die Berechnung und Bewertung der CO2-Bilanz verwendet. Aktivieren Sie die Konfiguration, wenn Ihr Website-Hosting mit grüner Energie betrieben wird.

Sie können dies derzeit manuell über den Green Web Check der Green Web Foundation überprüfen.

Seiten als HTML annehmen

Konfiguration > Spider > Erweitert > Seiten als HTML annehmen

Wenn diese Option aktiviert ist, werden alle URLs ohne Content-Type als HTML angenommen und gecrawlt.

Zeitlimit für Antworten

Konfiguration > Spider > Erweitert > Zeitlimit für Antworten (Sekunden)

Der SEO Spider wartet standardmäßig 20 Sekunden, um eine HTTP-Antwort von einer URL zu erhalten. Bei sehr langsamen Websites können Sie die Wartezeit verlängern.

5XX-Antwortwiederholungen

Konfiguration > Spider > Erweitert > 5XX-Antwortwiederholungen

Diese Option bietet die Möglichkeit, 5XX-Antworten automatisch erneut zu versuchen. Oft sind diese Antworten nur vorübergehend, sodass ein erneuter Versuch mit einer URL eine 2XX-Antwort liefern kann.

 

Registerkarte „Spider-Einstellungen“

Breite von Seitentitel und Meta-Beschreibung

Konfiguration > Spider > Einstellungen > Breite von Seitentitel/Meta-Beschreibung

Mit dieser Option können Sie die Zeichen- und Pixelbreitenbeschränkungen in den SEO-Spider-Filtern auf den Registerkarten „Seitentitel“ und „Meta-Beschreibung“ steuern.

Wenn Sie beispielsweise die Standardwert für die minimale Pixelbreite von „200“ für die Seitenüberschrift ändern, ändert sich der Filter „Unter 200 Pixel“ auf der Registerkarte „Seitenüberschriften“. So können Sie die Zeichen- und Pixelbreite nach Ihren eigenen Präferenzen festlegen.

Bitte beachten Sie: Die SERP-Snippet-Vorschau wird dabei nicht aktualisiert, sondern nur die Filter auf den Registerkarten.

Einstellungen für Links

Konfiguration > Spider > Einstellungen > Links

Mit diesen Optionen können Sie steuern, wann die Filter „Seiten mit vielen externen Outlinks“, „Seiten mit vielen internen Outlinks“, „Seiten mit hoher Crawl-Tiefe“ und „Nicht beschreibender Ankertext in internen Outlinks“ auf der Registerkarte „Links“ ausgelöst werden.

Wenn Sie beispielsweise den Standardwert für „Hohe interne Outlinks“ von 1.000 auf 2.000 ändern, bedeutet dies, dass Seiten 2.000 oder mehr interne Outlinks benötigen, um unter diesem Filter in der Registerkarte „Links“ angezeigt zu werden.

Sonstige Zeichenpräferenzen

Konfiguration > Spider > Einstellungen > Sonstiges

Mit diesen Optionen können Sie die Zeichenlänge von URLs, h1, h2, Bild-Alt-Text, maximale Bildgröße und Filter für Seiten mit geringem Inhalt in den entsprechenden Registerkarten steuern.

Wenn beispielsweise die „Maximale Bildgröße in Kilobyte“ von 100 auf „200“ geändert wird, werden nur Bilder mit mehr als 200 KB in der Registerkarte „Bilder > Über X KB“ und im Filter angezeigt.

 

Weitere Konfigurationsoptionen

Inhaltsbereich

Konfiguration > Inhalt > Bereich

Sie können den Inhaltsbereich festlegen, der für die Wortzählung, die Analyse von nahezu identischen Inhalten und die Rechtschreib- und Grammatikprüfung verwendet wird. Dies kann dabei helfen, die Analyse auf den Hauptinhaltsbereich einer Seite zu konzentrieren und bekannte Standardtexte zu vermeiden.

Die Einstellungen für den Inhaltsbereich haben keinen Einfluss auf die Link-Erkennung, sie gelten nur für den Inhalt.

Standardmäßig berücksichtigt SEO Spider nur Text, der im HTML-Element „body“ einer Webseite enthalten ist. Standardmäßig werden sowohl das HTML-Element „nav“ als auch das HTML-Element „footer“ ausgeschlossen, um den Inhaltsbereich auf den Hauptinhalt der Seite zu konzentrieren.

Allerdings werden nicht alle Websites mit diesen semantischen HTML5-Elementen erstellt, und manchmal ist es sinnvoll, den für die Analyse verwendeten Inhaltsbereich weiter zu verfeinern. Sie können eine Liste von HTML-Elementen, Klassen oder IDs hinzufügen, die für den verwendeten Inhalt ausgeschlossen oder einbezogen werden sollen.

Beispielsweise verfügt die Screaming Frog-Website über ein mobiles Menü außerhalb des nav-Elements, das standardmäßig in die Inhaltsanalyse einbezogen wird. Das mobile Menü ist in der Inhaltsvorschau der Registerkarte „Duplicate Details” (Duplikatsdetails) zu sehen, die unten angezeigt wird, wenn nach doppelten Inhalten gesucht wird (sowie in der Registerkarte „Spelling & Grammar Details” (Rechtschreib- und Grammatikdetails)).

Durch einen Rechtsklick und die Anzeige der HTML-Quelle unserer Website können wir sehen, dass dieses Menü eine Klasse „mobile-menu__dropdown” hat. Die Klasse „mobile-menu__dropdown” kann dann im Feld „Klassen ausschließen” ausgeschlossen werden –

Das mobile Menü wird dann aus der Analyse der nahezu doppelten Inhalte entfernt und der Inhalt wird nicht mehr in der Registerkarte „Duplikatsdetails” angezeigt (ebenso wie Rechtschreibung und Grammatik sowie Wortanzahl).

Die Einstellungen für den Inhaltsbereich können nach dem Crawling für die Analyse von nahezu identischen Inhalten sowie für Rechtschreibung und Grammatik angepasst werden. Bei nahezu identischen Inhalten muss die „Crawl-Analyse“ erneut ausgeführt werden, um die Ergebnisse zu aktualisieren. Die Analyse von Rechtschreibung und Grammatik muss über die Registerkarte „Rechtschreibung und Grammatik“ auf der rechten Seite oder die Registerkarte „Details zu Rechtschreibung und Grammatik“ im unteren Fenster aktualisiert werden.

Bitte lesen Sie unsere Tutorials zum Finden doppelter Inhalte und zur Rechtschreib- und Grammatikprüfung.

Duplikate

Konfiguration > Inhalt > Duplikate

Der SEO Spider kann exakte Duplikate finden, bei denen Seiten identisch sind, sowie nahezu identische Duplikate, bei denen einige Inhalte zwischen verschiedenen Seiten übereinstimmen. Beide können auf der Registerkarte „Inhalt“ und den entsprechenden Filtern „Exakte Duplikate“ und „Nahezu identische Duplikate“ angezeigt werden.

Exakte Duplikate werden standardmäßig erkannt. Um nach „Nahe Duplikaten“ zu suchen, muss die Konfiguration aktiviert sein, damit der SEO Spider den Inhalt jeder Seite speichern kann.

Der SEO Spider identifiziert Nahe Duplikate mit einer Ähnlichkeit von 90 % mithilfe eines Minhash-Algorithmus, der angepasst werden kann, um Inhalte mit einem niedrigeren Ähnlichkeitsschwellenwert zu finden.

Der SEO Spider überprüft außerdem nur „indexierbare“ Seiten auf Duplikate (sowohl exakte als auch nahezu identische Duplikate).

Das bedeutet, wenn Sie zwei identische URLs haben, von denen jedoch eine kanonisiert ist (und daher „nicht indexierbar“ ist), wird dies nicht gemeldet – es sei denn, diese Option ist deaktiviert.

Beinahe-Duplikate erfordern eine Crawl-Analyse, um ausgefüllt zu werden. Weitere Details zu den Duplikaten finden Sie auf der unteren Registerkarte „Duplicate Details” (Duplikatdetails). Hier werden alle identifizierten beinahe identischen URLs und ihre Ähnlichkeit angezeigt.

Wenn Sie auf eine „Near Duplicate Address” (Beinahe-Duplikatadresse) auf der Registerkarte „Duplicate Details” klicken, werden auch die zwischen den Seiten gefundenen beinahe identischen Inhalte angezeigt und die Unterschiede hervorgehoben.

Der für die Analyse von nahezu identischen Duplikaten verwendete Inhaltsbereich kann über „Konfiguration > Inhalt > Bereich“ angepasst werden. Sie können eine Liste von HTML-Elementen, Klassen oder IDs hinzufügen, die für den verwendeten Inhalt ausgeschlossen oder einbezogen werden sollen.

Der Schwellenwert für nahezu identische Inhalte und der für die Analyse verwendete Inhaltsbereich können beide nach dem Crawling aktualisiert werden, und die Crawling-Analyse kann erneut durchgeführt werden, um die Ergebnisse zu verfeinern, ohne dass ein erneutes Crawling erforderlich ist.

 

Rechtschreibung und Grammatik

Konfiguration > Inhalt > Rechtschreibung und Grammatik

Der SEO Spider kann HTML-Seiten während eines Crawls auf Rechtschreibung und Grammatik überprüfen. Andere Inhaltstypen werden derzeit nicht unterstützt, könnten aber in Zukunft hinzukommen.

Die Rechtschreib- und Grammatikprüfungen sind standardmäßig deaktiviert und müssen aktiviert werden, damit Rechtschreib- und Grammatikfehler auf der Registerkarte „Inhalt“ und in den entsprechenden Filtern „Rechtschreibfehler“ und „Grammatikfehler“ angezeigt werden.

Die Rechtschreib- und Grammatikfunktion erkennt automatisch die auf einer Seite verwendete Sprache (über das HTML-Sprachattribut), ermöglicht Ihnen jedoch auch, die Sprache bei Bedarf manuell in der Konfiguration auszuwählen.

Es werden 40 Sprachen unterstützt, darunter:

  • Arabisch
  • Asturisch
  • Weißrussisch
  • Bretonisch
  • Katalanisch
  • Chinesisch
  • Dänisch
  • Niederländisch
  • Englisch (Australien, Kanada, Neuseeland, Südafrika, USA, Großbritannien)
  • Französisch
  • Galicisch
  • Deutsch (Österreich, Deutschland, Schweiz)
  • Griechisch
  • Irisch
  • Italienisch
  • Japanisch
  • Khmer
  • Persisch (Afghanistan, Iran)
  • Polnisch
  • Portugiesisch (Angola, Brasilien, Mosambik, Portugal)
  • Rumänisch
  • Russisch
  • Slowakisch
  • Slowenisch
  • Spanisch
  • Schwedisch
  • Tagalog
  • Tamil
  • Ukrainisch

 

Bitte lesen Sie unsere FAQ, wenn Sie eine neue Sprache für Rechtschreibung und Grammatik wünschen.

Das untere Fenster „Rechtschreibung & Grammatik – Details” zeigt den Fehler, den Typ (Rechtschreibung oder Grammatik) und Details an und gibt einen Vorschlag zur Korrektur des Problems. Auf der rechten Seite des Detailfensters wird auch eine visuelle Darstellung des Textes von der Seite und der identifizierten Fehler angezeigt.

Im rechten Fensterbereich „Rechtschreibung und Grammatik“ werden die 100 häufigsten Fehler und die Anzahl der betroffenen URLs angezeigt. Dies kann hilfreich sein, um Fehler in Vorlagen zu finden und Ihr Wörterbuch oder Ihre Ignorierliste zu erstellen. Sie können mit der rechten Maustaste klicken und „Grammatikregel ignorieren“, „Alle ignorieren“ oder „Zum Wörterbuch hinzufügen“ auswählen, sofern dies relevant ist.

Konfigurationen für Rechtschreibung und Grammatik

Mit der Konfiguration „Grammatikregeln“ können Sie bestimmte verwendete Grammatikregeln aktivieren und deaktivieren. Sie können mit der rechten Maustaste klicken und „Grammatikregel ignorieren“ für bestimmte Grammatikprobleme auswählen, die während eines Crawls festgestellt wurden.

Mit der Konfiguration „Ignorieren“ können Sie eine Liste von Wörtern für einen Crawl ignorieren. Dies gilt nur für einen bestimmten Crawl und wird nicht für alle Crawls gespeichert. Sie können mit der rechten Maustaste klicken und „Alle ignorieren“ für Rechtschreibfehler auswählen, die während eines Crawls entdeckt wurden.

Mit dem „Wörterbuch“ können Sie eine Liste von Wörtern für jeden durchgeführten Crawl ignorieren. Diese Liste wird im entsprechenden Wörterbuch gespeichert und für alle durchgeführten Crawls gespeichert. Wörter können jederzeit für jedes Wörterbuch hinzugefügt und entfernt werden. Sie können mit der rechten Maustaste klicken und „Zum Wörterbuch hinzufügen“ für Rechtschreibfehler auswählen, die während eines Crawls identifiziert wurden.

Der für Rechtschreibung und Grammatik verwendete Inhaltsbereich kann über „Konfiguration > Inhalt > Bereich“ angepasst werden. Sie können eine Liste von HTML-Elementen, Klassen oder IDs hinzufügen, die für den analysierten Inhalt ausgeschlossen oder einbezogen werden sollen.

Die in der Analyse verwendeten Grammatikregeln, ignorierten Wörter, Wörterbuch- und Inhaltsbereichseinstellungen können alle nach dem Crawling (oder bei einer Pause) aktualisiert werden, und die Rechtschreib- und Grammatikprüfungen können erneut durchgeführt werden, um die Ergebnisse zu verfeinern, ohne dass ein erneutes Crawling erforderlich ist.

Einbettungen

Konfiguration > Inhalt > Einbettungen

Der SEO Spider kann von KI-Anbietern generierte Vektor-Einbettungen nutzen, um semantisch ähnliche Seiten und Inhalte mit geringer Relevanz zu identifizieren, sowie für die semantische Suche und die Visualisierung des Inhaltsclusterdiagramms.

Um diese Funktion zu aktivieren, navigieren Sie zunächst zu „Konfiguration > API-Zugriff > KI“ und wählen Sie einen KI-Anbieter aus, der für die Generierung von Einbettungen verwendet werden soll. Wählen Sie zwischen OpenAI, Gemini und Ollama. Stellen Sie sicher, dass Sie ein Konto eingerichtet haben und über einen API-Schlüssel verfügen, wie in den obigen Anleitungen beschrieben.

Wenn Sie Ihren KI-Anbieter ausgewählt haben, navigieren Sie zu „Prompt-Konfiguration“, wählen Sie „Aus Bibliothek hinzufügen“ und wählen Sie die entsprechende Voreinstellung für Einbettungen.

Am Beispiel von Gemini würde dies bedeuten, dass Sie „Semantische Einbettungen aus Seite extrahieren“ auswählen, was als Prompt hinzugefügt wird.

 

Die Eingabeaufforderung wird angezeigt, zusammen mit einer Fehlermeldung, die erklärt, dass auch „Store HTML“ konfiguriert werden muss.

Bevor Sie die Option „Store HTML“ konfigurieren, denken Sie daran, unter „Account Information“ eine Verbindung zur API herzustellen.

Gehen Sie nun zu „Config > Spider > Extraction“ und aktivieren Sie „Store HTML“ und „Store Rendered HTML“, damit der Seitentext für Vektor-Einbettungen gespeichert wird.

Wenn dies eingerichtet ist, rufen Sie die Einbettungskonfiguration über „Konfiguration > Inhalt > Einbettungen“ erneut auf.

Klicken Sie auf „Einbettungsfunktion aktivieren“ und die eingerichtete Eingabeaufforderung sollte automatisch im Dropdown-Menü der Einbettungsaufforderung angezeigt werden. Aktivieren Sie „Semantische Ähnlichkeit“ und „Geringe Relevanz“, um die entsprechenden Spalten und Filter auf der Registerkarte „Inhalt“ auszufüllen.

Wenn der Crawl abgeschlossen ist, führen Sie eine Crawl-Analyse durch, woraufhin die Filter „Semantisch ähnlich“ und „Inhalt mit geringer Relevanz“ in der Registerkarte „Inhalt“ ausgefüllt werden.

Einbettungen werden auch für die „Semantische Suche“ auf der rechten Seite und das „Inhaltscluster-Diagramm“ verwendet.

Einbettungsregeln

Mit den Optionen für Einbettungsfilterregeln können Sie URL-Muster für semantische Ähnlichkeit definieren. Das bedeutet, dass Sie eine Regel hinzufügen können, um nur semantische Übereinstimmungen für eine Staging-Site auf der Live-Website oder aus bestimmten Regionen oder Abschnitten zu finden, um eine genauere Kontrolle zu ermöglichen.

 

Robots.txt

Konfiguration > Robots.txt

Standardmäßig befolgt der SEO Spider das Robots.txt-Protokoll und ist auf „Robots.txt beachten” eingestellt. Das bedeutet, dass der SEO Spider eine Website nicht crawlen kann, wenn dies über Robots.txt untersagt ist.

Diese Einstellung kann auf „Robots.txt ignorieren” oder „Robots.txt ignorieren, aber Status melden” geändert werden.

Robots.txt ignorieren

Mit der Option „Robots.txt ignorieren“ können Sie dieses Protokoll ignorieren, was in der Verantwortung des Benutzers liegt. Diese Option bedeutet, dass der SEO Spider die robots.txt-Datei nicht einmal herunterlädt. Das bedeutet also auch, dass alle Robots-Anweisungen vollständig ignoriert werden.

Robots.xt ignorieren, aber Status melden

Die Konfiguration „Robots.txt ignorieren, aber Status melden“ bedeutet, dass die robots.txt von Websites heruntergeladen und im SEO Spider gemeldet wird. Die darin enthaltenen Anweisungen werden jedoch ignoriert. Auf diese Weise können Sie die Website crawlen, aber dennoch sehen, welche Seiten vom Crawling ausgeschlossen werden sollten.

Durch robots.txt blockierte interne URLs anzeigen

Standardmäßig werden durch robots.txt blockierte interne URLs auf der Registerkarte „Intern” mit dem Statuscode „0” und dem Status „Durch robots.txt blockiert” angezeigt. Um diese URLs in der Benutzeroberfläche auszublenden, deaktivieren Sie diese Option. Diese Option ist nicht verfügbar, wenn „robots.txt ignorieren“ aktiviert ist.

Sie können interne URLs, die durch robots.txt blockiert sind, auch unter der Registerkarte „Antwortcodes“ und dem Filter „Durch Robots.txt blockiert“ anzeigen. Dadurch wird auch die robots.txt-Anweisung (Spalte „Übereinstimmende robots.txt-Zeile“) der Sperre für jede blockierte URL angezeigt.

Durch Robots.txt blockierte externe URLs anzeigen

Standardmäßig sind durch robots.txt blockierte externe URLs ausgeblendet. Um diese auf der Registerkarte „Extern“ mit dem Statuscode „0“ und dem Status „Durch Robots.txt blockiert“ anzuzeigen, aktivieren Sie diese Option. Diese Option ist nicht verfügbar, wenn „robots.txt ignorieren“ aktiviert ist.

Sie können externe URLs, die durch robots.txt blockiert sind, auch unter der Registerkarte „Antwortcodes“ und dem Filter „Durch Robots.txt blockiert“ anzeigen. Dadurch wird auch die robots.txt-Anweisung („Übereinstimmende robots.txt-Zeile“) der Sperre für jede blockierte URL angezeigt.

Benutzerdefinierte Robots

Mit der Funktion „Benutzerdefinierte robots.txt“ können Sie die robots.txt einer Website herunterladen, bearbeiten und testen. Diese Funktion überschreibt die Live-Version auf der Website für den Crawl. Die Live-robots.txt auf der Website wird dadurch nicht aktualisiert.

Mit dieser Funktion können Sie mehrere robots.txt auf Subdomain-Ebene hinzufügen, Direktiven im SEO Spider testen und URLs anzeigen, die blockiert oder zugelassen sind. Die benutzerdefinierte robots.txt verwendet den ausgewählten User-Agent in der Konfiguration.

 

Während eines Crawls können Sie blockierte URLs anhand der benutzerdefinierten robots.txt-Datei filtern („Antwortcodes > Durch robots.txt blockiert“) und die entsprechende robots.txt-Direktivenzeile anzeigen.

Bitte beachten Sie: Wie oben erwähnt, haben die Änderungen, die Sie in SEO Spider an der robots.txt-Datei vornehmen, keine Auswirkungen auf die live auf Ihrem Server hochgeladene robots.txt-Datei. Sie können diese jedoch manuell kopieren und in die Live-Version einfügen, um Ihre Live-Direktiven zu aktualisieren.

URL-Umschreibung

Konfiguration > URL-Umschreibung

Mit der URL-Umschreibungsfunktion können Sie URLs spontan umschreiben. In den meisten Fällen reichen die Optionen „Parameter entfernen“ und die allgemeinen Optionen (unter „Optionen“) aus. Wir bieten jedoch auch eine erweiterte Regex-Ersatzfunktion, die Ihnen weitere Kontrollmöglichkeiten bietet.

Das URL-Rewriting wird nur auf URLs angewendet, die beim Crawlen einer Website entdeckt wurden, nicht auf URLs, die als Startpunkt für ein Crawling im „Spider“-Modus oder als Teil einer Reihe von URLs im „List“-Modus eingegeben wurden.

Parameter entfernen

Mit dieser Funktion können Sie Parameter in URLs automatisch entfernen. Dies ist äußerst nützlich für Websites mit Sitzungs-IDs, Google Analytics-Tracking oder vielen Parametern, die Sie entfernen möchten. Beispiel:

Wenn die Website Sitzungs-IDs hat, die dazu führen, dass die URLs etwa so aussehen: „example.com/?sid=zufällige-Zeichenfolge“. Um die Sitzungs-ID zu entfernen, müssen Sie lediglich „sid“ (ohne Apostrophe) in das Feld „Parameter“ auf der Registerkarte „Parameter entfernen“ eingeben.

Der SEO Spider entfernt dann automatisch die Sitzungs-ID aus der URL. Sie können unten in der Konfiguration testen, wie eine URL von unserem SEO Spider umgeschrieben wird.

Diese Funktion kann auch zum Entfernen von Google Analytics-Tracking-Parametern verwendet werden. Sie können beispielsweise einfach Folgendes unter „Parameter entfernen“ eingeben: –

utm_source

utm_medium

utm_campaign

Dadurch werden die Standard-Tracking-Parameter aus den URLs entfernt.

Regex ersetzen

Diese erweiterte Funktion wird für jede URL ausgeführt, die während eines Crawls oder im Listenmodus gefunden wird. Sie ersetzt jede Teilzeichenfolge einer URL, die mit dem regulären Ausdruck übereinstimmt, durch die angegebene Ersatzzeichenfolge.

Beispiele sind:

1) Ändern aller Links von HTTP zu HTTPS

Regex: http

Ersetzen: https

2) Ändern aller Links zu example.com zu example.co.uk

Regex: .com

Ersetzen: .co.uk

3) Alle Links, die page=number enthalten, in eine feste Nummer umwandeln, z. B.

www.example.com/page.php?page=1

www.example.com/page.php?page=2

www.example.com/page.php?page=3

www.example.com/page.php?page=4

Damit alle zu www.example.com/page.php?page=1 führen

Regex: page=\d+

Ersetzen: page=1

4) Entfernen der Domain www. aus allen URLs durch Verwendung eines leeren „Ersetzen”. Wenn Sie einen Abfragezeichenfolgenparameter entfernen möchten, verwenden Sie bitte die Funktion „Parameter entfernen” – Regex ist für diese Aufgabe nicht das richtige Werkzeug!

Regex: www.

Ersetzen:

5) Entfernen aller Parameter

Regex: \?.*

Ersetzen:

6) Ändern von Links nur für Subdomains von example.com von HTTP zu HTTPS

Regex: http://(.*example.com)

Ersetzen: https://$1

7) Entfernen aller Elemente nach dem Hash-Wert im JavaScript-Rendering-Modus

Regex: #.*

Ersetzen:

8) Hinzufügen von Parametern zu URLs

Regex: $

Ersetzen: ?parameter=value

Dadurch wird „?parameter=value“ an das Ende jeder URL angehängt.

In Situationen, in denen die Website bereits Parameter enthält, sind komplexere Ausdrücke erforderlich, damit der Parameter korrekt hinzugefügt wird:

Regex: (.*?\?.*)

Ersetzen: $1&parameter=value

Regex: (^((?!\?).)*$)

Ersetzen: $1?parameter=value

Diese müssen in der oben angegebenen Reihenfolge eingegeben werden, da sonst das Hinzufügen des neuen Parameters zu bestehenden Abfragezeichenfolgen nicht funktioniert.

Zusätzliche Einstellungen

Entdeckte URLs in Kleinbuchstaben – Diese Option konvertiert alle gecrawlten URLs in Kleinbuchstaben, was für Websites mit Groß-/Kleinschreibungsproblemen in URLs nützlich sein kann.

Prozent-Kodierungsmodus – Standardmäßig verwendet SEO Spider für die URL-Kodierung Großbuchstaben in Hexadezimalwerten (%C3%A9 statt %c3%a9). Bei einigen wenigen Servern kann es jedoch zu Weiterleitungen oder Fehlern kommen, wenn Großbuchstaben verwendet werden. Mit dieser Option kann der Benutzer die Einstellungen anpassen, um diese Websites zu crawlen.

 

CDNs

Konfiguration > CDNs

Mit der CDNs-Funktion können Sie eine Liste von CDNs eingeben, die während des Crawlings als „intern“ behandelt werden sollen.

Sie können eine Liste von Domains angeben, die als intern behandelt werden sollen. Sie können auch einen Unterordner mit der Domain angeben, damit der Unterordner (und dessen Inhalt) als intern behandelt wird.

„Interne” Links werden dann in der Registerkarte „Intern” statt in „Extern” aufgeführt, und es werden weitere Details aus ihnen extrahiert.

Einbeziehen

Konfiguration > Einbeziehen

Mit dieser Funktion können Sie mithilfe von partiellen Regex-Übereinstimmungen steuern, welchen URL-Pfad der SEO Spider crawlt. Sie schränkt die Standardsuche ein, indem nur die URLs gecrawlt werden, die mit der Regex übereinstimmen, was besonders für größere Websites oder Websites mit weniger intuitiven URL-Strukturen nützlich ist. Der Abgleich erfolgt anhand der verschlüsselten Version der URL.

Die Seite, von der aus Sie den Crawl starten, muss einen ausgehenden Link enthalten, der mit dem regulären Ausdruck übereinstimmt, damit diese Funktion funktioniert. Andernfalls wird der Crawl nicht fortgesetzt. Wenn es keine URL gibt, die mit dem regulären Ausdruck der Startseite übereinstimmt, crawlt der SEO Spider nichts!

  • Wenn Sie beispielsweise Seiten von https://www.screamingfrog.co.uk crawlen möchten, deren URL-Zeichenfolge „search“ enthält, geben Sie einfach den regulären Ausdruck „search“ in die Funktion „include“ ein. Dadurch werden die Seiten „/search-engine-marketing/“ und „/search-engine-optimisation/“ gefunden, da beide „search“ enthalten.

 

Fehlerbehebung

  • Der Abgleich erfolgt anhand der URL-kodierten Adresse. Diese finden Sie im unteren Fensterbereich auf der Registerkarte „URL-Info“ oder in der entsprechenden Spalte auf der Registerkarte „Intern“.
  • Der reguläre Ausdruck muss mit der gesamten URL übereinstimmen, nicht nur mit einem Teil davon.
  • Wenn nur eine einzige URL gecrawlt wird und der Crawl dann stoppt, überprüfen Sie die ausgehenden Links dieser Seite. Wenn Sie http://www.example.com/ mit einer Einbeziehung von „/news/“ crawlen und nur eine URL gecrawlt wird, liegt das daran, dass http://www.example.com/ keine Links zum Nachrichtenbereich der Website enthält.

 

Ausschließen

Konfiguration > Ausschließen

Mit der Ausschlusskonfiguration können Sie URLs mithilfe einer partiellen regulären Ausdrucksübereinstimmung vom Crawling ausschließen. Eine URL, die mit einem Ausschluss übereinstimmt, wird überhaupt nicht gecrawlt (sie wird nicht nur in der Benutzeroberfläche „ausgeblendet”). Das bedeutet, dass andere URLs, die nicht mit dem Ausschluss übereinstimmen, aber nur von einer ausgeschlossenen Seite aus erreichbar sind, ebenfalls nicht beim Crawling gefunden werden.

Die Ausschlussliste wird auf neue URLs angewendet, die während des Crawlings entdeckt werden. Diese Ausschlussliste wird nicht auf die ursprünglichen URLs angewendet, die im Crawling- oder Listenmodus angegeben wurden.

Das Ändern der Ausschlussliste während eines Crawls wirkt sich auf neu entdeckte URLs aus und wird rückwirkend auf die Liste der ausstehenden URLs angewendet, aktualisiert jedoch nicht die bereits gecrawlten URLs.

Der Abgleich erfolgt anhand der URL-codierten Version der URL. Sie können die codierte Version einer URL anzeigen, indem Sie sie im Hauptfenster auswählen und dann im unteren Fensterbereich auf der Registerkarte „Details“ die Registerkarte „URL-Details“ und den Wert in der zweiten Zeile mit der Bezeichnung „URL-codierte Adresse“ anzeigen.

Hier sind einige gängige Beispiele:

  • Um eine bestimmte URL oder Seite auszuschließen, lautet die Syntax:
  • http://www.example.com/do-not-crawl-this-page.html
  • Um ein Unterverzeichnis oder einen Unterordner auszuschließen, lautet die Syntax:
  • http://www.example.com/do-not-crawl-this-folder/
  • Um alles nach „brand“ auszuschließen, wo manchmal andere Ordner davor stehen können:
  • http://www.example.com/.*/brand.*
  • Wenn Sie URLs mit einem bestimmten Parameter wie „?price“ ausschließen möchten, der in verschiedenen Verzeichnissen enthalten ist, können Sie einfach Folgendes verwenden (beachten Sie, dass „?“ ein Sonderzeichen in regulären Ausdrücken ist und mit einem Backslash maskiert werden muss):
  • \?price
  • Um alles mit einem Fragezeichen „?” auszuschließen (beachten Sie, dass das ? ein Sonderzeichen in regulären Ausdrücken ist und mit einem Backslash maskiert werden muss):
  • \?
  • Wenn Sie alle Dateien mit der Endung jpg ausschließen möchten, lautet der reguläre Ausdruck:
  • jpg$
  • Wenn Sie alle URLs mit einer oder mehreren Ziffern in einem Ordner wie „/1/” oder „/999/” ausschließen möchten:
  • /\d+/$
  • Wenn Sie alle URLs ausschließen möchten, die mit einer zufälligen 6-stelligen Zahl nach einem Bindestrich enden, wie z. B. „-402001“, lautet die reguläre Ausdrucksfolge:
  • -[0-9]{6}$
  • Wenn Sie alle URLs ausschließen möchten, die „exclude“ enthalten, lautet die reguläre Ausdrucksfolge:
  • exclude
  • Sichere (https) Seiten wären:
  • https
  • Um alle Seiten auf http://www.domain.com auszuschließen, wäre die Regex:
  • http://www.domain.com/
  • Wenn Sie eine URL ausschließen möchten und dies nicht zu funktionieren scheint, liegt das wahrscheinlich daran, dass sie spezielle Regex-Zeichen wie ? enthält. Anstatt zu versuchen, diese einzeln zu finden und zu escapen, können Sie die gesamte Zeile mit \Q beginnen und mit \E wie folgt enden:
  • \Qhttp://www.example.com/test.php?product=special\E
  • Denken Sie daran, die codierte Version der URL zu verwenden. Wenn Sie also alle URLs mit einem Pipe-Zeichen | ausschließen möchten, wäre dies:
  • %7C
  • Wenn Sie Cookies extrahieren, wodurch die automatische Ausschließung für Google Analytics-Tracking-Tags aufgehoben wird, können Sie deren Auslösung verhindern, indem Sie Folgendes hinzufügen:
  • google-analytics.com

 

Geschwindigkeit

Konfiguration > Geschwindigkeit

Mit der Geschwindigkeitskonfiguration können Sie die Geschwindigkeit des SEO Spider steuern, entweder anhand der Anzahl der gleichzeitigen Threads oder anhand der pro Sekunde angeforderten URLs.

Wenn Sie die Geschwindigkeit reduzieren möchten, ist es immer einfacher, dies über die Option „Max. URI/s“ zu steuern, die die maximale Anzahl von URL-Anfragen pro Sekunde angibt. Der folgende Screenshot würde beispielsweise bedeuten, dass 1 URL pro Sekunde gecrawlt wird –

Die Option „Max. Threads“ kann einfach ignoriert werden, wenn Sie die Geschwindigkeit über die Anzahl der URLs pro Sekunde drosseln.

Durch Erhöhen der Anzahl der Threads können Sie die Geschwindigkeit des SEO Spider erheblich steigern. Standardmäßig crawlt der SEO Spider mit 5 Threads, um die Server nicht zu überlasten.

Bitte gehen Sie verantwortungsbewusst mit der Thread-Konfiguration um, da eine hohe Anzahl von Threads zur Erhöhung der Crawling-Geschwindigkeit die Anzahl der HTTP-Anfragen an den Server erhöht und sich auf die Antwortzeiten einer Website auswirken kann. In extremen Fällen kann dies zu einer Überlastung und zum Absturz des Servers führen.

Wir empfehlen, zunächst eine Crawling-Rate und -Zeit mit dem Webmaster zu vereinbaren, die Antwortzeiten zu überwachen und die Standardgeschwindigkeit anzupassen, wenn Probleme auftreten.

User-Agent

Konfiguration > User-Agent

Mit der User-Agent-Konfiguration können Sie den User-Agent der vom SEO Spider gestellten HTTP-Anfragen und die zu befolgenden robots.txt-Anweisungen ändern. Standardmäßig stellt der SEO Spider Anfragen unter Verwendung seiner eigenen „Screaming Frog SEO Spider User-Agent-Zeichenfolge”

Er verfügt jedoch über integrierte voreingestellte User-Agents für Googlebot, Bingbot, verschiedene Browser und mehr. So können Sie bei Bedarf schnell zwischen ihnen wechseln. Diese Funktion verfügt auch über benutzerdefinierte User-Agent-Einstellungen, mit denen Sie Ihren eigenen User-Agent festlegen können:

HTTP-Anfrage-User-Agent: Legt das User-Agent-Feld des HTTP-Anfrage-Headers fest.

Robots-User-Agent: Definiert den User-Agent, der für die Befolgung von robots.txt-Anweisungen verwendet wird.

 

HTTP-Header

Konfiguration > HTTP-Header

Die HTTP-Header-Konfiguration ermöglicht es Ihnen, während eines Crawls vollständig benutzerdefinierte Header-Anfragen zu stellen.

Das bedeutet, dass Sie alles von accept-language, cookie, referer oder einfach nur einen beliebigen eindeutigen Header-Namen angeben können. Es gibt beispielsweise Szenarien, in denen Sie einen Accept-Language-HTTP-Header in der Anfrage des SEO Spider angeben möchten, um lokalisierte Inhalte zu crawlen.

Sie können im Feld „Header-Wert“ jede gewünschte Kombination aus Sprache und Region angeben.

Der User-Agent wird separat von anderen Headern über „Konfiguration > User-Agent“ konfiguriert.

 

Benutzerdefinierte Suche

Konfiguration > Benutzerdefiniert > Suche

Mit SEO Spider können Sie alles finden, was Sie im Quellcode einer Website suchen. Die benutzerdefinierte Suchfunktion überprüft den HTML-Code (Seitentext oder ein bestimmtes Element, das Sie für die Suche auswählen) jeder Seite, die Sie crawlen.

Standardmäßig überprüft die benutzerdefinierte Suche den rohen HTML-Quellcode einer Website, der möglicherweise nicht mit dem in Ihrem Browser angezeigten Text übereinstimmt. Sie können zum JavaScript-Rendering-Modus wechseln, um den gerenderten HTML-Code zu durchsuchen.

Sie können in der benutzerdefinierten Suchkonfiguration bis zu 100 Suchfilter konfigurieren, mit denen Sie Ihren Text oder Ihre reguläre Ausdrucksform eingeben und Seiten finden können, die Ihre ausgewählte Eingabe entweder „enthalten“ oder „nicht enthalten“.

Dies finden Sie unter „Konfiguration > Benutzerdefiniert > Suche“.

Klicken Sie einfach auf „Hinzufügen“ (unten rechts), um einen Filter in die Konfiguration aufzunehmen.

Von links nach rechts können Sie den Suchfilter benennen, „enthält“ oder „enthält nicht“ auswählen, „Text“ oder „Regex“ auswählen, Ihre Suchanfrage eingeben und auswählen, wo die Suche durchgeführt werden soll (HTML, Seitentext, ein Element oder XPath und mehr).

Beispielsweise möchten Sie möglicherweise „enthält“ für Seiten wie „Nicht vorrätig“ auswählen, da Sie alle Seiten finden möchten, auf denen dies steht. Bei der Suche nach etwas wie dem Google Analytics-Code wäre es sinnvoller, den Filter „enthält nicht“ auszuwählen, um Seiten zu finden, die den Code nicht enthalten (anstatt nur alle Seiten aufzulisten, die ihn enthalten!).

Die Seiten, die die eingegebenen Daten entweder „enthalten“ oder „nicht enthalten“, können auf der Registerkarte „Benutzerdefinierte Suche“ angezeigt werden.

Der Filter „enthält“ zeigt die Anzahl der Suchtreffer an, während eine Suche mit „enthält nicht“ entweder „enthält“ oder „enthält nicht“ zurückgibt.

Bei dieser Suche gibt es zwei Seiten mit dem Text „Nicht vorrätig“, die jeweils nur einmal das Wort enthalten, während der GTM-Code auf keiner der zehn Seiten gefunden wurde.

Der SEO Spider verwendet die Java-Regex-Bibliothek, wie hier beschrieben. Um Daten zu „scrapen“ oder zu extrahieren, verwenden Sie bitte die Funktion „Benutzerdefinierte Extraktion“.

Sie können reguläre Ausdrücke in der benutzerdefinierten Suche verwenden, um genaue Wörter zu finden. Zum Beispiel –

\bexample\b

Würde mit einem bestimmten Wort übereinstimmen (in diesem Fall „example“), da \b Wortgrenzen abgleicht.

Weitere Informationen zu fortgeschritteneren Szenarien wie Groß-/Kleinschreibung, Suche nach genauen und mehreren Wörtern, Kombinieren von Suchanfragen, Suche in bestimmten Elementen und Suche nach mehrzeiligen Code-Schnipseln finden Sie in unserem Tutorial „Verwendung der benutzerdefinierten Suche“.

Benutzerdefinierte Extraktion

Konfiguration > Benutzerdefiniert > Extraktion

Mit der benutzerdefinierten Extraktion können Sie beliebige Daten aus dem HTML-Code einer URL erfassen. Die Extraktion wird für statischen HTML-Code durchgeführt, der von internen HTML-Seiten mit einem 2XX-Antwortcode zurückgegeben wird. Sie können in den JavaScript-Rendering-Modus wechseln, um Daten aus dem gerenderten HTML-Code zu extrahieren (für alle Daten, die nur clientseitig verfügbar sind).

Der SEO Spider unterstützt die folgenden Modi zur Datenextraktion: Wenn Sie XPath oder CSS Path zum Sammeln von HTML verwenden, können Sie auswählen, was extrahiert werden soll: Um die benutzerdefinierte Extraktion einzurichten, klicken Sie auf „Konfiguration > Benutzerdefiniert > Benutzerdefinierte Extraktion“.

  • XPath: XPath-Selektoren, einschließlich Attributen.
  • CSS-Pfad: CSS-Pfad und optionales Attribut.
  • Regex: Für fortgeschrittenere Anwendungen, wie das Scraping von HTML-Kommentaren oder Inline-JavaScript.

HTML-Element extrahieren: Das ausgewählte Element und sein innerer HTML-Inhalt.

Inneres HTML extrahieren: Der innere HTML-Inhalt des ausgewählten Elements. Wenn das ausgewählte Element andere HTML-Elemente enthält, werden diese ebenfalls einbezogen.

Text extrahieren: Der Textinhalt des ausgewählten Elements und der Textinhalt aller Unterelemente.

  • Funktionswert: Das Ergebnis der angegebenen Funktion, z. B. count(//h1), um die Anzahl der h1-Tags auf einer Seite zu ermitteln.

Klicken Sie einfach auf „Hinzufügen“, um mit der Einrichtung eines Extraktors zu beginnen.

Fügen Sie dann den entsprechenden Ausdruck ein, um Daten zu scrapen. Es können bis zu 100 separate Extraktoren konfiguriert werden, um Daten von einer Website zu scrapen, wobei die Gesamtzahl der Extraktionen aller Extraktoren auf 1.000 begrenzt ist.

Wenn Sie mit XPath, CSSPath und Regex nicht vertraut sind, können Sie die visuelle benutzerdefinierte Extraktionsfunktion verwenden, um Elemente zum Scrapen mit einem integrierten Browser auszuwählen. Klicken Sie auf das „Browser”-Symbol neben dem Extraktor.

Geben Sie eine URL, aus der Sie Daten extrahieren möchten, in die URL-Leiste ein und wählen Sie das Element aus, das Sie scrapen möchten.

SEO Spider markiert dann den Bereich auf der Seite und erstellt eine Reihe von Ausdrucksvorschlägen sowie eine Vorschau der zu extrahierenden Daten auf der Grundlage des rohen oder gerenderten HTML-Codes. In diesem Fall ist dies der Name des Autors eines Blogbeitrags.

Die extrahierten Daten können auf der Registerkarte „Benutzerdefinierte Extraktion” angezeigt werden. Die extrahierten Daten werden auch als Spalten auf der Registerkarte „Intern” angezeigt.

Fehlerbehebung bei regulären Ausdrücken

  • Der SEO Spider führt keine Vorverarbeitung von HTML durch, bevor er reguläre Ausdrücke ausführt. Beachten Sie jedoch, dass der HTML-Code, den Sie beim Anzeigen der Quelle in einem Browser sehen, sich möglicherweise von dem unterscheidet, den der SEO Spider sieht. Dies kann daran liegen, dass die Website je nach User-Agent oder Cookies unterschiedliche Inhalte zurückgibt oder dass der Seiteninhalt mit JavaScript generiert wird und Sie keine JavaScript-Rendering verwenden.
  • Die Regex-Engine ist so konfiguriert, dass das Punktzeichen mit Zeilenumbrüchen übereinstimmt.
  • Reguläre Ausdrücke können, je nachdem, wie sie gestaltet sind und auf welchem HTML sie ausgeführt werden, langsam sein. Dies hat zur Folge, dass das Crawling verlangsamt wird.

Benutzerdefinierte Link-Positionen

Konfiguration > Benutzerdefiniert > Link-Positionen

Der SEO Spider klassifiziert jede Link-Position auf einer Seite, z. B. ob sie sich in der Navigation, im Inhalt der Seite, in der Seitenleiste oder in der Fußzeile befindet.

Die Klassifizierung erfolgt anhand des „Link-Pfads” (als XPath) jedes Links für bekannte semantische Teilzeichenfolgen und kann in den Registerkarten „Inlinks” und „Outlinks” eingesehen werden.

Dies kann dabei helfen, „Inlinks” zu einer Seite zu identifizieren, die beispielsweise nur aus dem Hauptinhalt stammen, wobei Links in der Hauptnavigation oder Fußzeile für eine bessere interne Linkanalyse ignoriert werden.

Wenn Ihre Website semantische HTML5-Elemente (oder gut benannte nicht-semantische Elemente wie div id=“nav”) verwendet, kann der SEO Spider automatisch verschiedene Teile einer Webseite und die darin enthaltenen Links bestimmen.

Allerdings ist nicht jede Website auf diese Weise aufgebaut, sodass Sie die Klassifizierung der Linkposition basierend auf der individuellen Konfiguration jeder Website konfigurieren können. Auf diese Weise können Sie einen Teilstring des Linkpfads beliebiger Links verwenden, um diese zu klassifizieren.
Beispielsweise verfügt die Website von Screaming Frog über mobile Menü-Links außerhalb des Nav-Elements, die als „Content”-Links klassifiziert werden. Dies ist falsch, da es sich lediglich um eine zusätzliche siteweite Navigation auf Mobilgeräten handelt.
Der Grund dafür ist, dass sie sich nicht innerhalb eines nav-Elements befinden und nicht eindeutig benannt sind, z. B. mit „nav” in ihrem Klassennamen. Doh!

Der Klassenname „mobile-menu__dropdown” (der sich wie oben gezeigt im Linkpfad befindet) kann verwendet werden, um die korrekte Linkposition mit der Funktion „Linkpositionen” zu definieren.

Diese Links werden dann korrekt als siteweite Navigationslinks zugeordnet.

Die Suchbegriffe oder Teilzeichenfolgen, die für die Klassifizierung der Linkposition verwendet werden, basieren auf der Reihenfolge ihrer Priorität. Da „Content“ als „/“ festgelegt ist und mit jedem Linkpfad übereinstimmt, sollte es immer am Ende der Konfiguration stehen.
Im obigen Beispiel wurde also der Klassenname „mobile-menu__dropdown“ hinzugefügt und mit der Schaltfläche „Move Up“ über „Content“ verschoben, um ihm Vorrang zu geben.
Sie können die Klassifizierung „Link-Positionen“ deaktivieren, was bedeutet, dass der XPath jedes Links nicht gespeichert und die Link-Position nicht bestimmt wird. Dies kann helfen, Speicherplatz zu sparen und das Crawling zu beschleunigen.

 

Benutzerdefiniertes JavaScript

Konfiguration > Benutzerdefiniert > Benutzerdefiniertes JavaScript

Datenschutzhinweis

  • „Benutzerdefinierte JavaScript-Snippets“ können das Senden von Daten an Dienste oder APIs von Drittanbietern (z. B. solche, die ChatGPT verwenden) beinhalten. Sie sind für den Datenschutz aller dieser Daten verantwortlich.
  • Bevor Sie „Benutzerdefinierte JavaScript-Snippets“ freigeben, stellen Sie sicher, dass Sie API-Schlüssel oder andere sensible Daten entfernen.

Einführung

Mit benutzerdefiniertem JavaScript können Sie JavaScript-Code auf jeder internen 200 OK-URL ausführen, die gecrawlt wurde (außer PDFs).

Sie können alle Arten von nützlichen Informationen aus einer Webseite extrahieren, die möglicherweise nicht in SEO Spider verfügbar sind, und mit APIs wie OpenAI’s ChatGPT, lokalen LLMs oder anderen Bibliotheken kommunizieren. Sie haben die Möglichkeit, URL-Inhalte auf der Festplatte zu speichern und in Textdateien auf der Festplatte zu schreiben.

Um ein benutzerdefiniertes JavaScript-Snippet einzurichten, klicken Sie auf „Config > Custom > JavaScript“. Klicken Sie dann auf „Add“, um mit der Einrichtung eines neuen Snippets zu beginnen, oder auf „Add from Library“, um ein vorhandenes Snippet auszuwählen.

Die Bibliothek enthält Beispiel-Snippets für verschiedene Aktionen, die als Inspiration für die Verwendung der Funktion dienen können, z. B. – Und vieles mehr.

  • Sentiment-, Intent- oder Sprachanalyse von Seiteninhalten.
  • Generieren von Bild-Alt-Text für Bilder.
  • Auslösen von Mouseover-Ereignissen.
  • Scrollen einer Seite (um einige unendliche Scroll-Einstellungen zu crawlen).
  • Extrahieren von Einbettungen aus Seiteninhalten.
  • Herunterladen und Speichern verschiedener Inhalte (z. B. Bilder) auf dem lokalen Rechner.

Sie können unsere vorgefertigten Snippets anpassen, indem Sie den darin enthaltenen Kommentaren folgen.

Sie können einen Filter für Inhaltstypen festlegen, damit das benutzerdefinierte JavaScript-Snippet nur für bestimmte Inhaltstypen ausgeführt wird.

Die Ergebnisse werden auf der Registerkarte „Benutzerdefiniertes JavaScript“ angezeigt.

Extraktions-Snippets

  • Extraktions-Snippets geben einen Wert oder eine Liste von Werten (Zahlen oder Zeichenfolgen) zurück und zeigen die Werte als Spalten auf der Registerkarte „Benutzerdefiniertes JavaScript“ an. Jeder Wert in einer Liste von Werten wird den Spalten auf der Registerkarte zugeordnet.
  • Bei der Ausführung von Extraktions-Snippets stoppt die Seite das Laden aller Ressourcen und beginnt mit der Ausführung des Snippets. Der SEO Spider schließt das Crawlen der Seite erst ab, wenn das Snippet vollständig ausgeführt wurde. Lang laufende Snippets können zu einer Zeitüberschreitung führen, sodass die Seite nicht gecrawlt werden kann.
  • Extraktions-Snippets können auch URLs herunterladen und in eine Textdatei schreiben. Wir haben beispielsweise ein Beispiel-Snippet, das alle Bilder von einer Webseite herunterladen kann, und ein weiteres Beispiel-Snippet, das alle Adjektive auf einer Webseite an eine CSV-Datei anhängt.

Aktions-Snippets

  • Aktions-Snippets geben keine Daten zurück, sondern führen nur Aktionen aus. Wir haben beispielsweise ein Beispiel-Snippet, das eine Webseite nach unten scrollt, sodass verzögert geladene Bilder gecrawlt werden können.
  • Bei der Ausführung von Aktions-Snippets lädt die Seite weiterhin Ressourcen, während das Aktions-Snippet ausgeführt wird. Sie müssen jedoch einen Timeout-Wert in Sekunden für das Snippet angeben. Wenn der Timer abläuft, beendet SEO Spider das Crawlen der Seite.

Wichtige Hinweise

  • Sie können mehrere Snippets gleichzeitig ausführen. Beachten Sie jedoch, dass die Crawling-Geschwindigkeit von der Anzahl und Art der ausgeführten Snippets beeinflusst wird.
  • Wenn Sie mehrere Snippets haben, werden alle Aktions-Snippets vor den Extraktions-Snippets ausgeführt.
  • Wenn Sie mehrere Aktions-Snippets mit unterschiedlichen Zeitüberschreitungswerten haben, verwendet der SEO Spider den maximalen Zeitüberschreitungswert aller Aktions-Snippets.
  • Extraktions-Snippets stoppen alle Seitenladevorgänge, sodass keine weiteren Anfragen mehr erfolgen. Aktions-Snippets unterliegen dieser Einschränkung nicht, aber Sie müssen einen Zeitüberschreitungswert festlegen.
  • Snippets haben Zugriff auf die Chrome Console Utilities API. Dadurch können Snippets Methoden wie getEventListeners() verwenden, auf die über normales JavaScript auf einer Webseite nicht zugegriffen werden kann. Ein Beispiel hierfür finden Sie im Beispiel-Snippet „Mouseover-Ereignisse auslösen”.

 

Verwendung der Extraction Snippet API

Für Extraction Snippets interagieren Sie mit dem SEO Spider über das seoSpider-Objekt, das eine Instanz der unten dokumentierten SEOSpider-Klasse ist. In der grundlegendsten Form verwenden Sie es wie folgt:

// Der SEO Spider zeigt „1” in einer einzelnen Spalte an

return seoSpider.data(1);// Der SEO Spider zeigt jede Zahl in einer separaten Spalte an

return seoSpider.data([1, 2, 3]);// Der SEO Spider zeigt „item1” in einer einzelnen Spalte an

return seoSpider.data(„item1“);// Der SEO Spider zeigt jede Zeichenfolge in einer separaten Spalte an

return seoSpider.data([‚item1‘, „item2“]);

Sie können auch Daten aus einem Promise an den SEO Spider zurücksenden. Der SEO Spider wartet, bis das Promise erfüllt ist. Auf diese Weise können Sie asynchrone Aufgaben wie Fetch-Anfragen ausführen, bevor Sie Daten an den SEO Spider zurücksenden. Beispiel:

let promise = new Promise(resolve => {

setTimeout(() => resolve(„done!“), 1000);

});

// sendet nach 1 Sekunde „done!” an den SEO Spider

return promise.then(msg => seoSpider.data(msg));

Bitte beachten Sie

Beachten Sie, dass Sie in allen oben genannten Extraction Snippet-Beispielen, auch im Promise-Beispiel, die Anweisung „return” aufrufen MÜSSEN, um die Ausführung der Funktion zu beenden. Der Grund dafür ist, dass der gesamte Snippet-Code vom SEO Spider implizit in einen IIFE (Immediately Invoked Function Expression) eingeschlossen wird. Damit sollen Konflikte im globalen JavaScript-Namespace bei der Ausführung von Snippets vermieden werden. Wenn Sie dies nicht tun, erhält der SEO Spider keine Daten.

Das folgende Beispiel zeigt, wie Ihr JavaScript-Snippet-Code implizit in einen IIFE eingeschlossen wird. Außerdem wird gezeigt, wie die seoSpider-Instanz für Sie erstellt wird, kurz bevor Ihr Code eingefügt wird.

(function () {

// seoSpider-Objekt für die Verwendung durch Ihr Snippet erstellt

const seoSpider = new SEOSpider();

// Ihr JavaScript-Snippet-Code wird hier eingefügt, z. B.:

return seoSpider.data(„data“);

})();
 

SEOSpider-Methoden

Diese Klasse bietet Methoden zum Zurücksenden von Daten an den SEO Spider. Rufen Sie „new“ nicht für diese Klasse auf, da Ihnen eine Instanz namens „seoSpider“ zur Verfügung gestellt wird.

data(data)

Geben Sie die bereitgestellten Daten an den SEO Spider zurück, damit sie auf der Registerkarte „Benutzerdefiniertes JavaScript“ angezeigt werden. Der Datenparameter kann eine Zeichenfolge oder eine Zahl oder eine Liste von Zeichenfolgen oder Zahlen sein. Wenn es sich bei den Daten um eine Liste handelt, wird jedes Element in der Liste in einer separaten Spalte auf der Registerkarte „Benutzerdefiniertes JavaScript“ angezeigt.

Beispiel:

// Alle H1- und H2-Überschriften von der Seite abrufen

let headings = Array.from(document.querySelectorAll(„h1, h2“))

.map(heading => heading.textContent.trim());

return seoSpider.data(headings);

error(msg)

Übergeben Sie alle Fehlermeldungen an den SEO Spider zurück. Diese Meldungen werden in einer Spalte der Registerkarte „Benutzerdefiniertes JavaScript“ angezeigt.

Beispiel:

return functionThatReturnsPromise()

.then(success => seoSpider.data(success))

.catch(error => seoSpider.error(error));

}

saveText(text, saveFilePath, shouldAppend)

Speichert den angegebenen Text unter saveFilePath.

Beispiel:

return seoSpider.saveText(‚some text‘, ‚/Users/john/file.txt‘, false);

saveUrls(urls, saveDirPath)

Lädt die angegebene Liste von URLs herunter und speichert jede davon im saveDirPath.

Beispiel:

return seoSpider.saveUrls([‚https://foo.com/bar/image.jpeg‘], ‚/Users/john/‘);

Hinweis:

Jede im Parameter „urls” angegebene URL wird in einer Verzeichnisstruktur gespeichert, die dem URL-Pfad folgt. Im obigen Beispiel mit der URL

‚https://foo.com/bar/image.jpeg‘

und dem „saveDirPath”

‚/Users/john/‘

wird die URL in der folgenden Ordnerstruktur gespeichert:

‚/Users/John/https/foo.com/bar/image.jpeg‘

loadScript(src) → {Promise}

Lädt externe Skripte zur Verwendung durch das Snippet. Das Skript wird asynchron geladen. Sie schreiben Ihren Code in die „then“-Klausel, wie im folgenden Beispiel gezeigt.

Beispiel:

return seoSpider.loadScript(„your_script_url“)

.then(() => {

// Das Skript ist nun geladen, Sie können es ab hier verwenden

...

// Daten an SEO Spider zurückgeben

return seoSpider.data(your_data)

})

.catch(error => seoSpider.error(error));

 

Teilen Sie Ihre Snippets

Sie können Ihre eigenen Snippets einrichten, die in Ihrer Benutzerbibliothek gespeichert werden, und dann die Bibliothek als JSON exportieren/importieren, um sie mit Kollegen zu teilen.

JavaScript-Snippets können auch in Ihrer Konfiguration gespeichert werden.

Bitte vergessen Sie nicht, sensible Daten wie API-Schlüssel zu entfernen, bevor Sie sie mit anderen teilen.

Debugging von Snippets

Bei der Verwendung von benutzerdefiniertem JavaScript können Probleme mit voreingestellten JavaScript-Snippets oder Ihrem eigenen benutzerdefinierten JavaScript auftreten, die ein Debugging erfordern.

Bitte lesen Sie unser Tutorial „So debuggen Sie benutzerdefinierte JavaScript-Snippets“, das Sie durch den Debugging-Prozess und häufige Fehler führt.

Snippet-Support

Aufgrund der technischen Natur dieser Funktion können wir leider keinen Support für das Schreiben und Debuggen Ihrer eigenen benutzerdefinierten JavaScript-Snippets anbieten.

Google Analytics-Integration

Konfiguration > API-Zugriff > Google Analytics 4

Sie können eine Verbindung zur GA4-API herstellen und Daten direkt während eines Crawls abrufen. Der SEO Spider kann Benutzer- und Sitzungsmetriken sowie wichtige Ereignisse und E-Commerce-Daten (Transaktionen und Einnahmen) für Landing Pages abrufen, sodass Sie bei der Durchführung einer technischen oder inhaltlichen Prüfung Ihre leistungsstärksten Seiten anzeigen können.

Um dies einzurichten, starten Sie den SEO Spider, gehen Sie zu „Konfiguration > API-Zugriff“ und wählen Sie „Google Analytics 4“.

Verbinden Sie sich anschließend mit einem Google-Konto (das Zugriff auf das Analytics-Konto hat, das Sie abfragen möchten), indem Sie der App „Screaming Frog SEO Spider“ die Berechtigung zum Zugriff auf Ihr Konto erteilen, um die Daten abzurufen.

Google-APIs verwenden das OAuth 2.0-Protokoll für die Authentifizierung und Autorisierung. Der SEO Spider speichert alle Google-Konten, die Sie in der Liste autorisieren, sodass Sie sich bei jedem Start der Anwendung schnell „verbinden“ können.

Sobald die Verbindung hergestellt ist, können Sie das Analytics-Konto, die Eigenschaft und den Datenstrom auswählen.

Wählen Sie dann einfach die Metriken aus, die Sie für GA4 abrufen möchten –

Standardmäßig erfasst der SEO Spider die folgenden 7 Metriken in GA4 – Für GA4 können Sie bis zu 65 Metriken auswählen, die über die API verfügbar sind.

  1. Sitzungen
  2. Engagierte Sitzungen
  3. Engagement-Rate
  4. Aufrufe
  5. Conversions
  6. Anzahl der Ereignisse
  7. Gesamtumsatz

Weitere Informationen zu den verfügbaren Metriken und deren Definitionen von Google für GA4 finden Sie im GA4 Dimensions & Metrics Explorer.

Sie können die Dimension jeder einzelnen Metrik entweder anhand der vollständigen Seiten-URL („Seitenpfad“ in UA) oder der Landing Page festlegen, die sich deutlich voneinander unterscheiden (und je nach Szenario und Zielen beide nützlich sind).

Bei GA4 gibt es auch eine Registerkarte „Filter“, über die Sie zusätzliche Dimensionen auswählen können. Sie können beispielsweise die Gruppierung nach Erstnutzern oder Sitzungskanälen mit Dimensionswerten wie „organische Suche“ auswählen, um die Anzeige auf einen bestimmten Kanal zu beschränken.

Es gibt Szenarien, in denen URLs in Google Analytics möglicherweise nicht mit URLs in einem Crawl übereinstimmen. Diese werden durch automatisches Abgleichen von URLs mit und ohne Schrägstrich am Ende sowie durch Groß-/Kleinschreibung (Groß- und Kleinbuchstaben in URLs) abgedeckt. Google übermittelt das Protokoll (HTTP oder HTTPS) nicht über seine API, sodass diese ebenfalls automatisch abgeglichen werden.

Wenn Sie eine der oben genannten Optionen auswählen, beachten Sie bitte, dass die Daten aus Google Analytics nach Sitzungen sortiert sind, sodass der Abgleich mit der URL mit der höchsten Anzahl an Sitzungen durchgeführt wird. Die Daten für diese URLs werden nicht aggregiert.

Die folgenden Optionen sind verfügbar:

  • URLs mit und ohne abschließenden Schrägstrich abgleichen – Ermöglicht sowohl http://example.com/contact als auch http://example.com/contact/, entweder mit http://example.com/contact oder http://example.com/contact/ aus GA abzugleichen, je nachdem, welche die höchste Anzahl an Sitzungen aufweist.
  • Groß- und kleingeschriebene URLs abgleichen – Ermöglicht es, dass http://example.com/contact.html, http://example.com/Contact.html und http://example.com/CONTACT.html mit der Version dieser URL aus GA mit der höchsten Anzahl an Sitzungen abgeglichen werden.
  • Maximale Ergebnisse begrenzen – Wenn Sie Hunderttausende von URLs in GA haben, können Sie die Anzahl der abzufragenden URLs begrenzen, die standardmäßig nach Sitzungen sortiert sind, um die Daten der 100.000 URLs mit der besten Leistung anzuzeigen.
  • Neue in Google Analytics entdeckte URLs crawlen – Das bedeutet, dass alle neuen URLs, die in Google Analytics entdeckt werden (und nicht über Hyperlinks gefunden werden), gecrawlt werden. Wenn diese Option nicht aktiviert ist, können neue URLs, die über Google Analytics entdeckt werden, nur im Bericht „Orphan Pages“ (Verwaiste Seiten) angezeigt werden. Sie werden nicht zur Crawling-Warteschlange hinzugefügt, sind nicht in der Benutzeroberfläche sichtbar und erscheinen nicht unter den entsprechenden Registerkarten und Filtern. Bitte lesen Sie unseren Leitfaden zum Auffinden von verwaisten Seiten.

Die Google Analytics-Daten werden abgerufen und in den entsprechenden Spalten auf den Registerkarten „Intern“ und „Analytics“ angezeigt.

Oben rechts befindet sich eine „API“-Fortschrittsanzeige. Wenn diese 100 % erreicht hat, werden die Analysedaten in Echtzeit neben den URLs angezeigt. Je mehr URLs und Metriken abgefragt werden, desto länger kann dieser Vorgang dauern, aber in der Regel geht er sehr schnell.

Derzeit gibt es 5 Filter unter der Registerkarte „Analytics”, mit denen Sie die Google Analytics-Daten filtern können –

  • Sitzungen über 0 – Dies bedeutet einfach, dass die betreffende URL 1 oder mehr Sitzungen hat.
  • Absprungrate über 70 % – Dies bedeutet, dass die URL eine Absprungrate von über 70 % hat, was Sie möglicherweise untersuchen möchten. In einigen Fällen ist dies jedoch normal!
  • Keine GA-Daten – Dies bedeutet, dass die Google-API für die abgefragten Metriken und Dimensionen keine Daten für die URLs im Crawl zurückgegeben hat. Die URLs haben also entweder keine Besuche oder Sitzungen erhalten, oder die URLs im Crawl unterscheiden sich aus irgendeinem Grund von denen in GA.
  • Nicht indexierbar mit GA-Daten – Dies bedeutet, dass die URL nicht indexierbar ist, aber dennoch Daten aus GA enthält.
  • Orphan-URLs – Das bedeutet, dass die URL nur über GA entdeckt wurde und während des Crawls nicht über einen internen Link gefunden wurde.

Bitte beachten Sie, dass Google-APIs das OAuth 2.0-Protokoll für die Authentifizierung und Autorisierung verwenden und die über Google Analytics und andere APIs bereitgestellten Daten nur lokal auf Ihrem Computer zugänglich sind. Wir können diese Daten nicht einsehen und speichern sie auch nicht selbst.

Die Nutzung der Google Analytics 4-API unterliegt den Standard-Property-Kontingenten für Core-Tokens.
 

Integration der Google Search Console

Konfiguration > API-Zugriff > Google Search Console

Sie können eine Verbindung zu den APIs „Google Search Analytics“ und „URL Inspection“ herstellen und Daten direkt während eines Crawls abrufen.

Standardmäßig ruft SEO Spider Impressionen, Klicks, CTR und Positionsmetriken aus der Search Analytics API ab, sodass Sie bei der Durchführung einer technischen oder inhaltlichen Prüfung Ihre leistungsstärksten Seiten anzeigen können.

Optional können Sie neben den Suchanalysedaten auch „URL-Inspektion aktivieren” auswählen, wodurch Sie Google-Indexstatusdaten für bis zu 2.000 URLs pro Eigenschaft und Tag erhalten. Dazu gehört auch, ob die „URL bei Google vorhanden ist” oder „die URL nicht bei Google vorhanden ist” sowie die Abdeckung.

Um dies einzurichten, gehen Sie zu „Konfiguration > API-Zugriff > Google Search Console”.

Verbinden Sie sich mit einem Google-Konto (das Zugriff auf das Search Console-Konto hat, das Sie abfragen möchten), indem Sie der App „Screaming Frog SEO Spider“ die Berechtigung zum Zugriff auf Ihr Konto erteilen, um die Daten abzurufen. Google-APIs verwenden das OAuth 2.0-Protokoll für die Authentifizierung und Autorisierung. Der SEO Spider speichert alle Google-Konten, die Sie in der Liste autorisieren, sodass Sie sich bei jedem Start der Anwendung schnell „verbinden“ können.

Sobald Sie verbunden sind, können Sie die relevante Website-Eigenschaft auswählen.

Standardmäßig sammelt der SEO Spider die folgenden Metriken für die letzten 30 Tage: –

  • Klicks
  • Impressionen
  • CTR
  • Position

Wenn Sie in der Konfiguration auf die Registerkarte „Search Analytics“ klicken, können Sie den Datumsbereich, die Dimensionen und verschiedene andere Einstellungen anpassen.

Wenn Sie neue URLs crawlen möchten, die Sie in der Google Search Console entdeckt haben, um potenzielle verwaiste Seiten zu finden, denken Sie daran, die unten gezeigte Konfiguration zu aktivieren.

Optional können Sie zur Registerkarte „URL-Inspektion“ navigieren und „URL-Inspektion aktivieren“ auswählen, um Daten über den Indexierungsstatus von bis zu 2.000 URLs im Crawl zu sammeln.

Der SEO Spider crawlt standardmäßig in Breitenrichtung, d. h. über die Crawltiefe von der Startseite des Crawls aus. Die ersten 2.000 gefundenen HTML-URLs werden abgefragt. Konzentrieren Sie den Crawl daher auf bestimmte Abschnitte, verwenden Sie die Konfiguration für include und exclude oder den List-Modus, um die Daten zu den wichtigsten URLs und Vorlagen zu erhalten, die Sie benötigen.

Die folgenden Konfigurationsoptionen sind verfügbar:

  • Nicht indexierbare URLs für die URL-Überprüfung ignorieren – Das bedeutet, dass alle URLs im Crawl, die als „nicht indexierbar“ klassifiziert sind, nicht über die API abgefragt werden. Es werden nur indexierbare URLs abgefragt, was Ihnen helfen kann, Ihr Überprüfungs-Kontingent zu sparen, wenn Sie sich mit der Einrichtung Ihrer Websites sicher sind.
  • Mehrere Eigenschaften verwenden – Wenn mehrere Eigenschaften für dieselbe Domain verifiziert sind, erkennt SEO Spider automatisch alle relevanten Eigenschaften im Konto und verwendet die spezifischste Eigenschaft, um Daten für die URL anzufordern. Das bedeutet, dass es nun möglich ist, weit mehr als 2.000 URLs mit URL-Inspektions-API-Daten in einem einzigen Crawl zu erhalten, wenn mehrere Eigenschaften eingerichtet sind – ohne mehrere Crawls durchführen zu müssen.

Die URL-Inspektions-API enthält die folgenden Daten.

  • Zusammenfassung – Eine allgemeine Bewertung, ob die URL indexiert ist und in den Google-Suchergebnissen angezeigt werden kann. „URL ist bei Google vorhanden“ bedeutet, dass die URL indexiert wurde, in den Google-Suchergebnissen angezeigt werden kann und keine Probleme mit den Verbesserungen auf der Seite (Rich Results, Mobile, AMP) festgestellt wurden. „URL ist bei Google vorhanden, weist jedoch Probleme auf“ bedeutet, dass sie indexiert wurde und in den Google-Suchergebnissen angezeigt werden kann, aber einige Probleme mit der mobilen Benutzerfreundlichkeit, AMP oder Rich Results bestehen, die dazu führen können, dass sie nicht optimal angezeigt wird. „URL ist nicht bei Google“ bedeutet, dass sie nicht von Google indexiert wurde und nicht in den Suchergebnissen erscheint. Dieser Filter kann sowohl nicht indexierbare URLs (z. B. solche mit „noindex“) als auch indexierbare URLs umfassen, die indexiert werden können.
  • Abdeckung – Eine kurze, beschreibende Begründung für den Status der URL, die erklärt, warum die URL bei Google vorhanden ist oder nicht.
  • Letztes Crawling – Das letzte Mal, dass diese Seite von Google gecrawlt wurde, in Ihrer Ortszeit. Alle in diesem Tool angezeigten Informationen stammen aus dieser zuletzt gecrawlten Version.
  • Gecrawlt als – Der für das Crawling verwendete User-Agent-Typ (Desktop oder Mobilgerät).
  • Crawling erlaubt – Gibt an, ob Ihre Website Google das Crawling (Besuchen) der Seite erlaubt oder sie mit einer robots.txt-Regel blockiert hat.
  • Seitenabruf – Gibt an, ob Google die Seite tatsächlich von Ihrem Server abrufen konnte. Wenn das Crawling nicht erlaubt ist, wird in diesem Feld ein Fehler angezeigt.
  • Indizierung erlaubt – Gibt an, ob Ihre Seite die Indizierung ausdrücklich verboten hat. Wenn die Indizierung verboten ist, wird der Grund dafür angegeben, und die Seite wird nicht in den Google-Suchergebnissen angezeigt.
  • Vom Benutzer deklarierte kanonische URL – Wenn Ihre Seite explizit eine kanonische URL deklariert, wird diese hier angezeigt.
  • Von Google ausgewählte kanonische URL – Die Seite, die Google als kanonische (maßgebliche) URL ausgewählt hat, als es ähnliche oder doppelte Seiten auf Ihrer Website gefunden hat.
  • Mobile Usability – Gibt an, ob die Seite für Mobilgeräte optimiert ist oder nicht.
  • Probleme mit der mobilen Usability – Wenn die Seite nicht für Mobilgeräte optimiert ist, wird in dieser Spalte eine Liste mit Fehlern bei der mobilen Usability angezeigt.
  • AMP-Ergebnisse – Eine Bewertung, ob die AMP-URL gültig oder ungültig ist oder Warnungen enthält. „Gültig“ bedeutet, dass die AMP-URL gültig ist und indexiert wird. „Ungültig“ bedeutet, dass die AMP-URL einen Fehler enthält, der die Indexierung verhindert. „Gültig mit Warnungen“ bedeutet, dass die AMP-URL indexiert werden kann, aber einige Probleme vorliegen, die verhindern könnten, dass sie alle Funktionen nutzt, oder dass sie Tags oder Attribute verwendet, die veraltet sind und in Zukunft möglicherweise ungültig werden.
  • AMP-Probleme – Wenn die URL AMP-Probleme aufweist, wird in dieser Spalte eine Liste der AMP-Fehler angezeigt.
  • Rich Results – Eine Bewertung, ob die auf der Seite gefundenen Rich Results gültig, ungültig oder mit Warnungen versehen sind. „Gültig“ bedeutet, dass Rich Results gefunden wurden und für die Suche geeignet sind. „Ungültig“ bedeutet, dass ein oder mehrere Rich Results auf der Seite einen Fehler aufweisen, der verhindert, dass sie für die Suche geeignet sind. „Gültig mit Warnungen“ bedeutet, dass die Rich Results auf der Seite für die Suche geeignet sind, aber einige Probleme vorliegen, die möglicherweise verhindern, dass sie alle Funktionen nutzen können.
  • Rich-Result-Typen – Eine durch Kommas getrennte Liste aller Rich-Result-Erweiterungen, die auf der Seite gefunden wurden.
  • Fehler bei Rich Results-Typen – Eine durch Kommas getrennte Liste aller Rich Results-Erweiterungen, die mit einem Fehler auf der Seite gefunden wurden. Um bestimmte gefundene Fehler zu exportieren, verwenden Sie den Export „Massexport > URL-Prüfung > Rich Results“.
  • Warnungen bei Rich Results – Eine durch Kommas getrennte Liste aller Rich Results-Erweiterungen, die mit einer Warnung auf der Seite gefunden wurden. Um bestimmte gefundene Warnungen zu exportieren, verwenden Sie den Export „Massexport > URL-Prüfung > Rich Results“.

 

Weitere Informationen zu den indizierten URL-Ergebnissen von Google finden Sie hier.

Unter der Registerkarte „Search Console“ befinden sich 11 Filter, mit denen Sie die Google Search Console-Daten aus beiden APIs filtern können.

  • Klicks über 0 – Dies bedeutet einfach, dass die betreffende URL einen oder mehrere Klicks hat.
  • Keine Suchanalysedaten – Dies bedeutet, dass die Suchanalyse-API keine Daten für die URLs im Crawl zurückgegeben hat. Die URLs haben also entweder keine Impressionen erhalten, oder die URLs im Crawl unterscheiden sich aus irgendeinem Grund von denen in GSC.
  • Nicht indexierbar mit Suchanalysedaten – URLs, die als nicht indexierbar klassifiziert sind, aber über Google-Suchanalysedaten verfügen.
  • Verwaiste URLs – URLs, die über Google Search Analytics entdeckt wurden und nicht über interne Links während eines Crawls. Dieser Filter erfordert, dass „Neue URLs crawlen, die in der Google Search Console entdeckt wurden“ unter der Registerkarte „Allgemein“ des Konfigurationsfensters der Google Search Console (Konfiguration > API-Zugriff > Google Search Console) aktiviert ist und der Beitrag „Crawl-Analyse“ ausgefüllt ist. Bitte lesen Sie unseren Leitfaden zum Auffinden verwaisten Seiten.
  • URL ist nicht bei Google – Die URL wird von Google nicht indexiert und erscheint nicht in den Suchergebnissen. Dieser Filter kann sowohl nicht indexierbare URLs (z. B. solche mit „noindex”) als auch indexierbare URLs umfassen, die indexiert werden können. Es handelt sich um einen Sammelfilter für alles, was laut API nicht bei Google zu finden ist.
  • Indizierbare URL nicht indiziert – Indizierbare URLs, die beim Crawling gefunden wurden, aber nicht von Google indiziert sind und nicht in den Suchergebnissen erscheinen. Dazu können URLs gehören, die Google nicht bekannt sind, oder solche, die entdeckt, aber nicht indiziert wurden, und vieles mehr.
  • URL ist bei Google, weist jedoch Probleme auf – Die URL wurde indexiert und kann in den Google-Suchergebnissen erscheinen, aber es gibt einige Probleme mit der mobilen Benutzerfreundlichkeit, AMP oder Rich Results, die dazu führen können, dass sie nicht optimal angezeigt wird.
  • Vom Benutzer deklarierte kanonische URL nicht ausgewählt – Google hat sich dafür entschieden, eine andere URL zu indexieren als die vom Benutzer im HTML deklarierte. Canonicals sind Hinweise, und manchmal leistet Google dabei hervorragende Arbeit, manchmal ist das Ergebnis jedoch weniger ideal.
  • Seite ist nicht mobilfreundlich – Die Seite weist Probleme auf Mobilgeräten auf.
  • AMP-URL ist ungültig – Die AMP weist einen Fehler auf, der ihre Indizierung verhindert.
  • Rich Result ungültig – Die URL weist einen Fehler mit einer oder mehreren Rich-Result-Erweiterungen auf, der verhindert, dass das Rich Result in den Google-Suchergebnissen angezeigt wird. Um bestimmte gefundene Fehler zu exportieren, verwenden Sie den Export „Bulk Export > URL Inspection > Rich Results” (Massen-Export > URL-Prüfung > Rich Results).

Bitte lesen Sie unser Tutorial „How To Automate The URL Inspection API” (Wie man die URL-Prüfungs-API automatisiert).
 

PageSpeed Insights-Integration

Konfiguration > API-Zugriff > PageSpeed Insights

Sie können eine Verbindung zur Google PageSpeed Insights-API herstellen und während eines Crawls direkt Daten zur Seitengeschwindigkeit und zur mobilen Benutzerfreundlichkeit abrufen.

PageSpeed Insights verwendet Lighthouse, sodass SEO Spider in der Lage ist, Lighthouse-Geschwindigkeitsmetriken anzuzeigen, Geschwindigkeitsdaten und Diagnosen in großem Umfang zu analysieren und reale Daten aus dem Chrome User Experience Report (CrUX) zu sammeln, der Core Web Vitals aus der Echtzeit-Benutzerüberwachung (RUM) enthält. Lighthouse ist auch in der Lage, Probleme mit der mobilen Benutzerfreundlichkeit zu melden.

Es gibt zwei Optionen zum Ausführen von PageSpeed Insights: „Remote“ und „Lokal“.

  • Remote bedeutet, dass Lighthouse auf URLs auf einem Remote-Server ausgeführt wird und die Daten über die API an den SEO Spider zurückgegeben werden. Der Vorteil dabei ist, dass die Ausführung von Lighthouse keine Ressourcen Ihres Computers beansprucht. Außerdem können CrUX-Seitengeschwindigkeitsdaten abgerufen werden.
  • Local bedeutet, dass Lighthouse direkt auf dem Computer des Benutzers ausgeführt wird. Die Vorteile bestehen darin, dass dies für Websites verwendet werden kann, für deren Zugriff eine Authentifizierung erforderlich ist, und dass es nicht wie die API auf 25.000 Abfragen pro Tag beschränkt ist. CrUX-Daten sind jedoch nicht verfügbar, wenn Lighthouse lokal ausgeführt wird.

Starten Sie SEO Spider und gehen Sie zu „Konfiguration > API-Zugriff > PageSpeed Insights“, wählen Sie die „Quelle“, geben Sie bei Bedarf einen kostenlosen PageSpeed Insights-API-Schlüssel ein, wählen Sie Ihre Metriken aus, stellen Sie eine Verbindung her und crawlen Sie.
 

Einrichten eines PageSpeed Insights-API-Schlüssels

Um einen kostenlosen PageSpeed Insights-API-Schlüssel einzurichten, melden Sie sich bei Ihrem Google-Konto an und besuchen Sie die PageSpeed Insights-Seite „Erste Schritte“.

Scrollen Sie auf dieser Seite einen Absatz nach unten und klicken Sie auf die Schaltfläche „Schlüssel anfordern”.

Befolgen Sie dann die Schritte zum Erstellen eines Schlüssels, indem Sie einen Projektnamen eingeben, den Nutzungsbedingungen zustimmen und auf „Weiter” klicken.

Dadurch wird der Schlüssel für PSI aktiviert und ein API-Schlüssel bereitgestellt, der kopiert werden kann.

Kopieren Sie den Schlüssel und klicken Sie auf „Fertig“.

Fügen Sie diesen dann einfach in das Feld „Geheimer Schlüssel:“ unter „Konfiguration > API-Zugriff > PageSpeed Insights“ in SEO Spider ein und klicken Sie auf „Verbinden“. Dieser Schlüssel wird verwendet, wenn Sie die API unter https://www.googleapis.com/pagespeedonline/v5/runPagespeed aufrufen.

Das war’s, Sie sind jetzt verbunden! SEO Spider speichert Ihren geheimen Schlüssel, sodass Sie sich bei jedem Start der Anwendung schnell „verbinden“ können.

Wenn Ihr API-Schlüssel die Meldung „Verbindung fehlgeschlagen“ anzeigt, kann die Aktivierung einige Minuten dauern. Sie können auch überprüfen, ob die PSI-API in der API-Bibliothek gemäß unseren FAQ aktiviert wurde. Wenn sie nicht aktiviert ist, aktivieren Sie sie – dann sollten Sie eine Verbindung herstellen können.

Sobald Sie verbunden sind, können Sie unter der Registerkarte „Metriken“ Metriken und Geräte für die Abfrage auswählen.

Um die ermittelten Daten und Probleme anzuzeigen, rufen Sie die Registerkarten „PageSpeed“ und „Mobile“ in SEO Spider auf.

Die untere Registerkarte „Lighthouse-Details“ enthält detailliertere Informationen zu PageSpeed Insights und mobilen Problemen für jede URL.

Die folgenden Geschwindigkeitsmetriken, Einblicke und Diagnosen sowie mobilen Probleme können so konfiguriert werden, dass sie über die PageSpeed Insights API-Integration erfasst werden.

 

Übersicht Metriken

  • Gesamtgröße Einsparungen
  • Gesamtzeit Einsparungen
  • Gesamtanfragen
  • Gesamtseitengröße
  • HTML-Größe
  • HTML-Anzahl
  • Bildgröße
  • Bildanzahl
  • CSS-Größe
  • CSS-Anzahl
  • JavaScript-Größe
  • JavaScript-Anzahl
  • Schriftgröße
  • Schriftanzahl
  • Mediengröße
  • Medienanzahl
  • Sonstige Größe
  • Sonstige Anzahl
  • Drittanbietergröße
  • Drittanbieteranzahl

 

CrUX-Metriken („Felddaten” in PageSpeed Insights)

  • Bewertung der Core Web Vitals
  • CrUX First Contentful Paint Zeit (Sek.)
  • CrUX First Contentful Paint Kategorie
  • CrUX Largest Contentful Paint Zeit (Sek.)
  • CrUX Largest Contentful Paint Kategorie
  • CrUX Kumulative Layoutverschiebung
  • CrUX Kumulative Layoutverschiebung Kategorie
  • CrUX Interaktion bis zum nächsten Paint (ms)
  • CrUX-Interaktion bis zum nächsten Paint Kategorie
  • CrUX-Zeit bis zum ersten Byte (ms)
  • CrUX-Zeit bis zum ersten Byte Kategorie
  • CrUX-Ursprung Core Web Vitals-Bewertung
  • CrUX-Ursprung Erste Inhaltsanzeige (Sek.)
  • CrUX-Ursprung Erste Inhaltsanzeige Kategorie
  • CrUX-Ursprung Größte Inhaltsanzeige (Sek.)
  • CrUX-Ursprung Größte Inhaltsanzeige Kategorie
  • CrUX-Ursprung Kumulative Layoutverschiebung
  • CrUX Origin Kumulative Layoutverschiebung Kategorie
  • CrUX Origin Interaktion bis zum nächsten Paint (ms)
  • CrUX Origin Interaktion bis zum nächsten Paint Kategorie
  • CrUX Origin Zeit bis zum ersten Byte (ms)
  • CrUX Origin Zeit bis zum ersten Byte Kategorie

 

Lighthouse-Metriken („Labordaten” in PageSpeed Insights)

  • Leistungsbewertung
  • Zeit bis zum ersten inhaltsreichen Paint (Sek.)
  • Erste inhaltsreiche Malzeit-Bewertung
  • Geschwindigkeitsindex-Zeit (Sek.)
  • Geschwindigkeitsindex-Bewertung
  • Größte inhaltsreiche Malzeit (Sek.)
  • Größte inhaltsreiche Malzeit-Bewertung
  • Zeit bis zur Interaktivität (Sek.)
  • Zeit bis zur Interaktivität-Bewertung
  • Maximale potenzielle erste Eingabeverzögerung (ms)
  • Maximale potenzielle erste Eingabeverzögerung-Bewertung
  • Gesamtblockierungszeit (ms)
  • Gesamtblockierungszeit-Bewertung
  • Kumulative Layoutverschiebung
  • Kumulative Layoutverschiebung-Bewertung

 

Einblicke

  • Latenz bei Dokumentanfragen – Seiten mit Ressourcen, die weiterleiten, eine langsame Serverantwort haben oder keine Textkomprimierung anwenden. All dies kann zu Latenz und einer Verringerung der Seitengeschwindigkeit beitragen.
  • LCP-Anfrageerkennung – Seiten mit einer LCP-Anfrageerkennung (Largest Contentful Paint), die optimiert werden kann.
  • Render Blocking Requests – Seiten mit Ressourcen, die das erste Rendern der Seite blockieren, zusammen mit den potenziellen Einsparungen.
  • Network Dependency Tree – Seiten mit hoher Latenz auf dem kritischen Pfad, verursacht durch lange Ketten und große Download-Größen der Ressourcen.
  • Use Efficient Cache Lifetimes – Seiten mit Ressourcen, die nicht zwischengespeichert werden, zusammen mit den potenziellen Einsparungen.
  • Ursachen für Layoutverschiebungen – Seiten, auf denen es ohne Benutzerinteraktion zu Layoutverschiebungen bei DOM-Elementen kommt, z. B. wenn Elemente hinzugefügt oder entfernt werden oder sich ihre Schriftarten beim Laden der Seite ändern.
  • Verbesserung der Bildbereitstellung – Seiten, auf denen die Downloadzeit von Bildern reduziert werden kann, wodurch sich die wahrgenommene Ladezeit der Seite und der Largest Contentful Paint (LCP) verbessern.
  • Erzwungener Reflow – Seiten mit einem erzwungenen Reflow, der zu einer Verlangsamung der Darstellung und der Benutzerinteraktionen führen kann.
  • Legacy-JavaScript – Seiten mit Legacy-JavaScript. Polyfills und Transforms ermöglichen es älteren Browsern, neue JavaScript-Funktionen zu nutzen. Für moderne Browser sind viele davon jedoch nicht erforderlich.
  • Dupliziertes JavaScript – Seiten mit doppelten JavaScript-Bibliotheken in verschiedenen Code-Bundles. Lighthouse erkennt doppelten Code, der bei einmaligem Laden schneller wäre.
  • Vermeiden Sie enorme Netzwerk-Payloads – Seiten mit großen Netzwerk-Payloads, die die Seitengeschwindigkeit verringern können. Große Netzwerk-Payloads kosten die Benutzer echtes Geld und stehen in engem Zusammenhang mit langen Ladezeiten.

Diagnose

  • CSS minimieren – Seiten mit nicht minimierten CSS-Dateien, zusammen mit den potenziellen Einsparungen, wenn sie korrekt minimiert werden.
  • JavaScript minimieren – Seiten mit nicht minimierten JavaScript-Dateien, zusammen mit den potenziellen Einsparungen, wenn sie korrekt minimiert werden.
  • Reduzieren Sie ungenutztes CSS – Seiten mit ungenutztem CSS, zusammen mit den potenziellen Einsparungen, wenn unnötige Bytes entfernt werden.
  • Reduzieren Sie ungenutztes JavaScript – Seiten mit ungenutztem JavaScript, zusammen mit den potenziellen Einsparungen, wenn unnötige Bytes entfernt werden.
  • Reduzieren Sie die JavaScript-Ausführungszeit – Seiten mit durchschnittlicher oder langsamer JavaScript-Ausführungszeit.
  • Minimieren Sie die Arbeit des Haupt-Threads – Seiten mit durchschnittlicher oder langsamer Ausführungszeit im Haupt-Thread.
  • Optimieren Sie die DOM-Größe – Seiten mit einer großen DOM-Größe und einer großen Layout- oder Stil-Neuberechnung, die eine Dauer von 40 ms überschreitet.
  • Schriftartanzeige – Seiten mit Schriftarten, die während des Ladens der Seite flackern oder unsichtbar werden können.

Mobilfreundlich

  • Viewport nicht festgelegt – Seiten ohne Viewport-Meta-Tag oder mit einem Viewport-Meta-Tag ohne Inhaltsattribut, das den Text width= enthält.
  • Zielgröße – Seiten mit zu kleinen Tippzielen oder zu wenig Platz um sie herum, was bedeutet, dass sie auf Mobilgeräten schwer zu bedienen sind.
  • Inhaltsbreite – Seiten mit Inhalten, die kleiner oder größer als die Viewport-Breite sind, was bedeutet, dass sie auf Mobilgeräten möglicherweise nicht korrekt dargestellt werden.
  • Schriftgröße – Seiten mit kleinen Schriftgrößen, die für Benutzer auf Mobilgeräten schwer lesbar sein können.

Die Möglichkeiten zur Geschwindigkeitsoptimierung, Quellseiten und Ressourcen-URLs, die potenzielle Einsparungen bieten, können über das Menü „Berichte > PageSpeed“ gesammelt exportiert werden.
 

PageSpeed Insights API-Limits

Die API ist auf 25.000 Abfragen pro Tag bei 60 Abfragen pro 100 Sekunden pro Benutzer begrenzt. Der SEO Spider kontrolliert automatisch die Anzahl der Anfragen, um diese Limits einzuhalten. Mit diesen Limits kann der SEO Spider im besten Fall 36 URLs pro Minute anfordern. Für das Crawlen von 10.000 URLs würde dies also etwas mehr als 4,5 Stunden dauern.

Bitte konsultieren Sie den Abschnitt „Quoten” im API-Dashboard, um Ihre API-Nutzungsquote anzuzeigen.

PageSpeed Insights API-Fehler

Die Spalte „PSI-Status” zeigt an, ob eine API-Anfrage für eine URL erfolgreich war oder ob ein Fehler aufgetreten ist. Ein „Fehler” spiegelt in der Regel die Weboberfläche wider, wo Sie denselben Fehler und dieselbe Meldung sehen würden.

Die beiden häufigsten Fehlermeldungen sind:

  • „500: Anfrage kann nicht verarbeitet werden. Bitte warten Sie einen Moment und versuchen Sie es erneut“ – Dieser Fehler tritt in der Regel auch in der Weboberfläche auf. Unsere Tests haben ergeben, dass die PSI-API von Zeit zu Zeit Anfragen nicht verarbeiten kann, möglicherweise aufgrund der Gesamtlastkapazität. In diesem Fall empfehlen wir, den Crawl für 10 Minuten zu unterbrechen, bis er wieder verfügbar ist und in der Weboberfläche funktioniert, und dann mit der rechten Maustaste zu klicken und die URLs erneut zu crawlen. Dadurch werden die PSI-Daten für die ausgewählten URLs erneut angefordert und das Crawling sowie die Anforderung von API-Daten für andere URLs fortgesetzt.
  • „500: Lighthouse hat den Fehler ERRORED_DOCUMENT_REQUEST zurückgegeben. Lighthouse konnte die von Ihnen angeforderte Seite nicht zuverlässig laden.” – Dieser Fehler ist in der Regel auch in der Weboberfläche reproduzierbar und stellt kein Problem mit dem SEO Spider oder der API dar, sondern steht in direktem Zusammenhang mit dem von PSI durchgeführten Lighthouse-Audit. Leider hilft das erneute Crawlen dieser URLs zur erneuten Anforderung von API-Daten in der Regel nicht weiter. Sie können Google direkt über die Mailingliste Feedback zu allen aufgetretenen Fehlern geben oder Fragen über Stack Overflow stellen.

 

Majestic

Konfiguration > API-Zugriff > Majestic

Um Majestic nutzen zu können, benötigen Sie ein Abonnement, mit dem Sie Daten aus der API abrufen können. Navigieren Sie dann einfach zu „Konfiguration > API-Zugriff > Majestic“ und klicken Sie auf den Link „Open Apps-Zugriffstoken generieren“.

Sie werden dann zu Majestic weitergeleitet, wo Sie den Zugriff auf Screaming Frog SEO Spider „gewähren“ müssen.

Anschließend erhalten Sie von Majestic einen eindeutigen Zugriffstoken.

Kopieren Sie diesen Token und geben Sie ihn in das Feld „API-Schlüssel“ im Majestic-Fenster ein. Klicken Sie anschließend auf „Verbinden“.

Anschließend können Sie die Datenquelle (aktuell oder historisch) und die Metriken entweder auf URL-, Subdomain- oder Domain-Ebene auswählen.

Klicken Sie dann einfach auf „Start“, um den Crawl durchzuführen. Die Daten werden automatisch über die API abgerufen und können unter den Registerkarten „Link-Metriken“ und „Intern“ angezeigt werden.

 

Ahrefs

Konfiguration > API-Zugriff > Ahrefs

Um die Ahrefs-Integration nutzen zu können, benötigen Sie ein kostenpflichtiges Abonnement. Der SEO Spider verwendet Version 3 der API, für die kein Enterprise-Plan und kein direkter API-Zugriff erforderlich ist.

Die Integration erfolgt über Ahrefs Connect als verifizierte Drittanbieter-App, die API-Integrations-Einheiten aus Ihrem Abonnement nutzt. Jede Abonnementstufe hat ein monatliches API-Integrationslimit.

Bitte beachten Sie: Um Ahrefs nutzen zu können, müssen Sie über die Schaltfläche „Mit Ahrefs anmelden” in der App einen API-Zugriffstoken erstellen, um eine Verbindung über OAuth herzustellen. Sie können keinen API-Schlüssel in Ahrefs erstellen und diesen dann in das Tool eingeben.

Zur Einrichtung navigieren Sie zu „Konfiguration > API-Zugriff > Ahrefs“ und klicken Sie auf „Mit Ahrefs anmelden“.

Sie werden dann zu Ahrefs weitergeleitet, wo Sie Ihren Arbeitsbereich auswählen müssen.

Erlauben Sie anschließend den Zugriff auf Screaming Frog SEO Spider.

Sie erhalten dann einen eindeutigen Zugriffstoken von Ahrefs (gehostet auf der Screaming Frog-Domain).

Kopieren Sie diesen Token und fügen Sie ihn in das API-Schlüsselfeld im Ahrefs-Fenster ein und klicken Sie auf „OK“ –

Auf der Registerkarte „Kontoinformationen“ sollte nun angezeigt werden, dass Ihr Konto authentifiziert ist, zusammen mit dem Ablaufdatum des Tokens (Tokens sind 1 Jahr lang gültig). Klicken Sie unten rechts auf „Verbinden“.

Anschließend können Sie die Metriken auswählen, die Sie auf URL-, Subdomain- oder Domain-Ebene abrufen möchten.

Klicken Sie dann einfach auf „Start“, um den Crawl durchzuführen. Die Daten werden automatisch über die API abgerufen und können unter den Registerkarten „Link Metrics“ und „Internal“ angezeigt werden.

Moz

Konfiguration > API-Zugriff > Moz

Sie benötigen ein Moz-Konto, um Daten aus der Mozscape-API abzurufen. Moz bietet eine kostenlose, eingeschränkte API und eine separate kostenpflichtige API, mit der Benutzer mehr Metriken schneller abrufen können. Bitte beachten Sie, dass es sich hierbei um ein separates Abonnement zu einem Standard-Moz-PRO-Konto handelt.

Um mit einem kostenlosen Konto oder einem kostenpflichtigen Abonnement auf die API zuzugreifen, müssen Sie sich lediglich bei Ihrem Moz-Konto anmelden und Ihre API-ID und Ihren geheimen Schlüssel anzeigen.

Die API verwendet Version 3 ihrer API, sodass Sie lediglich einen einzelnen Zugriffstoken in den SEO Spider einfügen müssen.

Kopieren Sie den Moz-API-Token und fügen Sie ihn in das Feld „Access Token” im Moz-Kontoinformationsdialog unter „Config > API Access > Moz” ein, wählen Sie Ihren Kontotyp („free” oder „paid”) aus und klicken Sie auf „connect”.

Anschließend können Sie die Ihnen zur Verfügung stehenden Metriken basierend auf Ihrem kostenlosen oder kostenpflichtigen Tarif auswählen. Wählen Sie einfach die Metriken aus, die Sie auf URL-, Subdomain- oder Domain-Ebene abrufen möchten.

Klicken Sie dann einfach auf „Start“, um den Crawl durchzuführen. Die Daten werden automatisch über die API abgerufen und können unter den Registerkarten „Link-Metriken“ und „Intern“ angezeigt werden.

 

OpenAI

Konfiguration > API-Zugriff > KI > OpenAI

Um eine Verbindung zu OpenAI herzustellen, benötigen Sie ein mit Guthaben aufgeladenes OpenAI-Konto und einen OpenAI-API-Schlüssel. Dies unterscheidet sich von einem ChatGPT-Abonnement.

Sie können sich für ein OpenAI-Konto anmelden, als Verwendungszweck „API“ auswählen und dann im Abrechnungsbereich Guthaben auf das Konto laden.

Wenn Sie kein Guthaben auf das Konto einzahlen, funktioniert es nicht. Sie können einen festen Betrag zum Konto hinzufügen und die Ausgabengrenzen anpassen. Bitte lesen Sie sich die API-Preise und Token-Kosten sorgfältig durch.

Wenn Sie einen API-Schlüssel haben, kopieren Sie ihn und fügen Sie ihn in das Feld „API-Schlüssel“ auf der Registerkarte „OpenAI-Kontoinformationen“ ein.

Klicken Sie auf „Verbinden“, wenn Sie die Einrichtung für einen Crawl verwenden möchten.

Navigieren Sie zur Registerkarte „Prompt-Konfiguration“, um bis zu 100 Prompts für Crawl-Daten einzurichten.

Wählen Sie die Modellkategorie (ChatGPT, Moderation oder Embeddings), das verwendete OpenAI-Modell (z. B. „gpt-4o”), den Inhaltstyp und die für die Eingabeaufforderung zu verwendenden Daten, wie z. B. Fließtext, HTML oder eine benutzerdefinierte Extraktion, und schreiben Sie Ihre benutzerdefinierte Eingabeaufforderung.

Bitte beachten Sie: Um „Page Text“ oder „HTML“ für die Eingabeaufforderung zu verwenden, müssen Sie „Store HTML“ über „Config > Spider > Extraction“ aktivieren.

Um eine Eingabeaufforderung zu testen, verwenden Sie das „Play“-Symbol rechts neben dem Eingabefeld.

Geben Sie im OpenAI-Eingabeaufforderungstester die zu testende URL ein und klicken Sie auf die Schaltfläche „Test“, um sowohl die Extraktion als auch die Antwort anzuzeigen.

Die Daten aus der Eingabeaufforderung werden auf der Registerkarte „KI“ (und auf der Registerkarte „Intern“ neben Ihren üblichen Crawling-Daten) angezeigt.

Die Funktion „Aus Bibliothek hinzufügen“ enthält ein halbes Dutzend Eingabeaufforderungen als Inspiration.

Sie können Ihre eigenen Eingabeaufforderungen hinzufügen und anpassen, indem Sie auf die Schaltfläche „Aus Bibliothek hinzufügen“, dann auf „Benutzer“ und schließlich auf die Schaltfläche „+“ klicken.

Benutzerdefinierte Eingabeaufforderungen können über die Export- und Import-Schaltflächen oben geteilt werden.

 

Gemini

Konfiguration > API-Zugriff > KI > Gemini

Um eine Verbindung zur Gemini-API herzustellen, benötigen Sie einen API-Schlüssel. Sie können einen Schlüssel in Google AI Studio erstellen.

Klicken Sie auf „API-Schlüssel erstellen“, wählen Sie ein Projekt aus und richten Sie einen API-Schlüssel ein. Gemini ist nur in ausgewählten Regionen verfügbar, und es gibt kostenlose und kostenpflichtige Kontotypen mit unterschiedlichen Ratenbeschränkungen.

Bitte beachten Sie: Die kostenlose Version von Gemini ist derzeit sehr eingeschränkt. Das günstigste Chat-Modell ist auf nur 5 Anfragen pro Minute (RPM) beschränkt, während das Standard-Embedding-Modell auf 100 RPM begrenzt ist, in der Praxis jedoch bereits bei über 20 RPM Fehler auftreten (oh je, Google!).

Wenn Sie einen API-Schlüssel haben, kopieren Sie ihn und fügen Sie ihn in das Feld „API-Schlüssel“ auf der Registerkarte „Gemini-Kontoinformationen“ ein.

Klicken Sie auf „Verbinden“, wenn Sie die Einrichtung für einen Crawl verwenden möchten.

Navigieren Sie zur Registerkarte „Prompt-Konfiguration“, um bis zu 100 Prompts für Crawling-Daten einzurichten.

Wählen Sie die Modellkategorie (Gemini oder Embeddings), das verwendete Gemini-Modell (z. B. „gemini-2.5-flash“), den Inhaltstyp und die für den Prompt zu verwendenden Daten, wie z. B. Fließtext, HTML oder eine benutzerdefinierte Extraktion, und schreiben Sie Ihren benutzerdefinierten Prompt.

Bitte beachten Sie: Um „Seitentext“ oder „HTML“ für die Eingabeaufforderung zu verwenden, müssen Sie „HTML speichern“ über „Konfiguration > Spider > Extraktion“ aktivieren.

Um eine Eingabeaufforderung zu testen, verwenden Sie das „Wiedergabe“-Symbol rechts neben dem Eingabefeld.

Geben Sie im Gemini-Eingabeaufforderungstester die zu testende URL ein und klicken Sie auf die Schaltfläche „Testen“, um sowohl die Extraktion als auch die Antwort anzuzeigen.

Auf der Registerkarte „Erweitert“ können Sie die maximale Anzahl von Anfragen pro Minute für verschiedene Modelle anpassen.

Die beiden gängigsten Modelle sind für Chat und Einbettungen. Wenn Sie ein zahlender Nutzer sind, überprüfen Sie Ihre Ratenlimits in AI Studio und erhöhen Sie die RPM, um schneller Ergebnisse zu erhalten.

Zum Zeitpunkt der Erstellung dieses Artikels liegen die Ratenlimits für Gemini Paid Tier 1 bei 1.000 RPM für Chat und bei 3.000 RPM für Einbettungen.

Wenn Sie die Fehlermeldung „Fehler: Zu viele Anfragen, Sie haben Ihr aktuelles Kontingent überschritten, bitte überprüfen Sie Ihren Tarif und Ihre Rechnungsdaten“ erhalten, müssen Sie die Anzahl der Anfragen pro Minute reduzieren.

Die Daten aus der Eingabeaufforderung werden auf der Registerkarte „KI“ (und auf der Registerkarte „Intern“ neben Ihren üblichen Crawling-Daten) angezeigt.

Die Funktion „Aus Bibliothek hinzufügen“ enthält ein halbes Dutzend Eingabeaufforderungen als Inspiration.

Sie können Ihre eigenen Eingabeaufforderungen hinzufügen und anpassen, indem Sie auf die Schaltfläche „Aus Bibliothek hinzufügen“, dann auf „Benutzer“ und schließlich auf die Schaltfläche „+“ klicken.

Benutzerdefinierte Eingabeaufforderungen können über die Export- und Import-Schaltflächen oben geteilt werden.