Das Parsen von Websites kann zeitaufwändig sein, insbesondere wenn Sie generische Tools verwenden. Viele davon können jedoch an bestimmte Aufgaben angepasst werden, um den Prozess effizienter zu gestalten. Schauen wir uns am Beispiel eines beliebten SEO-Parsers an, wie das geht.
Der erste Schritt beim Einrichten eines Parsers ist die Auswahl eines Datenspeicherorts. Gehen Sie dazu in das Menü „Datei“ und wählen Sie „Einstellungen“. Wählen Sie „Datenspeichertyp“ aus der Dropdown-Liste. In diesem Abschnitt stehen zwei Optionen zur Verfügung:
Gehen Sie dann zurück zu den Einstellungen und wählen Sie „Speicherzuweisung“, um die Menge an RAM anzugeben, die das System verwenden kann. Dies ist nützlich, wenn auf Ihrem Computer parallel andere Aufgaben ausgeführt werden.
Als nächstes müssen Sie den Benutzeragenten konfigurieren. Gehen Sie zum Menü „Konfiguration“ und wählen Sie „User-Agent“. Hier können Sie den Benutzeragenten konfigurieren, der beim Parsen von Websites verwendet wird.
Sie können beispielsweise Standardagenten für mobile Geräte wählen, sodass sich der Parser als Bot tarnt und vollständige Informationen erhält, ohne von der Site blockiert zu werden.
Jetzt richten wir die Parsing-Geschwindigkeit ein. Gehen Sie zum Menü „Konfiguration“ und wählen Sie „Geschwindigkeit“. Hier können Sie die Anzahl der Threads angeben, die beim Herunterladen von Daten verwendet werden sollen. Für schwache Computer ist es optimal, zwischen 3 und 5 Threads zu wählen.
Wenn Sie nur bestimmte Abschnitte der Site überwachen müssen, konfigurieren Sie diese im Abschnitt „Konfigurationen“ über den Punkt „Einschließen“. Hier können Sie den Pfad zur gewünschten Partition eingeben, um zu prüfen, ob diese in den Parsing-Prozess einbezogen wird.
Sollte ein Abschnitt nicht in der Auswahl enthalten sein, erscheint eine entsprechende Benachrichtigung. Um Abschnitte vom Parsen auszuschließen, verwenden Sie den Punkt „Ausschließen“.
Gehen Sie zu „Konfiguration“, wählen Sie „Spider“ und konfigurieren Sie den Datenscantyp. Hier können Sie genau auswählen, welche Daten gescannt werden sollen, und so unnötige Arten von Informationen deaktivieren.
Wenn die Site nicht zu groß ist, können Sie die Standardeinstellungen belassen und alle verfügbaren Daten crawlen.
Um nach problematischen Seiten zu suchen, verbinden Sie Ihr Google-Konto. Gehen Sie zu „Konfiguration“, dann zu „API-Zugriff“ und wählen Sie Google Search Console aus. Auf diese Weise können Sie schnell Seiten finden, auf die keine Links verweisen, und das Problem beheben.
Wählen Sie als Nächstes aus, wie der Parser mit der robots.txt-Datei arbeiten soll. Wählen Sie unter „Konfiguration“ eine der folgenden Optionen:
Wenn Sie dieselben Einstellungen häufig verwenden, empfiehlt es sich, diese als Standard zu speichern. Wählen Sie dazu im Menü „Konfiguration“ den Eintrag „Aktuelle Konfiguration als Standard speichern“. Sie können auch mehrere Profile für verschiedene Aufgaben erstellen und schnell zwischen ihnen wechseln.
Wenn Sie Fragen haben oder Hilfe bei der Einrichtung von SEO-Tools benötigen, schreiben Sie dem SEO-Studio „SEO COMPUTER“ per E-Mail info@seo.computer.
ID 4473