Wie die Suchmaschine die Datei robots.txt für Ihre Google -Site verarbeitet

Automatische Roboter von Suchmaschinen folgen den Regeln für Roboter Exclusion Protocol (REP), dh vor dem Scannen der Site liest die Suchmaschine die Datei robots.txtUm festzustellen, welche Abschnitte der Website für die Indexierung zugelassen oder verboten sind. Dieses Protokoll gilt nicht für Tools, die von Benutzern oder Mitarbeitern von Sicherheitszielen gesteuert werden (z. B. Scannen nach böswilliger Software).

Dieses Material erklärt ausführlich, wie die Richtlinien von Rep interpretiert werden. Die ursprüngliche Spezifikation finden Sie in RFC 9309.

Wie lautet die Datei von Robots.txt der Website in Google?

Wenn Sie nicht möchten, dass einige Teile Ihrer Website von Suchmaschinen indiziert werden, erstellen Sie eine Robots.txt -Datei mit den erforderlichen Regeln. Dies ist ein einfaches Textdokument, das angibt, welche Suchstiefel der Zugriff zugelassen und welche verboten sind. Ein Beispiel für eine Dateistruktur:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Wenn Sie zum ersten Mal auf Robots.txt stoßen, studieren Sie zunächst die Grundlagen und praktischen Tipps für die Erstellung.

Dateistandort und Aktionsbereich auf Ihrer Google -Website

Die Datei robots.txt sollte sich im Stammkatalog der Website befinden und im unterstützten Protokoll verfügbar sein. Die Suchmaschine berücksichtigt den Namen Protokoll, Port und Domainn. Beispielsweise wird die Datei nur für denselben Host wie ihren Standort verwendet, einschließlich des Protokolls und des Ports.

Beispiele für die zulässige URL für die Datei robots.txt in Google

Hier sind Beispiele für die richtigen Möglichkeiten für die Datei und ihre Aktion:

Https: // Beispiel - Wir bewerben uns nur für diese Domain und diesen Port.
Https: // vvv. Beispiel - Nur für Pododen www.
Https: // Beispiel.kom/ Ordner/ Roboter - - Es ist nicht akzeptabel.
Ftp: // Beispiel -Nur für die FTP -Anwendung.

Verarbeitungsfehler und Antwortcodes Ihres Site -Servers in Google

Das Verhalten des Suchroboters hängt vom HTTP -Code ab, der empfangen wird, wenn die Datei angefordert wird:

2xx - Die Datei wird verarbeitet.
3xx - Mehr als fünf Weiterleitungen gelten als 404.
4xx (außer 429) - Es wird angenommen, dass die Datei nicht vorhanden ist, es gibt keine Einschränkungen.
5xx - Das Scannen wird je nach Bedingungen suspendiert oder verschoben.

Robots.txt Caching Search Engine Google

Der Inhalt zwischen bis zu 24 Stunden, manchmal länger - mit Ladenfehlern. Titel Cache-Control kann die Speicherdauer einer Kopie beeinflussen.

Robots.txt -Format für Ihre Google -Site

Die Datei sollte sich in der UTF-8-Codierung befinden, einfacher Text. Übersetzungen von Linien sind in jedem Format zulässig (CR, LF, CRLF). Falsches Zeilen werden wie geborene, nicht unterstützte Symbole ignoriert.

Die maximal zulässige Dateigröße beträgt 500 KIB. Alles, was diesen Band übersteigt, wird ignoriert.

Robots.txt Regeln Syntax Site an Google

Jede Zeile enthält ein Feld, einen Dickdarm und einen Wert. Die folgenden Felder werden unterstützt:

user-agent - bestimmt, welcher Bot zur Regel gehört;
disallow - verbietet den Zugriff auf einen bestimmten Weg;
allow - Ermöglicht den Zugriff auf den Pfad (auch wenn es Verbotsregeln gibt);
sitemap -Indiziert den Standort der XML -Site der Website.

Benutzeragenten in der Datei robots.txt in Google

Dies ist der Name des Suchbots, der diese Regeln enthält. Der Wert ist nicht empfindlich gegenüber dem Register.

Nicht zulassen: Seiten Ihrer Website in Google verbieten

Verbietet den Zugriff auf bestimmte Pfade. Wenn der Pfad nicht angegeben ist, wird die Regel ignoriert. Wert sensibel für das Register.

Ermöglichen: Erlaubnis zum Scannen des Inhalts der Website in Google

Ermöglicht den Zugriff auf die URL. Es funktioniert in Verbindung mit anderen Regeln, mit einem Konflikt, der am wenigsten restriktiv ausgewählt wird.

SITEMAP: Angeben Sie die Site -Karte in Google an

Die Website der URL der Website ist vollständig angegeben. Das Feld kann wiederholt werden. Es kann sich auf einer anderen Domäne befinden. Nicht an einen bestimmten Bot angeschlossen.

Gruppierung von Regeln für die Benutzer-Agent-Website in Google

Sie können mehrere Gruppen mit unterschiedlichem oder gleichem Benutzer-Agent angeben. Zum Beispiel:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Priorität der Regeln für die Benutzer-Agent-Website in Google

Jeder Bot verwendet nur eine Gruppe von Regeln-die am besten geeigneten benannten Benutzer-Agent. Allgemeine Regeln p * Sie werden verwendet, wenn es keine spezifischen gibt.

Ein Beispiel für die Verarbeitung von Benutzeragenten in Robots.txt Ihrer Google-Site

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Bot bot-news Verwendet die erste Gruppe, bot - Das dritte, alle anderen sind die zweiten.

Wie wird die URL in die in Google verwendeten Robots.txt -Regeln eingesetzt?

Ein Vergleich des Pfades mit der URL berücksichtigt das Register sowie spezielle Symbole. Unterstützt:

* - entspricht einer beliebigen Anzahl von Zeichen;
$ - bezeichnet das Ende der URL.

Beispiele für die Einhaltung von Möglichkeiten für die Robots.txt -Website in Google

/ - entspricht allen Seiten;
/$ - nur Wurzel;
/fish - Alles, was mit /fish;
/*.php$ - URL, endet auf .php.

Die Priorität der Zulassungs- und Unzulässigen von Regeln in Robots.txt Ihre Google -Website

Im Regelnkonflikt mit unterschiedlichen Pfadlängen wird ein längeres verwendet. Mit gleicher Länge - weniger restriktiv.

Beispiele:

Zulassen: /privat
Nicht zulassen: / - wird verwendet;
Zulassen: /Seite
Unzulässigen: /*.htm - Entlassung wird verwendet, da der Pfad länger ist.

Für alle Ausgaben von Robots.txt -Einstellungen Ihrer Website sowie anderer Aspekte von SEO können Sie sich an das Team wenden SEO -Unternehmen "seo.computer" Per E-Mail: info@seo.computer oder durch WhatsApp: +79202044461

ID: 159