検索エンジンがGoogleサイトのrobots.txtファイルを処理する方法

検索エンジンの自動ロボットは、ロボット除外プロトコル（rep）ルールに従います。つまり、サイトをスキャンする前に、検索エンジンはファイルを読み取ります robots.txtサイトのどのセクションが許可または禁止されているかを判断します。このプロトコルは、セキュリティ目標のユーザーまたは従業員によって制御されるツールには適用されません（たとえば、悪意のあるソフトウェアのスキャン）。

この資料は、repの指令がどのように解釈されるかを詳細に説明しています。元の仕様はRFC 9309にあります。

Googleのサイトのrobots.txtファイルは何ですか

サイトの一部を検索エンジンでインデックス作成したくない場合は、必要なルールを備えたrobots.txtファイルを作成します。これは単純なテキストドキュメントであり、アクセスが許可されていて禁止されている検索ブーツを示します。ファイル構造の例：

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

最初にRobots.txtに遭遇した場合は、その作成の基本と実用的なヒントを研究することから始めます。

Googleサイトのファイルの場所とアクションエリア

robots.txtファイルは、サイトのルートカタログにあり、サポートされているプロトコルで利用可能である必要があります。検索エンジンは、プロトコル、ポート、ドメイン名を考慮に入れます。たとえば、このファイルは、プロトコルやポートなど、その場所と同じホストに対してのみ使用されます。

Googleのrobots.txtファイルの許容URLの例

ファイルへの正しい方法とそのアクションの例を次に示します。

https：//例 - このドメインとポートにのみ適用します。
https：// vvv。例 - ポドデンのみ www。
https：// example.kom/ folder/ robots - не является допустимым。
ftp：//例 — только для FTP-доступа.

Googleのサイトサーバーの処理エラーと応答コード

検索ロボットの動作は、ファイルが要求されたときに受信したHTTPコードに依存します。

2xx - ファイルは処理されます。
3xx - 5つ以上のリダイレクトが404と見なされます。
4xx（429を除く） - ファイルがないと考えられており、制限はありません。
5xx - 条件に応じて、スキャンは停止または延期されます。

robots.txtキャッシュ検索エンジンGoogle

内容は、負荷のエラーがある最大24時間、時には長くキャッシュしています。タイトル Cache-Control コピーの保管期間に影響を与える可能性があります。

Googleサイト用のrobots.txt形式

ファイルは、UTF-8エンコーディングのシンプルなテキストにある必要があります。線の翻訳は、あらゆる形式（Cr、LF、CRLF）で許可されます。誤った線は、bom、サポートされていないシンボルのように無視されます。

許容される最大ファイルサイズは500キブです。このボリュームを超えるものはすべて無視されます。

robots.txtルール構文サイトからGoogleへ

各ラインには、フィールド、コロン、値が含まれます。次のフィールドがサポートされています。

user-agent - どのボットがルールに属しているかを決定します。
disallow - 特定のパスへのアクセスを禁止します。
allow - パスへのアクセスを許可します（規則を禁止している場合でも）。
sitemap - サイトのXMLサイトの場所を指定します。

Googleのrobots.txtファイルのユーザーエージェント

これは、これらのルールを含む検索ボットの名前です。値はレジスタに敏感ではありません。

禁止：Googleでサイトのページを禁止します

特定のパスへのアクセスを禁止します。パスが示されていない場合、ルールは無視されます。レジスタに敏感な値。

許可：Googleでサイトのコンテンツをスキャンする許可

URLへのアクセスを可能にします。これは、他のルールと併せて機能し、競合により、最小限の制限が選択されます。

サイトマップ：Googleのサイトカードを示します

サイトのURLのサイトは完全に示されています。フィールドを繰り返すことができます。別のドメインにある可能性があります。特定のボットに添付されていません。

Googleのユーザーエージェントサイトのルールのグループ化

異なるまたは同じユーザーエージェントを持ついくつかのグループを示すことができます。例えば：

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Googleのユーザーエージェントサイトのルールの優先順位

各ボットは、最も適切な名前のユーザーエージェントの1つのグループのルールのみを使用しています。一般規則p * これ以上具体的なものがない場合は使用されます。

robots.txtでのユーザーエージェント処理の例Googleサイト

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

ボット bot-news 最初のグループを使用し、 bot - 3番目、他のすべてが2番目です。

URLはrobots.txtルールにどのように入れられていますか

パスとURLの比較では、レジスタと特別なシンボルを考慮します。サポート：

* - 任意の数の文字に対応します。
$ -URLの終了を示します。

Googleのrobots.txtサイトの方法のコンプライアンスの例

/ - すべてのページに対応します。
/$ - ルートのみ;
/fish - 始まるすべて /fish;
/*.php$ -URL、終了 .php。

robots.txtのルールの許可と禁止の優先順位

異なるパス長のルールの競合では、より長いルールが使用されます。等しい長さ - 制限が少ない。

例：

許可： /private
禁止： / - 許可が使用されます。
許可： /ページ
Allow：/*.htm-パスが長いため、disallowが使用されます。

あなたのサイトのrobots.txt設定のすべての問題、およびSEOの他の側面については、チームに連絡することができます SEO会社「SEO.computer」 メールで： info@seo.computer またはwhatsappを通じて： +79202044461

ID：159