検索エンジンがGoogleサイトのrobots.txtファイルを分析する方法

Googleなどの検索エンジンの自動ロボットは、リソースを回避する前に、ファイルに連絡してください robots.txtサイトのルートにあります。このファイルには、どのセクションがスキャンできるようにし、そうでない命令が含まれています。このようなプロトコルは、異なる動作をするユーザーサービスや安全ツールには適用されないことを理解することが重要です。

Googleサイトのrobots.txtファイルとは何ですか

リソースの特定のセクションへのロボットアクセスを制限するには、サイトにファイルを作成できます robots.txtロボットごとに規則が規定されています。構造の例：

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

このファイルは、サイトのどの部分をインデックス化できるか、どの部分を調整しますか？ゼロから学ぶために、仕事の基本原則に慣れることから始めることをお勧めします robots.txt 編集に関する推奨事項。

Google Webサイトにrobots.txtファイルを投稿する場所

ファイルはサイトのルートに厳密にある必要があります（たとえば、 https://ваш_сайт/robots.txt）。ドメイン、プロトコル、ポートの組み合わせでのみ機能します。 Podomeni、他のポート、およびプロトコルには別のファイルが必要です robots.txt。

Googleのサイトのrobots.txtファイルの正しいアドレスの例

https://example.com/robots.txt - それは機能します https://example.com/しかし、ではありません http:// または他のサブドメイン。
https://www.example.com/robots.txt - カバーのみ www。
ftp://example.com/robots.txt - FTPプロトコルのみに適用します。

Google Webサイトでのエラー処理とHTTP応答コード

ファイルを取得しようとするときの回答コードに応じて robots.txt、検索ロボットの動作が変化しています：

2xxコード - ファイルが読み取られて使用されます。
3XXコード - 5つ以上のリダイレクトの場合、ファイルはアクセスできないと見なされます。
4xxコード（429を除く） - 禁止はないと考えられています。
5xxコード - サーバーのエラーにより、ロボットはサイトのサイトを一時的に停止できます。

Googleがあなたのサイトのrobots.txtファイルをキャッシュする方法

ロボットはファイルの内容を最大24時間までキャッシュできますが、問題（タイムアウト、エラー）の場合、締め切りが増加する可能性があります。見出し Cache-Control また、キャッシュの動作にも影響します。

robots.txtファイル形式とGoogleサイトのエンコード

ファイルは、CR、CR/LF、またはLFラインの仕切りを使用して、UTF-8エンコードに含まれている必要があります。誤った記号または - コンテンツは無視されます。許容される最大ファイルサイズは500キブで、残りは無視されます。

あなたのサイトのGoogleでのrobots.txtディレクティブの構文とサポートされているrobots.txtディレクティブ

各線は、キー、コロン、値で構成されています。サインの後にコメントを追加することができます #。次のフィールドがサポートされています。

ユーザーエージェント - ルールが適用されるロボットを示します。
許可する - 許可されたパス。
禁止 - 禁止されたパス。
サイトマップ - サイトカードの完全なアドレス。

すべてのパスはレジスタに敏感であり、から始める必要があります /。

ユーザーエージェントによる説明：Googleでサイトの特定のロボットのルールを指定する方法

意味 user-agent レジスタに敏感ではありません。ロボットの正確な名前を使用して特定のルールを指定します。そうしないと、グローバルテンプレートが使用されます *。

Googleのサイトのrobots.txtファイルのDis ollow Directiveは何ですか

指定されたパスへのロボットのアクセスを制限します。ただし、URLはページフラグメントなしで検索結果に表示されます。

機能を許可する：Googleでサイトのセクションにアクセスする方法

それらが部分的に禁止されている規則に該当したとしても、特定のパスへのアクセスを許可します。

Googleサイトのrobots.txtでサイトマップを示す方法

リンクをサイトカードに投稿できます。それらのいくつかがあるかもしれません。アドレスは絶対的かつ正しいものでなければなりません。それらは、個別に禁止されていない場合、すべてのロボットに適用できます。

robots.txtでルールをグループ化します

1つのルールセットを複数のユーザーエージェントに一度に適用でき、基本ルールの前でユーザーエージェントラインを次々に繰り返します。

Googleのサイトのrobots.txtファイルのユーザーエージェントの優先順位の決定

最も具体的なユーザーエージェントが選択されています。いくつかの偶然が見つかった場合、最長かつ最も正確なものが取られます。一般的なルール * プライベートなものと組み合わされていません。

Googleのサイト上のGroupingRobots.txtルールの例

複数のブロックが1つのロボットに属している場合、それらは自動的に結合されます。サイトマップなどの残りの行は、グループ化時に考慮されません。

あなたのサイトのGoogleのURLルートとrobots.txtルールを比較する方法

ルールからのパスは、ページのページと比較されます。シンボルが機能します * （任意のシンボル、0以上）および $ （行の終わり）。例：

/ - サイトのルートとすべての投資URLと一致します。
/fish - 始まるすべてのパス /fish。
/fish/ - 最後にスラッシュが明確に示されているもののみ。
/*.php - 拡張を伴うすべてのファイル.php。
/*.php$ - .phpで終わるもののみ。

Googleのサイト上のrobots.txtファイルの許可と禁止の優先順位

矛盾するルールが同時に存在する場合、途中で長く、制限が少ないものが使用されます。つまり、物議を醸す場合、最も正確な解決ルールが優先されます。

あなたのサイトのrobots.txtファイルの作成、チェック、またはセットアップのヘルプを受けたい場合は、SEOエージェンシーに連絡してください 最高経営責任者（CEO）。メールで書く： info@seo.computer またはWhatsAppで： +7 920 204 44 61。

ID：159