検索エンジンがGoogleサイトのrobots.txtファイルを分析する方法

検索エンジンがGoogleサイトのrobots.txtファイルを分析する方法

Googleなどの検索エンジンの自動ロボットは、リソースを回避する前に、ファイルに連絡してください robots.txtサイトのルートにあります。このファイルには、どのセクションがスキャンできるようにし、そうでない命令が含まれています。このようなプロトコルは、異なる動作をするユーザーサービスや安全ツールには適用されないことを理解することが重要です。

Googleサイトのrobots.txtファイルとは何ですか

リソースの特定のセクションへのロボットアクセスを制限するには、サイトにファイルを作成できます robots.txtロボットごとに規則が規定されています。構造の例:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

このファイルは、サイトのどの部分をインデックス化できるか、どの部分を調整しますか?ゼロから学ぶために、仕事の基本原則に慣れることから始めることをお勧めします robots.txt 編集に関する推奨事項。

Google Webサイトにrobots.txtファイルを投稿する場所

ファイルはサイトのルートに厳密にある必要があります(たとえば、 https://ваш_сайт/robots.txt)。ドメイン、プロトコル、ポートの組み合わせでのみ機能します。 Podomeni、他のポート、およびプロトコルには別のファイルが必要です robots.txt

Googleのサイトのrobots.txtファイルの正しいアドレスの例

  • https://example.com/robots.txt - それは機能します https://example.com/しかし、ではありません http:// または他のサブドメイン。
  • https://www.example.com/robots.txt - カバーのみ www
  • ftp://example.com/robots.txt - FTPプロトコルのみに適用します。

Google Webサイトでのエラー処理とHTTP応答コード

ファイルを取得しようとするときの回答コードに応じて robots.txt、検索ロボットの動作が変化しています:

  • 2xxコード - ファイルが読み取られて使用されます。
  • 3XXコード - 5つ以上のリダイレクトの場合、ファイルはアクセスできないと見なされます。
  • 4xxコード(429を除く) - 禁止はないと考えられています。
  • 5xxコード - サーバーのエラーにより、ロボットはサイトのサイトを一時的に停止できます。

Googleがあなたのサイトのrobots.txtファイルをキャッシュする方法

ロボットはファイルの内容を最大24時間までキャッシュできますが、問題(タイムアウト、エラー)の場合、締め切りが増加する可能性があります。見出し Cache-Control また、キャッシュの動作にも影響します。

robots.txtファイル形式とGoogleサイトのエンコード

ファイルは、CR、CR/LF、またはLFラインの仕切りを使用して、UTF-8エンコードに含まれている必要があります。誤った記号または - コンテンツは無視されます。許容される最大ファイルサイズは500キブで、残りは無視されます。

あなたのサイトのGoogleでのrobots.txtディレクティブの構文とサポートされているrobots.txtディレクティブ

各線は、キー、コロン、値で構成されています。サインの後にコメントを追加することができます #。次のフィールドがサポートされています。

  • ユーザーエージェント - ルールが適用されるロボットを示します。
  • 許可する - 許可されたパス。
  • 禁止 - 禁止されたパス。
  • サイトマップ - サイトカードの完全なアドレス。

すべてのパスはレジスタに敏感であり、から始める必要があります /

ユーザーエージェントによる説明:Googleでサイトの特定のロボットのルールを指定する方法

意味 user-agent レジスタに敏感ではありません。ロボットの正確な名前を使用して特定のルールを指定します。そうしないと、グローバルテンプレートが使用されます *

Googleのサイトのrobots.txtファイルのDis ollow Directiveは何ですか

指定されたパスへのロボットのアクセスを制限します。ただし、URLはページフラグメントなしで検索結果に表示されます。

機能を許可する:Googleでサイトのセクションにアクセスする方法

それらが部分的に禁止されている規則に該当したとしても、特定のパスへのアクセスを許可します。

Googleサイトのrobots.txtでサイトマップを示す方法

リンクをサイトカードに投稿できます。それらのいくつかがあるかもしれません。アドレスは絶対的かつ正しいものでなければなりません。それらは、個別に禁止されていない場合、すべてのロボットに適用できます。

robots.txtでルールをグループ化します

1つのルールセットを複数のユーザーエージェントに一度に適用でき、基本ルールの前でユーザーエージェントラインを次々に繰り返します。

Googleのサイトのrobots.txtファイルのユーザーエージェントの優先順位の決定

最も具体的なユーザーエージェントが選択されています。いくつかの偶然が見つかった場合、最長かつ最も正確なものが取られます。一般的なルール * プライベートなものと組み合わされていません。

Googleのサイト上のGroupingRobots.txtルールの例

複数のブロックが1つのロボットに属している場合、それらは自動的に結合されます。サイトマップなどの残りの行は、グループ化時に考慮されません。

あなたのサイトのGoogleのURLルートとrobots.txtルールを比較する方法

ルールからのパスは、ページのページと比較されます。シンボルが機能します * (任意のシンボル、0以上)および $ (行の終わり)。例:

  • / - サイトのルートとすべての投資URLと一致します。
  • /fish - 始まるすべてのパス /fish
  • /fish/ - 最後にスラッシュが明確に示されているもののみ。
  • /*.php - 拡張を伴うすべてのファイル.php。
  • /*.php$ - .phpで終わるもののみ。

Googleのサイト上のrobots.txtファイルの許可と禁止の優先順位

矛盾するルールが同時に存在する場合、途中で長く、制限が少ないものが使用されます。つまり、物議を醸す場合、最も正確な解決ルールが優先されます。


あなたのサイトのrobots.txtファイルの作成、チェック、またはセットアップのヘルプを受けたい場合は、SEOエージェンシーに連絡してください 最高経営責任者(CEO)。メールで書く: info@seo.computer またはWhatsAppで: +7 920 204 44 61

ID:159

リクエストを送信してください、ご相談に応じます の上 せお あなたのウェブサイトの宣伝