Bagaimana mesin pencari memproses file robots.txt untuk situs Google Anda

Bagaimana mesin pencari memproses file robots.txt untuk situs Google Anda

Robot otomatis mesin pencari mengikuti aturan Robot Exclusion Protocol (REP), yang berarti: Sebelum memindai situs, mesin pencari membaca file tersebut robots.txtUntuk menentukan bagian mana dari Situs yang diizinkan atau dilarang untuk indeksasi. Protokol ini tidak berlaku untuk alat yang dikendalikan oleh pengguna atau karyawan tujuan keamanan (misalnya, pemindaian untuk perangkat lunak berbahaya).

Materi ini menjelaskan secara rinci bagaimana arahan perwakilan ditafsirkan. Spesifikasi asli dapat ditemukan di RFC 9309.

Apa situs file robots.txt di google

Jika Anda tidak ingin beberapa bagian dari situs Anda diindeks oleh mesin pencari, buat file robots.txt dengan aturan yang diperlukan. Ini adalah dokumen teks sederhana, yang menunjukkan pencarian mana yang diizinkan akses dan mana yang dilarang. Contoh struktur file:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Jika Anda pertama kali menemukan robots.txt, mulailah dengan mempelajari dasar -dasar dan tips praktis untuk pembuatannya.

Lokasi File dan Area Tindakan di Situs Google Anda

File robots.txt harus dalam katalog root situs dan tersedia pada protokol yang didukung. Mesin pencari memperhitungkan protokol, port, dan nama domain. Misalnya, file akan digunakan hanya untuk host yang sama dengan lokasinya, termasuk protokol dan port.

Contoh URL yang diizinkan untuk file robots.txt di google

Berikut adalah contoh cara yang benar untuk file dan tindakannya:

  • Https: // contoh - Kami hanya berlaku untuk domain dan port ini.
  • Https: // vvv. Contoh - Hanya untuk pododen www.
  • Https: // example.kom/ folder/ robot - Itu tidak dapat diterima.
  • FTP: // Contoh -Sepularis untuk aplikasi FTP.

Kesalahan pemrosesan dan kode respons server situs Anda di Google

Perilaku robot pencarian tergantung pada kode HTTP yang diterima saat file diminta:

  • 2xx - File diproses.
  • 3xx - Lebih dari lima pengalihan dianggap sebagai 404.
  • 4xx (kecuali 429) - Dipercayai bahwa file tersebut tidak ada, tidak ada batasan.
  • 5xx - Pemindaian ditangguhkan atau ditunda tergantung pada kondisinya.

Robots.txt mesin pencari caching google

Kontennya caching hingga 24 jam, kadang -kadang lebih lama - dengan kesalahan pemuatan. Judul Cache-Control dapat mempengaruhi periode penyimpanan salinan.

Format robots.txt untuk situs Google Anda

File harus dalam pengkodean UTF-8, teks sederhana. Terjemahan garis diizinkan dalam format apa pun (CR, LF, CRLF). Garis yang salah diabaikan, seperti, bom, simbol yang tidak didukung.

Ukuran file maksimum yang diizinkan adalah 500 kib. Segala sesuatu yang melebihi volume ini diabaikan.

Robots.txt aturan sintaks situs ke google

Setiap baris termasuk bidang, usus besar dan nilai. Bidang -bidang berikut didukung:

  • user-agent - menentukan bot mana yang termasuk dalam aturan;
  • disallow - melarang akses ke jalur tertentu;
  • allow - memungkinkan akses ke jalur (bahkan jika ada aturan yang melarang);
  • sitemap -Berkas lokasi situs XML situs.

agen pengguna di file robots.txt di google

Ini adalah nama bot pencarian, yang mencakup aturan ini. Nilainya tidak sensitif terhadap register.

Larang: melarang halaman situs Anda di google

Melarang akses ke jalur tertentu. Jika jalur tidak ditunjukkan, aturan diabaikan. Nilai sensitif terhadap register.

Izinkan: izin untuk memindai konten situs di google

Memungkinkan akses ke URL. Ini bekerja bersama dengan aturan lain, dengan konflik, yang paling tidak membatasi dipilih.

Sitemap: Menunjukkan kartu situs di google

Situs URL situs sepenuhnya ditunjukkan. Bidang dapat diulang. Mungkin ada di domain lain. Tidak melekat pada bot tertentu.

Aturan pengelompokan untuk situs agen pengguna di google

Anda dapat menunjukkan beberapa grup dengan agen pengguna yang berbeda atau sama. Misalnya:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Prioritas aturan untuk situs agen pengguna di google

Setiap bot hanya menggunakan satu kelompok aturan-agen pengguna yang paling cocok bernama. Aturan Umum p * Mereka digunakan jika tidak ada yang lebih spesifik.

Contoh Pemrosesan Agen Pengguna di Robots.txt Situs Google Anda

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Bot bot-news Menggunakan grup pertama, bot - Yang ketiga, yang lainnya adalah yang kedua.

Bagaimana URL dimasukkan ke dalam aturan robot.txt yang digunakan di google

Perbandingan jalur dengan URL memperhitungkan register, serta simbol khusus. Didukung:

  • * - sesuai dengan sejumlah karakter;
  • $ - Menunjukkan akhir dari URL.

Contoh Kepatuhan Cara untuk Situs Robots.txt di Google

  • / - sesuai dengan semua halaman;
  • /$ - hanya root;
  • /fish - Segala sesuatu yang dimulai /fish;
  • /*.php$ - URL, berakhir .php.

Prioritas aturan Izin dan Larang di Robots.txt Situs Web Google Anda

Dalam konflik aturan dengan panjang jalur yang berbeda, yang lebih panjang digunakan. Dengan panjang yang sama - kurang membatasi.

Contoh:

  • Izinkan: /pribadi
    Larang: / - Izinkan digunakan;
  • Izinkan: /halaman
    Develow: /*.htm - Larang digunakan, karena jalurnya lebih panjang.

Untuk semua masalah robots.txt pengaturan situs Anda, serta aspek SEO lainnya, Anda dapat menghubungi tim Perusahaan SEO "SEO.Computer" Melalui email: info@seo.computer atau melalui whatsapp: +79202044461

ID: 159

Kirim permintaan dan kami akan memberikan konsultasi pada SEO promosi situs web Anda