Robot otomatis mesin pencari mengikuti aturan Robot Exclusion Protocol (REP), yang berarti: Sebelum memindai situs, mesin pencari membaca file tersebut robots.txtUntuk menentukan bagian mana dari Situs yang diizinkan atau dilarang untuk indeksasi. Protokol ini tidak berlaku untuk alat yang dikendalikan oleh pengguna atau karyawan tujuan keamanan (misalnya, pemindaian untuk perangkat lunak berbahaya).
Materi ini menjelaskan secara rinci bagaimana arahan perwakilan ditafsirkan. Spesifikasi asli dapat ditemukan di RFC 9309.
Jika Anda tidak ingin beberapa bagian dari situs Anda diindeks oleh mesin pencari, buat file robots.txt dengan aturan yang diperlukan. Ini adalah dokumen teks sederhana, yang menunjukkan pencarian mana yang diizinkan akses dan mana yang dilarang. Contoh struktur file:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://вашдомен.ру/sitemap.xml
Jika Anda pertama kali menemukan robots.txt, mulailah dengan mempelajari dasar -dasar dan tips praktis untuk pembuatannya.
File robots.txt harus dalam katalog root situs dan tersedia pada protokol yang didukung. Mesin pencari memperhitungkan protokol, port, dan nama domain. Misalnya, file akan digunakan hanya untuk host yang sama dengan lokasinya, termasuk protokol dan port.
Berikut adalah contoh cara yang benar untuk file dan tindakannya:
www.Perilaku robot pencarian tergantung pada kode HTTP yang diterima saat file diminta:
Kontennya caching hingga 24 jam, kadang -kadang lebih lama - dengan kesalahan pemuatan. Judul Cache-Control dapat mempengaruhi periode penyimpanan salinan.
File harus dalam pengkodean UTF-8, teks sederhana. Terjemahan garis diizinkan dalam format apa pun (CR, LF, CRLF). Garis yang salah diabaikan, seperti, bom, simbol yang tidak didukung.
Ukuran file maksimum yang diizinkan adalah 500 kib. Segala sesuatu yang melebihi volume ini diabaikan.
Setiap baris termasuk bidang, usus besar dan nilai. Bidang -bidang berikut didukung:
user-agent - menentukan bot mana yang termasuk dalam aturan;disallow - melarang akses ke jalur tertentu;allow - memungkinkan akses ke jalur (bahkan jika ada aturan yang melarang);sitemap -Berkas lokasi situs XML situs.Ini adalah nama bot pencarian, yang mencakup aturan ini. Nilainya tidak sensitif terhadap register.
Melarang akses ke jalur tertentu. Jika jalur tidak ditunjukkan, aturan diabaikan. Nilai sensitif terhadap register.
Memungkinkan akses ke URL. Ini bekerja bersama dengan aturan lain, dengan konflik, yang paling tidak membatasi dipilih.
Situs URL situs sepenuhnya ditunjukkan. Bidang dapat diulang. Mungkin ada di domain lain. Tidak melekat pada bot tertentu.
Anda dapat menunjukkan beberapa grup dengan agen pengguna yang berbeda atau sama. Misalnya:
user-agent: a disallow: /private user-agent: b disallow: /temp user-agent: c user-agent: d disallow: /files
Setiap bot hanya menggunakan satu kelompok aturan-agen pengguna yang paling cocok bernama. Aturan Umum p * Mereka digunakan jika tidak ada yang lebih spesifik.
user-agent: bot-news disallow: /news-private user-agent: * disallow: / user-agent: bot disallow: /all
Bot bot-news Menggunakan grup pertama, bot - Yang ketiga, yang lainnya adalah yang kedua.
Perbandingan jalur dengan URL memperhitungkan register, serta simbol khusus. Didukung:
* - sesuai dengan sejumlah karakter;$ - Menunjukkan akhir dari URL./ - sesuai dengan semua halaman;/$ - hanya root;/fish - Segala sesuatu yang dimulai /fish;/*.php$ - URL, berakhir .php.Dalam konflik aturan dengan panjang jalur yang berbeda, yang lebih panjang digunakan. Dengan panjang yang sama - kurang membatasi.
Contoh:
Untuk semua masalah robots.txt pengaturan situs Anda, serta aspek SEO lainnya, Anda dapat menghubungi tim Perusahaan SEO "SEO.Computer" Melalui email: info@seo.computer atau melalui whatsapp: +79202044461
ID: 159