Robot otomatis mesin pencari, seperti Google, sebelum berkeliling sumber daya, hubungi file robots.txtyang terletak di akar situs Anda. File ini berisi instruksi, bagian mana yang diizinkan untuk dipindai dan mana yang tidak. Penting untuk dipahami bahwa protokol seperti itu tidak berlaku untuk layanan pengguna atau alat keselamatan yang bekerja secara berbeda.
Untuk membatasi akses robot ke bagian sumber daya tertentu, Anda dapat membuat file di situs Anda robots.txtDi mana aturan ditentukan untuk setiap robot. Contoh struktur:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://example.com/sitemap.xml
File ini mengatur bagian mana dari situs yang dapat diindeks dan yang - tidak. Untuk belajar dari awal, disarankan untuk memulai dengan pengenalan dengan prinsip -prinsip dasar pekerjaan robots.txt dan rekomendasi untuk kompilasi.
File harus secara ketat di akar situs (misalnya, https://ваш_сайт/robots.txt). Ini hanya berfungsi untuk kombinasi domain, protokol dan port tempat ia ditempatkan. Podomeni, port dan protokol lain memerlukan file terpisah robots.txt.
https://example.com/robots.txt - Ini bekerja untuk https://example.com/tapi tidak untuk http:// atau subdomain lainnya.https://www.example.com/robots.txt - Hanya penutup www.ftp://example.com/robots.txt -Kami berlaku secara eksklusif untuk protokol FTP.Tergantung pada kode jawaban saat mencoba mendapatkan file robots.txt, perilaku robot pencarian berubah:
Robot dapat caching isi file hingga 24 jam, tetapi dalam kasus masalah (batas waktu, kesalahan), tenggat waktu dapat meningkat. Berita utama Cache-Control Juga mempengaruhi perilaku caching.
File harus dalam pengkodean UTF-8, dengan pembagi baris CR, CR/LF atau LF. Simbol atau konten yang salah diabaikan. Ukuran file maksimum yang diizinkan adalah 500 kib, sisanya diabaikan.
Setiap baris terdiri dari kunci, usus besar dan nilai. Diizinkan untuk menambahkan komentar setelah tanda #. Bidang -bidang berikut didukung:
Semua jalur peka terhadap register dan harus dimulai /.
Arti user-agent Tidak peka terhadap register. Gunakan nama robot yang tepat untuk menentukan aturan tertentu, jika tidak, templat global digunakan *.
Membatasi akses robot ke jalur yang ditentukan. Namun, URL masih dapat muncul dalam hasil pencarian tanpa fragmen halaman.
Memungkinkan akses ke jalur tertentu, bahkan jika sebagian jatuh di bawah aturan melarang.
Diizinkan untuk memposting tautan ke kartu situs. Mungkin ada beberapa dari mereka. Alamat harus mutlak dan benar. Mereka berlaku untuk semua robot, jika tidak dilarang secara terpisah.
Satu set aturan dapat diterapkan ke beberapa agen pengguna sekaligus, mengulangi baris agen pengguna satu demi satu di depan aturan dasar.
Agen pengguna paling spesifik dipilih. Jika beberapa kebetulan ditemukan, yang terpanjang dan paling akurat diambil. Aturan Umum * Tidak dikombinasikan dengan yang pribadi.
Jika beberapa blok milik satu robot, mereka secara otomatis digabungkan. Garis yang tersisa, seperti sitemap, tidak diperhitungkan saat mengelompokkan.
Jalur dari aturan dibandingkan dengan halaman halaman. Simbol bekerja * (simbol apa pun, 0 atau lebih) dan $ (akhir garis). Contoh:
/ - Bertepatan dengan akar situs dan semua URL yang diinvestasikan./fish - Semua jalur dimulai /fish./fish/ - Hanya orang -orang di mana Slash ditunjukkan dengan jelas di akhir./*.php - Semua file dengan ekspansi .php./*.php$ - Hanya yang berakhir di .php.Jika aturan yang bertentangan hadir pada saat yang sama, digunakan apa yang lebih lama di sepanjang jalan dan kurang membatasi. Yaitu, dalam kasus kontroversial, prioritas diberikan pada aturan penyelesaian yang paling akurat.
Jika Anda ingin menerima bantuan dalam membuat, memeriksa atau menyiapkan file robots.txt untuk situs Anda, hubungi agen SEO CEO. Tulis di email: info@seo.computer Atau di whatsapp: +7 920 204 44 61.
ID: 159