Bagaimana mesin pencari menganalisis file robots.txt untuk situs Google Anda

Bagaimana mesin pencari menganalisis file robots.txt untuk situs Google Anda

Robot otomatis mesin pencari, seperti Google, sebelum berkeliling sumber daya, hubungi file robots.txtyang terletak di akar situs Anda. File ini berisi instruksi, bagian mana yang diizinkan untuk dipindai dan mana yang tidak. Penting untuk dipahami bahwa protokol seperti itu tidak berlaku untuk layanan pengguna atau alat keselamatan yang bekerja secara berbeda.

Apa itu file robots.txt untuk situs google Anda

Untuk membatasi akses robot ke bagian sumber daya tertentu, Anda dapat membuat file di situs Anda robots.txtDi mana aturan ditentukan untuk setiap robot. Contoh struktur:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

File ini mengatur bagian mana dari situs yang dapat diindeks dan yang - tidak. Untuk belajar dari awal, disarankan untuk memulai dengan pengenalan dengan prinsip -prinsip dasar pekerjaan robots.txt dan rekomendasi untuk kompilasi.

Tempat mengirim file robots.txt di situs web google Anda

File harus secara ketat di akar situs (misalnya, https://ваш_сайт/robots.txt). Ini hanya berfungsi untuk kombinasi domain, protokol dan port tempat ia ditempatkan. Podomeni, port dan protokol lain memerlukan file terpisah robots.txt.

Contoh alamat yang benar dari file robots.txt situs Anda untuk google

  • https://example.com/robots.txt - Ini bekerja untuk https://example.com/tapi tidak untuk http:// atau subdomain lainnya.
  • https://www.example.com/robots.txt - Hanya penutup www.
  • ftp://example.com/robots.txt -Kami berlaku secara eksklusif untuk protokol FTP.

Pemrosesan kesalahan dan kode respons HTTP di situs web Google Anda

Tergantung pada kode jawaban saat mencoba mendapatkan file robots.txt, perilaku robot pencarian berubah:

  • Kode 2xx - File dibaca dan digunakan.
  • Kode 3xx - Jika lebih dari 5 pengalihan, file dianggap tidak dapat diakses.
  • Kode 4xx (kecuali 429) - Dipercayai bahwa tidak ada larangan.
  • Kode 5xx - Dengan kesalahan server, robot untuk sementara waktu dapat menghentikan situs situs.

Bagaimana Google Caching file robots.txt untuk situs Anda

Robot dapat caching isi file hingga 24 jam, tetapi dalam kasus masalah (batas waktu, kesalahan), tenggat waktu dapat meningkat. Berita utama Cache-Control Juga mempengaruhi perilaku caching.

Format dan pengkodean file robots.txt untuk situs Google

File harus dalam pengkodean UTF-8, dengan pembagi baris CR, CR/LF atau LF. Simbol atau konten yang salah diabaikan. Ukuran file maksimum yang diizinkan adalah 500 kib, sisanya diabaikan.

Sintaks dan Didukung ROBOTS.TXT Arahan di Google untuk situs Anda

Setiap baris terdiri dari kunci, usus besar dan nilai. Diizinkan untuk menambahkan komentar setelah tanda #. Bidang -bidang berikut didukung:

  • agen pengguna - Menunjukkan robot yang aturan tersebut berlaku.
  • Mengizinkan - Jalur yang diizinkan.
  • Melarang - Jalur Terlarang.
  • Sitemap - Alamat lengkap dari kartu situs.

Semua jalur peka terhadap register dan harus dimulai /.

Penjelasan oleh Pengguna-Agen: Cara Menentukan Aturan untuk Robot Spesifik Situs Anda di Google

Arti user-agent Tidak peka terhadap register. Gunakan nama robot yang tepat untuk menentukan aturan tertentu, jika tidak, templat global digunakan *.

Apa yang Diserahkan Petunjuk dalam file robots.txt situs Anda di google

Membatasi akses robot ke jalur yang ditentukan. Namun, URL masih dapat muncul dalam hasil pencarian tanpa fragmen halaman.

Izinkan fungsi: Cara memberikan akses ke bagian situs Anda di Google

Memungkinkan akses ke jalur tertentu, bahkan jika sebagian jatuh di bawah aturan melarang.

Cara menunjukkan sitemap di robots.txt untuk situs google Anda

Diizinkan untuk memposting tautan ke kartu situs. Mungkin ada beberapa dari mereka. Alamat harus mutlak dan benar. Mereka berlaku untuk semua robot, jika tidak dilarang secara terpisah.

Aturan pengelompokan di robots.txt situs Anda di google

Satu set aturan dapat diterapkan ke beberapa agen pengguna sekaligus, mengulangi baris agen pengguna satu demi satu di depan aturan dasar.

Menentukan prioritas untuk agen pengguna di file robots.txt situs Anda di google

Agen pengguna paling spesifik dipilih. Jika beberapa kebetulan ditemukan, yang terpanjang dan paling akurat diambil. Aturan Umum * Tidak dikombinasikan dengan yang pribadi.

Contoh Pengelompokan Robots.txt Aturan di Situs di Google

Jika beberapa blok milik satu robot, mereka secara otomatis digabungkan. Garis yang tersisa, seperti sitemap, tidak diperhitungkan saat mengelompokkan.

Cara Membandingkan Rute URL dan Aturan Robots.txt di Google untuk Situs Anda

Jalur dari aturan dibandingkan dengan halaman halaman. Simbol bekerja * (simbol apa pun, 0 atau lebih) dan $ (akhir garis). Contoh:

  • / - Bertepatan dengan akar situs dan semua URL yang diinvestasikan.
  • /fish - Semua jalur dimulai /fish.
  • /fish/ - Hanya orang -orang di mana Slash ditunjukkan dengan jelas di akhir.
  • /*.php - Semua file dengan ekspansi .php.
  • /*.php$ - Hanya yang berakhir di .php.

Prioritas aturan Izin dan Larang dalam File Robots.txt di Situs Anda untuk Google

Jika aturan yang bertentangan hadir pada saat yang sama, digunakan apa yang lebih lama di sepanjang jalan dan kurang membatasi. Yaitu, dalam kasus kontroversial, prioritas diberikan pada aturan penyelesaian yang paling akurat.


Jika Anda ingin menerima bantuan dalam membuat, memeriksa atau menyiapkan file robots.txt untuk situs Anda, hubungi agen SEO CEO. Tulis di email: info@seo.computer Atau di whatsapp: +7 920 204 44 61.

ID: 159

Kirim permintaan dan kami akan memberikan konsultasi pada SEO promosi situs web Anda