Arama Motoru Google Siteniz için Robots.txt dosyasını nasıl işler?

Arama Motoru Google Siteniz için Robots.txt dosyasını nasıl işler?

Arama Motorlarının Otomatik Robotları Robotları Hariç tutma Protokolü (REP) kurallarını takip eder, yani: Siteyi taramadan önce arama motoru dosyayı okur robots.txtSitenin hangi bölümlerinin endeksleme için izin verildiğini veya yasaklandığını belirlemek için. Bu protokol, kullanıcılar veya güvenlik hedefleri çalışanları tarafından kontrol edilen araçlar için geçerli değildir (örneğin, kötü amaçlı yazılım için tarama).

Bu materyal, temsilcinin direktiflerinin nasıl yorumlandığını ayrıntılı olarak açıklamaktadır. Orijinal şartname RFC 9309'da bulunabilir.

Google'daki robots.txt dosya sitesi nedir

Sitenizin bazı bölümlerinin arama motorları tarafından dizine eklenmesini istemiyorsanız, gerekli kurallara sahip bir robots.txt dosyası oluşturun. Bu, hangi arama botlarına erişin izin verildiğini ve hangilerinin yasak olduğunu gösteren basit bir metin belgesidir. Bir dosya yapısının bir örneği:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Robots.txt ile ilk karşılaşırsanız, yaratılması için temel bilgileri ve pratik ipuçlarını inceleyerek başlayın.

Google sitenizdeki dosya konumu ve eylem alanı

Robots.txt dosyası sitenin kök kataloğunda olmalı ve desteklenen protokolde bulunmalıdır. Arama motoru protokol, bağlantı noktası ve alan adını dikkate alır. Örneğin, dosya yalnızca protokol ve bağlantı noktası dahil olmak üzere konumu ile aynı ana bilgisayar için kullanılacaktır.

Google'daki robots.txt dosyası için izin verilen URL örnekleri

İşte dosyanın doğru yollarının ve eylemlerinin örnekleri:

  • Https: // örnek - Yalnızca bu etki alanına ve bağlantı noktasına başvuruyoruz.
  • Https: // vvv. Örnek - Sadece Pododen için www.
  • Https: // örnek.kom/ klasör/ robotlar - Kabul edilemez.
  • Ftp: // örnek -Sal sadece FTP uygulaması için.

Google'da Site Sunucunuzun İşleme Hataları ve Yanıt Kodları

Arama robotunun davranışı, dosya istendiğinde alınan HTTP koduna bağlıdır:

  • 2xx - Dosya işlenir.
  • 3xx - Beşten fazla yönlendirme 404 olarak kabul edilir.
  • 4xx (429 hariç) - Dosyanın olmadığına inanılıyor, herhangi bir kısıtlama yok.
  • 5xx - Tarama koşullara bağlı olarak askıya alınır veya ertelenir.

Robots.txt önbellek arama motoru google

İçerikler, yükleme hatalarıyla 24 saate kadar, bazen daha uzun önbelleğe alıyor. Başlık Cache-Control Bir kopyanın depolama süresini etkileyebilir.

Google siteniz için robots.txt biçimi

Dosya UTF-8 kodlama, basit metinde olmalıdır. Çizgilerin çevirilerine herhangi bir formatta (CR, LF, CRLF) izin verilir. Hatalı çizgiler, bom, desteklenmeyen semboller gibi göz ardı edilir.

İzin verilen maksimum dosya boyutu 500 KIB'dir. Bu hacmi aşan her şey göz ardı edilir.

Robots.txt Kurallar Sözdizimi Sitesi Google'a

Her satır bir alan, kolon ve değer içerir. Aşağıdaki alanlar desteklenir:

  • user-agent - Hangi botun kurala ait olduğunu belirler;
  • disallow - Belirli bir yola erişimi yasaklar;
  • allow - yola erişime izin verir (yasaklayıcı kurallar olsa bile);
  • sitemap -Sitenin XML sitesinin konumunu başlatır.

Google'daki Robots.txt dosyasındaki kullanıcı-acenti

Bu, bu kuralları içeren arama botunun adıdır. Değer sicile duyarlı değildir.

İzin Ver: Sitenizin sayfalarını Google'da yasaklamak

Belirli yollara erişimi yasaklar. Yol belirtilmezse, kural göz ardı edilir. Kayıt'a duyarlı değer.

İzin Ver: Sitenin içeriğini Google'da tarama izni

URL'ye erişim sağlar. Bir çatışma ile diğer kurallarla birlikte çalışır, en az kısıtlayıcı seçilir.

Site haritası: Google'da site kartını gösterme

Sitenin URL'sinin sitesi tamamen belirtilmiştir. Alan tekrarlanabilir. Başka bir alanda olabilir. Belirli bir bota bağlı değil.

Google'da Kullanıcı Temsilcisi Sitesi için Gruplama Kuralları

Farklı veya aynı kullanıcı ajanına sahip birkaç grubu belirtebilirsiniz. Örneğin:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Google'da Kullanıcı Temsilcisi Sitesi için Kuralların Önceliği

Her bot, en uygun kullanıcı ajanı olan yalnızca bir grup kural kullanır. Genel Kurallar P * Daha spesifik olmayanlar yoksa kullanılırlar.

Google Sitenizde Robots.txt'de Kullanıcı-Ajan İşleme Örneği

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Bot bot-news İlk grubu kullanır, bot - Üçüncüsü, diğerleri ikincisi.

Google'da kullanılan robots.txt kurallarına URL nasıl yerleştirilir

Yolun URL ile karşılaştırılması, özel sembollerin yanı sıra kaydı dikkate alır. Desteklendi:

  • * - herhangi bir sayıda karaktere karşılık gelir;
  • $ - URL'nin sonunu gösterir.

Google'da Robots.txt Sitesi için Yollara Uyum Örnekleri

  • / - Tüm sayfalara karşılık gelir;
  • /$ - Sadece kök;
  • /fish - ile başlayan her şey /fish;
  • /*.php$ - URL, bitiyor .php.

Robots.txt'de İzin Ver ve İzin Verme Kurallarının Önceliği Google Web Siteniz

Farklı yol uzunlukları olan kuralların çatışmasında daha uzun bir süre kullanılır. Eşit uzunlukta - daha az kısıtlayıcı.

Örnekler:

  • İzin Ver: /Özel
    İzin Ver: / - İzin Kullanılır;
  • İzin Ver: /Sayfa
    İzin: /*.htm - Yol daha uzun olduğu için izin verilir.

Sitenizin Robots.txt ayarlarının tüm sorunları ve SEO'nun diğer yönleri için ekibiyle iletişime geçebilirsiniz. SEO Şirketleri "SEO.computer" E -posta ile: info@seo.computer veya whatsapp aracılığıyla: +79202044461

ID: 159

Bir talep gönderin ve size danışmanlık sunalım Açık SEO web sitenizin tanıtımı