Arama Motorlarının Otomatik Robotları Robotları Hariç tutma Protokolü (REP) kurallarını takip eder, yani: Siteyi taramadan önce arama motoru dosyayı okur robots.txtSitenin hangi bölümlerinin endeksleme için izin verildiğini veya yasaklandığını belirlemek için. Bu protokol, kullanıcılar veya güvenlik hedefleri çalışanları tarafından kontrol edilen araçlar için geçerli değildir (örneğin, kötü amaçlı yazılım için tarama).
Bu materyal, temsilcinin direktiflerinin nasıl yorumlandığını ayrıntılı olarak açıklamaktadır. Orijinal şartname RFC 9309'da bulunabilir.
Sitenizin bazı bölümlerinin arama motorları tarafından dizine eklenmesini istemiyorsanız, gerekli kurallara sahip bir robots.txt dosyası oluşturun. Bu, hangi arama botlarına erişin izin verildiğini ve hangilerinin yasak olduğunu gösteren basit bir metin belgesidir. Bir dosya yapısının bir örneği:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://вашдомен.ру/sitemap.xml
Robots.txt ile ilk karşılaşırsanız, yaratılması için temel bilgileri ve pratik ipuçlarını inceleyerek başlayın.
Robots.txt dosyası sitenin kök kataloğunda olmalı ve desteklenen protokolde bulunmalıdır. Arama motoru protokol, bağlantı noktası ve alan adını dikkate alır. Örneğin, dosya yalnızca protokol ve bağlantı noktası dahil olmak üzere konumu ile aynı ana bilgisayar için kullanılacaktır.
İşte dosyanın doğru yollarının ve eylemlerinin örnekleri:
www.Arama robotunun davranışı, dosya istendiğinde alınan HTTP koduna bağlıdır:
İçerikler, yükleme hatalarıyla 24 saate kadar, bazen daha uzun önbelleğe alıyor. Başlık Cache-Control Bir kopyanın depolama süresini etkileyebilir.
Dosya UTF-8 kodlama, basit metinde olmalıdır. Çizgilerin çevirilerine herhangi bir formatta (CR, LF, CRLF) izin verilir. Hatalı çizgiler, bom, desteklenmeyen semboller gibi göz ardı edilir.
İzin verilen maksimum dosya boyutu 500 KIB'dir. Bu hacmi aşan her şey göz ardı edilir.
Her satır bir alan, kolon ve değer içerir. Aşağıdaki alanlar desteklenir:
user-agent - Hangi botun kurala ait olduğunu belirler;disallow - Belirli bir yola erişimi yasaklar;allow - yola erişime izin verir (yasaklayıcı kurallar olsa bile);sitemap -Sitenin XML sitesinin konumunu başlatır.Bu, bu kuralları içeren arama botunun adıdır. Değer sicile duyarlı değildir.
Belirli yollara erişimi yasaklar. Yol belirtilmezse, kural göz ardı edilir. Kayıt'a duyarlı değer.
URL'ye erişim sağlar. Bir çatışma ile diğer kurallarla birlikte çalışır, en az kısıtlayıcı seçilir.
Sitenin URL'sinin sitesi tamamen belirtilmiştir. Alan tekrarlanabilir. Başka bir alanda olabilir. Belirli bir bota bağlı değil.
Farklı veya aynı kullanıcı ajanına sahip birkaç grubu belirtebilirsiniz. Örneğin:
user-agent: a disallow: /private user-agent: b disallow: /temp user-agent: c user-agent: d disallow: /files
Her bot, en uygun kullanıcı ajanı olan yalnızca bir grup kural kullanır. Genel Kurallar P * Daha spesifik olmayanlar yoksa kullanılırlar.
user-agent: bot-news disallow: /news-private user-agent: * disallow: / user-agent: bot disallow: /all
Bot bot-news İlk grubu kullanır, bot - Üçüncüsü, diğerleri ikincisi.
Yolun URL ile karşılaştırılması, özel sembollerin yanı sıra kaydı dikkate alır. Desteklendi:
* - herhangi bir sayıda karaktere karşılık gelir;$ - URL'nin sonunu gösterir./ - Tüm sayfalara karşılık gelir;/$ - Sadece kök;/fish - ile başlayan her şey /fish;/*.php$ - URL, bitiyor .php.Farklı yol uzunlukları olan kuralların çatışmasında daha uzun bir süre kullanılır. Eşit uzunlukta - daha az kısıtlayıcı.
Örnekler:
Sitenizin Robots.txt ayarlarının tüm sorunları ve SEO'nun diğer yönleri için ekibiyle iletişime geçebilirsiniz. SEO Şirketleri "SEO.computer" E -posta ile: info@seo.computer veya whatsapp aracılığıyla: +79202044461
ID: 159