Robot dışlama protokolü

Robotlar dışlama protokolü genellikle denilen robots.txt , bir olan kaynak ait büyüklüğü de yerleştirilebilir metin kökü a web tarafından dizine gerekiyordu site kaynakların bir listesini içerir, robotlar indeksleme ve arama motorları . Kural olarak, robotlar bir web sitesini indekslemeden önce adlandırılmış metin dosyasınarobots.txt başvurur. Bu protokol Martijn Koster tarafından 1994 yılında önerildi ve hızlı bir şekilde standart fiili web olarak kabul edildi .

Kullanımlar

Kullanımı, robots.txtkamu yararına olmayan kaynakların bir arama motorunun sonuç sayfasında sona ermesini önlemeye yardımcı olur . Ayrıca robotların bu kaynaklara erişememesi , HTTP sunucusunun çalışmasını ve bilgisayar ağındaki trafiği hafifletmektedir .

Bunun sadece yardımsever robotların ne yapması gerektiğinin bir göstergesi olduğunu, hiçbir şekilde bir güvenlik unsuru olmadığını anlamak önemlidir . Aslında, bazı robotlar kasıtlı olarak özel bilgileri aradıkları için ( örneğin, önemsiz posta göndermek için e-posta adresleri ) ya da robotun bu standardı yönetemeyecek kadar basit olması nedeniyle bu dosyayı görmezden gelir .

İsteğe bağlı olarak, bu dosya , formatı XML olan ve " site haritası " adı verilen arama motorlarına ayrılmış bir site haritasının adresini içerebilir .

1 st 2019 TemmuzGoogle, teklifinin yaratıcısı Martijn Koster'ın ilk taslağına uygun olduğunu belirterek robots.txt dosyasının yorumunu standartlaştırmak istediğini belirtti . Bu yeni standart, örneğin, herhangi bir aktarma erişim robots.txt protokolü ve izin vermelidir dolayısıyla artık sadece HTTP , aynı zamanda bir FTP vb COAP ... NOS

Örnekler

Tüm robotların siteye erişmesine izin verin:

User-agent: * Allow:

Tüm robotların siteye erişimini yasaklayın:

User-agent: * Disallow: /

Googlebot dışındaki tüm robotları reddetmek için, belirli bir klasöre erişim sağlayın , örneğin http://example.org/forum/ .

User-agent: * Disallow: /forum User-agent: googlebot Disallow:

Notlar ve referanslar

" Google, robots.txt dosyasının yorumunu standart hale getirmek istiyor " , BDM'de ,2 Temmuz 2019(erişim tarihi 2 Temmuz 2019 )

Ayrıca görün

İlgili Makaleler

Dış bağlantılar

(tr) Robotstxt.org ( robotstxt.org ): standardın özellikleriyle adanmış bir site.
(fr) Robots.txt ( robots-txt.com ): Robot dışlama protokolü hakkında Fransızca kaynaklar.