Robotlar dışlama protokolü genellikle denilen robots.txt , bir olan kaynak ait büyüklüğü de yerleştirilebilir metin kökü a web tarafından dizine gerekiyordu site kaynakların bir listesini içerir, robotlar indeksleme ve arama motorları . Kural olarak, robotlar bir web sitesini indekslemeden önce adlandırılmış metin dosyasınarobots.txt başvurur. Bu protokol Martijn Koster tarafından 1994 yılında önerildi ve hızlı bir şekilde standart fiili web olarak kabul edildi .
Kullanımı, robots.txtkamu yararına olmayan kaynakların bir arama motorunun sonuç sayfasında sona ermesini önlemeye yardımcı olur . Ayrıca robotların bu kaynaklara erişememesi , HTTP sunucusunun çalışmasını ve bilgisayar ağındaki trafiği hafifletmektedir .
Bunun sadece yardımsever robotların ne yapması gerektiğinin bir göstergesi olduğunu, hiçbir şekilde bir güvenlik unsuru olmadığını anlamak önemlidir . Aslında, bazı robotlar kasıtlı olarak özel bilgileri aradıkları için ( örneğin, önemsiz posta göndermek için e-posta adresleri ) ya da robotun bu standardı yönetemeyecek kadar basit olması nedeniyle bu dosyayı görmezden gelir .
İsteğe bağlı olarak, bu dosya , formatı XML olan ve " site haritası " adı verilen arama motorlarına ayrılmış bir site haritasının adresini içerebilir .
1 st 2019 TemmuzGoogle, teklifinin yaratıcısı Martijn Koster'ın ilk taslağına uygun olduğunu belirterek robots.txt dosyasının yorumunu standartlaştırmak istediğini belirtti . Bu yeni standart, örneğin, herhangi bir aktarma erişim robots.txt protokolü ve izin vermelidir dolayısıyla artık sadece HTTP , aynı zamanda bir FTP vb COAP ... NOS
Tüm robotların siteye erişmesine izin verin:
User-agent: * Allow:Tüm robotların siteye erişimini yasaklayın:
User-agent: * Disallow: /Googlebot dışındaki tüm robotları reddetmek için, belirli bir klasöre erişim sağlayın , örneğin http://example.org/forum/ .
User-agent: * Disallow: /forum User-agent: googlebot Disallow: