Tarafından geliştirildi | İnternet Arşivi |
---|---|
Son sürüm | 3.2.0 (Ocak 2014) |
Depozito | github.com/internetarchive/heritrix3 |
Yazılmış | Java |
Çevre | Linux / Windows |
Biçimleri okuyun | WARC ( giriş ) |
Yazılı formatlar | WARC ( giriş ) |
Tür | Endeksleme robotu |
Lisans | Apache 2.0 |
Dokümantasyon | github.com/internetarchive/heritrix3/wiki |
İnternet sitesi | Heritrix |
Heritrix , İnternet Arşivi tarafından web arşivlemesi için tasarlanmış ve kullanılan bir web tarayıcısıdır . Bu özgür yazılım programlanmış Java dili . Onun ana arayüzü bir erişilebilen web tarayıcısı , ancak bir tercüman komut aracı ayrıca isteğe bağlı olarak indeksleme başlatmak için kullanılabilir.
Heritrix, 2003 yılında İnternet Arşivi ve İskandinav Ulusal Kütüphaneleri tarafından ortaklaşa geliştirilmiştir . İlk resmi yayını,Ocak 2004ve o zamandan beri İnternet Arşivi üyeleri ve ilgili üçüncü şahıslar tarafından sürekli olarak geliştirilmektedir .
Aşağıdakiler dahil olmak üzere önemli sayıda ulusal kuruluş ve kütüphane Heritrix'i kullanır:
Tarihsel olarak Heritrix , İnternet Arşivi'nin arşivlerini depolamak için 1996'dan beri kullandığı bir format olan Arc dosyasında topladığı kaynakları sakladı . Daha yeni sürümler varsayılan olarak WARC biçimini kullanır. Heritrix, dosyaları Wget tarayıcısına benzer bir dizin biçiminde depolayacak şekilde yapılandırılabilir ; bu, her bir kaynağın dizinini ve dosyasını URL'sinden sonra adlandırır .
In Ark formatında küçük dosyaların büyük bir sayı ile uğraşmak zorunda kalmamak için, çoklu arşivlenmiş varlıklar, tek bir dosyada saklanır. Bir dosya, her biri kaynağın nasıl talep edildiğiyle ilgili meta verileri , HTTP üstbilgisini ve. Yanıtı için kodu içeren bir başlık ile birlikte bir dizi URL kayıtlarından oluşur . Arc dosyasının boyutu 100 ile 600 megabayt arasındadır .
Misal:
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </html>Heritrix, bir Arc dosyasının içeriğini çıkarmanıza izin veren arcreader adlı bir komut satırı aracı içerir .
Aşağıdaki komut Arc dosyasında saklanan tüm URL'leri ve meta verileri önceki örnekten listeler:
arcreader IA-2006062.arcAşağıdaki komut, kaydın başlangıcını 140 ofsetinde dikkate alarak hello.html dosyasını ondan çıkarır:
arcreader -o 140 -f dump IA-2006062.arcDiğer Aletler:
Heritrix birkaç komut satırı aracıyla birlikte gelir: