Heritrix

Heritrix Heritrix logo.png görüntüsünün açıklaması. Heritrix-screenshot.png görüntüsünün açıklaması. Bilgi
Tarafından geliştirildi İnternet Arşivi
Son sürüm 3.2.0 (Ocak 2014)
Depozito github.com/internetarchive/heritrix3
Yazılmış Java
Çevre Linux / Windows
Biçimleri okuyun WARC ( giriş )
Yazılı formatlar WARC ( giriş )
Tür Endeksleme robotu
Lisans Apache 2.0
Dokümantasyon github.com/internetarchive/heritrix3/wiki
İnternet sitesi Heritrix

Heritrix , İnternet Arşivi tarafından web arşivlemesi için tasarlanmış ve kullanılan bir web tarayıcısıdır . Bu özgür yazılım programlanmış Java dili . Onun ana arayüzü bir erişilebilen web tarayıcısı , ancak bir tercüman komut aracı ayrıca isteğe bağlı olarak indeksleme başlatmak için kullanılabilir.

Heritrix, 2003 yılında İnternet Arşivi ve İskandinav Ulusal Kütüphaneleri tarafından ortaklaşa geliştirilmiştir . İlk resmi yayını,Ocak 2004ve o zamandan beri İnternet Arşivi üyeleri ve ilgili üçüncü şahıslar tarafından sürekli olarak geliştirilmektedir .

Heritrix kullanan projeler

Aşağıdakiler dahil olmak üzere önemli sayıda ulusal kuruluş ve kütüphane Heritrix'i kullanır:

Arc Dosyası

Tarihsel olarak Heritrix , İnternet Arşivi'nin arşivlerini depolamak için 1996'dan beri kullandığı bir format olan Arc dosyasında topladığı kaynakları sakladı . Daha yeni sürümler varsayılan olarak WARC biçimini kullanır. Heritrix, dosyaları Wget tarayıcısına benzer bir dizin biçiminde depolayacak şekilde yapılandırılabilir ; bu, her bir kaynağın dizinini ve dosyasını URL'sinden sonra adlandırır .

In Ark formatında küçük dosyaların büyük bir sayı ile uğraşmak zorunda kalmamak için, çoklu arşivlenmiş varlıklar, tek bir dosyada saklanır. Bir dosya, her biri kaynağın nasıl talep edildiğiyle ilgili meta verileri , HTTP üstbilgisini ve. Yanıtı için kodu içeren bir başlık ile birlikte bir dizi URL kayıtlarından oluşur . Arc dosyasının boyutu 100 ile 600 megabayt arasındadır .

Misal:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </html>

Arc dosyalarını işlemek için araçlar

Heritrix, bir Arc dosyasının içeriğini çıkarmanıza izin veren arcreader adlı bir komut satırı aracı içerir .

Aşağıdaki komut Arc dosyasında saklanan tüm URL'leri ve meta verileri önceki örnekten listeler:

arcreader IA-2006062.arc

Aşağıdaki komut, kaydın başlangıcını 140 ofsetinde dikkate alarak hello.html dosyasını ondan çıkarır:

arcreader -o 140 -f dump IA-2006062.arc

Diğer Aletler:

Komut satırı araçları

Heritrix birkaç komut satırı aracıyla birlikte gelir:

Ayrıca görün

İlgili Makaleler

Referanslar

Dış bağlantılar