Nutch

Nutch Nutch.png resminin açıklaması. Bilgi
Tarafından geliştirildi Doug Kesme
Son sürüm 2.4 (11 Ekim 2019)
Depozito github.com/apache/nutch
Yazılmış Java
İşletim sistemi Çoklu platform
Çevre Windows , Mac OS X , GNU / Linux
Biçimleri okuyun WARC ( giriş )
Yazılı formatlar WARC ( giriş )
Tür açık kaynak arama motoru
Lisans Apache lisansı
İnternet sitesi nutch.apache.org

Nutch , açık kaynaklı bir arama motoru oluşturma girişimidir . Lucene'yi bir arama motoru ve indeksleme kitaplığı olarak kullanır . Öte yandan toplama robotu bu proje için özel olarak oluşturuldu.

Nutch'ın mimarisi oldukça modülerdir ve geliştiricilerin sürecin farklı aşamaları için eklentiler oluşturmasına izin verir : veri alma, belge analizi, araştırma vb.

Doug Cutting , bu projenin başlatıcısı ve koordinatörüdür.

Tamamen Java dilinde geliştirilmiştir , ancak işlediği veriler herhangi bir programlama dilinden bağımsız bir veri biçimindedir . İçindeHaziran 2003 100 milyon belgeyi bir araya getiren bir veri tabanında Nutch'ın bir tanıtımının operasyonel bir versiyonu sunuldu.

Tarihi

CreativeCommons.org, Nutch'a güveniyor

Creative Commons , 2004'te arama motorunun, metin, ses ve video arayışında web'de gezinen ve bu tarihte bir milyon sayfayı indeksleyen bir beta sürümünü başlattı; bunların tümü, web sitelerinde bulunan lisansların koşulları altında ücretsiz olarak yeniden kullanılabilir.

Arama motorları, World Wide Web Consortium (W3C) tarafından standartlaştırılan XML meta dilini kullanan Kaynak Tanımlama Çerçevesine (RDF) dayanmaktadır .

Bu sürüm, 1.0 sürümündeki Mozilla Firefox web tarayıcısı ile aynı zamana denk gelir ve böylece ücretsiz içerik aramayı mümkün kılar.

Nutch, Apache'ye katıldı

İçinde Ocak 2005Nutch, ilk olarak Sourceforge tarafından barındırılan ve kendi kar amacı gütmeyen kuruluşu tarafından desteklenen iki yıllık bir projedir. Bu kuruluş, projenin telif hakkını almak ve lisansı değiştirme hakkını elinde bulundurmak için kurulmuştur. Ekip, Apache lisansının Nutch için en uygun olduğuna ve artık dışarıdan bir kuruluşun yardımına ihtiyaç duymadıklarına karar verdi . Liderler ve geliştiriciler artık Apache Vakfı tarafından destekleniyor .

İnkübasyon beş ay sonra, Nutch bir alt proje haline Lucene .

Motor Değerlendirmesi

Yayınlandı 1 st  Haziran 2004 tarafından yapılan çalışmada Lyle Benedict ünlü sonuçlarını karşılaştırır Google 100 istekleri tabanında ve Oregon State sınırlı çerçevesi Üniversitesi web sitesi içinde serbest muadili Nutch. Örneğin, 10'un en iyi puan olduğu, 0 ile 10 arasında değişen puanlarda, Nutch ve Google'ın maksimum puanı .

Katkılar

Katkıları liyakat ve dayanmaktadır karma . Katkıda bulunanlar, kimin ne yaptığını öğrenmek için bir posta listesine abone olmalı ve başkalarına ne yapacaklarını bildiren kısa bir e-posta göndermelidir. İş bittiğinde, kod parçası posta listesine gönderilir (veya bir hata raporuna eklenir), böylece her katılımcı, kalitesini ve alaka düzeyini inceleyebilir .

Kabul kriterleri şunlardır:

Her şey doğruysa, kod parçası geliştiriciler tarafından kaynak veritabanına eklenir ve Nutch'ın bir parçası olur.

Nutch Kullanmak

Quebec hükümeti Nutch’ı benimsedi

In Aralık 2006, Quebec Hükümeti bir önseçim göre tüm siteleri bulmak için arama motoru olarak Nutch seçti. Bugüne kadar, 400'den fazla site ve 500.000'den fazla belge dizine eklenmiştir .

Oregon Eyalet Üniversitesi Nutch'a taşındı

Nın-nin Eylül 2004 -de Ocak 2010Oregon Eyalet Üniversitesi, Google araştırma merkezini Nutch ile değiştirdi. Bu, önemli maliyet düşüşleri elde etmesini ve bu arama motorunun şeffaflığını artırmasını sağlamıştır. Açık Kaynak Laboratuvarı'na .

Ayrıca görün

Kaynakça

İlgili Makaleler

Dış bağlantılar

Notlar ve referanslar

  1. "  https://nutch.apache.org/index.html#11-october-2019-nutch-24-release  " (erişim tarihi 11 Mart 2020 )
  2. https://creativecommons.org/press-releases/entry/5064
  3. [1] , Ocak 2010'dan beri Oregon Eyalet Üniversitesi Google Arama Cihazı'nı yeniden kullanıyor.