Tarafından geliştirildi | Doug Kesme |
---|---|
Son sürüm | 2.4 (11 Ekim 2019) |
Depozito | github.com/apache/nutch |
Yazılmış | Java |
İşletim sistemi | Çoklu platform |
Çevre | Windows , Mac OS X , GNU / Linux |
Biçimleri okuyun | WARC ( giriş ) |
Yazılı formatlar | WARC ( giriş ) |
Tür | açık kaynak arama motoru |
Lisans | Apache lisansı |
İnternet sitesi | nutch.apache.org |
Nutch , açık kaynaklı bir arama motoru oluşturma girişimidir . Lucene'yi bir arama motoru ve indeksleme kitaplığı olarak kullanır . Öte yandan toplama robotu bu proje için özel olarak oluşturuldu.
Nutch'ın mimarisi oldukça modülerdir ve geliştiricilerin sürecin farklı aşamaları için eklentiler oluşturmasına izin verir : veri alma, belge analizi, araştırma vb.
Doug Cutting , bu projenin başlatıcısı ve koordinatörüdür.
Tamamen Java dilinde geliştirilmiştir , ancak işlediği veriler herhangi bir programlama dilinden bağımsız bir veri biçimindedir . İçindeHaziran 2003 100 milyon belgeyi bir araya getiren bir veri tabanında Nutch'ın bir tanıtımının operasyonel bir versiyonu sunuldu.
Creative Commons , 2004'te arama motorunun, metin, ses ve video arayışında web'de gezinen ve bu tarihte bir milyon sayfayı indeksleyen bir beta sürümünü başlattı; bunların tümü, web sitelerinde bulunan lisansların koşulları altında ücretsiz olarak yeniden kullanılabilir.
Arama motorları, World Wide Web Consortium (W3C) tarafından standartlaştırılan XML meta dilini kullanan Kaynak Tanımlama Çerçevesine (RDF) dayanmaktadır .
Bu sürüm, 1.0 sürümündeki Mozilla Firefox web tarayıcısı ile aynı zamana denk gelir ve böylece ücretsiz içerik aramayı mümkün kılar.
İçinde Ocak 2005Nutch, ilk olarak Sourceforge tarafından barındırılan ve kendi kar amacı gütmeyen kuruluşu tarafından desteklenen iki yıllık bir projedir. Bu kuruluş, projenin telif hakkını almak ve lisansı değiştirme hakkını elinde bulundurmak için kurulmuştur. Ekip, Apache lisansının Nutch için en uygun olduğuna ve artık dışarıdan bir kuruluşun yardımına ihtiyaç duymadıklarına karar verdi . Liderler ve geliştiriciler artık Apache Vakfı tarafından destekleniyor .
İnkübasyon beş ay sonra, Nutch bir alt proje haline Lucene .
Yayınlandı 1 st Haziran 2004 tarafından yapılan çalışmada Lyle Benedict ünlü sonuçlarını karşılaştırır Google 100 istekleri tabanında ve Oregon State sınırlı çerçevesi Üniversitesi web sitesi içinde serbest muadili Nutch. Örneğin, 10'un en iyi puan olduğu, 0 ile 10 arasında değişen puanlarda, Nutch ve Google'ın maksimum puanı .
Katkıları liyakat ve dayanmaktadır karma . Katkıda bulunanlar, kimin ne yaptığını öğrenmek için bir posta listesine abone olmalı ve başkalarına ne yapacaklarını bildiren kısa bir e-posta göndermelidir. İş bittiğinde, kod parçası posta listesine gönderilir (veya bir hata raporuna eklenir), böylece her katılımcı, kalitesini ve alaka düzeyini inceleyebilir .
Kabul kriterleri şunlardır:
Her şey doğruysa, kod parçası geliştiriciler tarafından kaynak veritabanına eklenir ve Nutch'ın bir parçası olur.
In Aralık 2006, Quebec Hükümeti bir önseçim göre tüm siteleri bulmak için arama motoru olarak Nutch seçti. Bugüne kadar, 400'den fazla site ve 500.000'den fazla belge dizine eklenmiştir .
Nın-nin Eylül 2004 -de Ocak 2010Oregon Eyalet Üniversitesi, Google araştırma merkezini Nutch ile değiştirdi. Bu, önemli maliyet düşüşleri elde etmesini ve bu arama motorunun şeffaflığını artırmasını sağlamıştır. Açık Kaynak Laboratuvarı'na .