Apache ORC

Apache ORC

Bilgi
Tarafından geliştirildi Apache Yazılım Vakfı
İlk versiyon 12 Mayıs 2015
Son sürüm 1.6.7 (22 Ocak 2021)
Depozito gitbox.apache.org/repos/asf/orc.git
Yazılmış Java ve C ++
Tür Dosya Formatı ( tr )
Veri Serileştirme Formatı ( d )
Apache Foundation Project ( d )
Lisans Apache lisans sürümü 2.0
İnternet sitesi orc.apache.org

Apache ORC (Optimize Edilmiş Satır Sütunu) , Apache Hadoop ekosisteminden ücretsiz, açık kaynaklı, sütun odaklı bir veri depolama formatıdır . RCFile ve Parquet gibi Hadoop ekosisteminde bulunan diğer sütunlu depolama dosyası formatlarına benzer . Hadoop ortamının veri işleme altyapılarının çoğu ile uyumludur .

İçinde Şubat 2013, Hortonworks işbirliğiyle Optimize Sıra Kolumnar (ORC) dosya biçimini açıkladı Facebook'ta . Bir ay sonra, Cloudera ve Twitter tarafından geliştirilen Apache Parquet formatı duyuruldu .

Karşılaştırma

Apache ORC, RCFile ve Parquet gibi dosya biçimleriyle karşılaştırılabilir - üçü de Hadoop ekosisteminde sütunlu veri depolama kategorisine girer . Hepsi, daha yavaş yazma pahasına geliştirilmiş okuma performansıyla daha iyi sıkıştırma ve kodlamaya sahiptir.

Notlar ve referanslar

  1. "  https://projects.apache.org/json/projects/orc.json  " (Erişim tarihi 8 Nisan 2020 )
  2. (inç) ORC 1.6.7 Yayınlandı  " ,22 Ocak 2021( 30 Ocak 2021'de erişildi )
  3. Justin Kestelyn, "  Parke Tanıtımı: Apache Hadoop için Sütunlu Verimli Depolama  " , Cloudera blogu ,13 Mart 2013(erişim tarihi 4 Mayıs 2017 )

Ayrıca görün