LRE Harita ( Dil Kaynakları ve Değerlendirme ) bir olduğunu serbestçe erişilebilir veritabanı için kaynaklara adamıştır Otomatik Dil İşleme (NLP). LRE Haritasının orijinal özelliği, kayıtların bilimsel konferanslara başvurular sırasında toplanmasıdır. Kayıtlar daha sonra temizlenir ve LRE Map adlı bir veri tabanında toplanır.
LRE Haritası, dilsel kaynaklar hakkında bilgi toplamak için bir araç olarak tasarlanmıştır ve aynı zamanda kullanıcılar için bir topluluk, kaynakları paylaşmak ve keşfetmek, tartışmak, kullanım hakkında geri bildirim sağlamak, yeni eğilimleri keşfetmek vb. İçin bir site haline gelir. Hem verileri hem de araçları içeren geniş anlamda dilsel kaynakları keşfetmek, araştırmak ve belgelemek için bir araçtır.
Büyük bilgi kütlesi farklı şekillerde analiz edilebilir. İnternette bazı analizler mevcuttur. Örneğin, en sık kullanılan kaynakları, en çok temsil edilen dilleri, kullanılan veya geliştirilmekte olan uygulamaları, eski kaynaklara kıyasla yeni kaynakların oranını veya kaynakların toplulukta dağıtılma şeklini bilmek mümkündür.
Bir dizi kurum dil kaynaklarının kataloglarını tutar: ELRA, Linguistic Data Consortium, NICT Universal Catalog, Association for Computational Linguistics (ACL) Data and Code Repository, OLAC, LT World, vb.). Ancak, dağıtım katalogları veya tedarikçinin doğrudan reklamı yoluyla kaynakların yalnızca% 10'unun bilindiği tahmin edilmektedir. Gerisi nispeten gizlidir, kaynağın ortaya çıktığı tek zaman, bilim iletişimi bağlamında sunulduğu zamandır. Öyle bile olsa, araştırma konusu kaynağın kendisi olmadığında kaynak arka planda kalabilir.
LRE Haritası, daha önce LREC 2010 konferansının hazırlanması sırasında "LREC Haritası" olarak adlandırılmıştı Daha doğrusu, fikir FlaReNet projesi kapsamında tartışılmış ve ELRA ile işbirliği içinde LREC-2010 için "harita" oluşturulmuştur. LREC organizatörleri, yazarlardan bilimsel iletişimlerde açıklandığı gibi bu şekilde oluşturulmuş veya kullanılmış herhangi bir kaynak (geniş tanımlı, yani NLP araçları, standartlar ve değerlendirme kitleri dahil) hakkında doğrudan bilgi sağlamalarını istedi. Tüm bu açıklamalar daha sonra LREC Haritası adı verilen küresel bir matriste bir araya getirildi.
Aynı metodoloji uygulandı ve COLING-2010, EMNLP-2010, RANLP-2011 ve LREC-2012 dahil olmak üzere diğer konferanslara genişletildi.
Diğer konferanslara yapılan bu genellemeden sonra, LREC Haritası, LRE Haritası olarak yeniden adlandırıldı.
Veritabanının boyutu zamanla artar. LREC-2010 sırasında toplanan veriler 1889 girişi içeriyordu.
Her kaynak aşağıdaki özniteliklere göre tanımlanır:
LRE Haritası, NLP faaliyetini anlamak için çok önemli bir araçtır. Öznelleştirilmiş değerlendirmelere dayanan diğer çalışmalarla karşılaştırıldığında, LRE Haritası gerçek gerçeklere dayanmaktadır.
LRE Haritası, bir bilgi toplama aracı olmanın yanı sıra büyük bir potansiyele sahiptir:
Veriler , nihai FLaReNet raporunun farklı matrislerini hesaplamak için Joseph Mariani (CNRS-LIMSI IMMI) ve Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica ) tarafından temizlenmiş ve sınıflandırılmıştır . Örneğin, bunlardan biri, LREC-2010'dan yazılı veriler için matris aşağıdakileri verir:
Corpus | Sözlük | Ontoloji | Dilbilgisi / Dil Modeli |
Terminoloji | |
---|---|---|---|---|---|
Bulgarca | 7 | 6 | 1 | 1 | 1 |
Çek | 12 | 7 | 2 | 1 | 1 |
Danimarka dili | 6 | 2 | 0 | 2 | 0 |
Flemenkçe | 17 | 8 | 2 | 1 | 2 |
ingilizce | 206 | 77 | 18 | 11 | 10 |
Estonyalı | 3 | 1 | 0 | 0 | 1 |
Fince | 3 | 2 | 0 | 1 | 0 |
Fransızca | 44 | 24 | 3 | 4 | 5 |
Almanca | 43 | 15 | 4 | 2 | 3 |
Yunan | 10 | 3 | 2 | 0 | 0 |
Macarca | 8 | 4 | 0 | 1 | 1 |
İrlandalı | 1 | 0 | 0 | 0 | 0 |
İtalyan | 32 | 16 | 4 | 2 | 0 |
Letonca | 9 | 0 | 0 | 0 | 1 |
Litvanyalı | 4 | 0 | 2 | 0 | 1 |
Malta dili | 1 | 0 | 0 | 1 | 0 |
Lehçe | 7 | 2 | 1 | 2 | 1 |
Portekizce | 19 | 6 | 1 | 1 | 0 |
Romence | 12 | 7 | 1 | 1 | 0 |
Slovak | 2 | 0 | 0 | 1 | 0 |
Slovence | 5 | 1 | 0 | 0 | 0 |
İspanyol | 29 | 19 | 4 | 5 | 2 |
İsveççe | 19 | 4 | 0 | 1 | 0 |
Diğer Avrupa | 19 | 11 | 3 | 3 | 2 |
Bölgesel Avrupa | 18 | 8 | 0 | 1 | 3 |
Çok dilli | 5 | 3 | 1 | 0 | 1 |
Dilden bağımsız | 9 | 3 | 16 | 2 | 1 |
Uygulanamaz | 2 | 0 | 2 | 1 | 0 |
Toplam | 552 | 229 | 67 | 45 | 36 |
Şaşırtıcı olmayan bir şekilde, İngilizce'nin en çok çalışılan dil olduğu unutulmamalıdır. İkinci olarak Fransızca ve Almanca, ardından İtalyanca ve İspanyolca geliyor.
LRE Haritası, LRE dergisine ve diğer konferanslara genişletilecektir.