köklenme

Alt sınıf	Kanonik (bilgisayar bilimi)

Olarak dil , rootization veya desuffixation kendi içine çekimleri dönüştürülmesine yönelik bir yöntem olup radikali veya kök. Bir kelimenin kökü, kelimenin önek(ler)i ve sonek(ler)i, yani kökü çıkarıldıktan sonra kalan kısmıdır. Dili konuşanların olağan kullanımından kaynaklanan bir terime karşılık gelen lemmanın aksine , kök genellikle yalnızca bu tür bir analizden kaynaklanan bir terime karşılık gelir. Örneğin, arama kelimesi , bu kökün kendisine yapılan bir göndermeden ayrı olarak kullanılan bir terime karşılık gelmeyen bir araştırma köküne sahiptir. Özel durumlarda, kök sıradan bir kelime terimiyle örtüşebilir. Bu örneğin alın kökünü veren frontal durumudur .

Bunu yapmak için kullanılan teknikler genel bir listesi dayanmaktadır eklerin kabul dilin (ekleri, önekler, ekleri içermemelidir, circumfixes) ve rootization bir dizi / deuffixation kuralları inşa önsel , onun kökünü bulmak için bir kelime verilir imkan veren.

Bir bilgisayar köklendirme programına köklendirme makinesi denir. En iyi bilinen algoritmalar Julie Beth Lovins (in) (1968) ve Martin Porter (in) (1980) tarafından geliştirilmiştir. Köklendirme, örneğin makine çevirisi, bilgi alma (varlık tanıma) ve arama motoru indeksleme gibi doğal dil işleme uygulamalarında sık görülen bir işlemdir .

Örnekler

Örneğin, İngilizce olarak, "bir rootization balıkçılık", " avlanır ", " balık " ve " balıkçı " "verir balık ". Gibi yalnızca kelimeler endekste tutuldu Bir arama yalnızca kelime "içeren belgelere atıfta sırasında, imkansız olurdu balıkçılık " arayarak " fisher ". Köklenme sayesinde, aynı kökü paylaştıklarını ve aynı sözlüğün a priori bir parçası olduklarını biliyoruz.

Tersine, köklenme de bir hata kaynağıdır. Örneğin İngilizce'de " üniversite " ve " evren " kelimeleri aynı köke (" evren ") sahiptir, ancak bu iki kelimeyi kullanan belgeler bile çok ince bir ilişkiye sahip olabilir.

Farklı algoritmalar

Bu çeşitli köklendirme algoritmaları iki aşamada ilerler: kelimelerden mümkün olan en uzun önceden tanımlanmış sonların çıkarılmasını içeren bir deuffixation adımı ve elde edilen köklere önceden tanımlanmış sonları ekleyen bir yeniden kodlama adımı. Lovins'in algoritması iki adımı ayrı ayrı yapar, ancak Porter'ın algoritması her iki adımı da aynı anda yapar.

Porter'ın algoritması tarafından sağlanan köklerin mutlaka doğru biçimbirimler olmadığına dikkat etmek önemlidir.

Literatürde iki ana kökleştirici ailesi mevcuttur: algoritmik kökleştiriciler ve sözlük kullananlar.

Algoritmik bir kökleştirici genellikle daha hızlı olacak ve bilinmeyen kelimelerden kök çıkarmayı mümkün kılacaktır (bir anlamda karşılaştığı tüm kelimeler onun tarafından bilinmemektedir). Ancak, olmaması gereken kelimeleri bir araya toplayarak (aşırı köklenme) daha yüksek bir hata oranına sahip olacaktır. Sözlük yaklaşımı bilinen kelimelerde hata yapmaz, listelemediği kelimelerde hata üretir. Ayrıca daha yavaştır ve sözlükte karşılık gelen kökü aramadan önce son eklerin kaldırılmasını gerektirir.

Porter'ın algoritması

Porter tarafından geliştirilen algoritma, birbirini izleyen yedi aşamaya (çoğulların ve fiillerin üçüncü tekil şahısta işlenmesi, geçmiş zamanın ve ilerlemenin işlenmesi, ...) sınıflandırılan yaklaşık elli köklendirme / son ek çıkarma kuralından oluşur. Analiz edilecek kelimeler tüm aşamalardan geçer ve onlara birden fazla kural uygulanabilmesi durumunda her zaman en uzun eki içeren kelime seçilir. Köklendirme / desuffixation, aynı adımda, yeniden kodlama kuralları ile eşlik edilir. Böylece, örneğin, "sorun", aşamalı -ing'den işaretleyici son eki kaldırıldığında "sorun" olur ve daha sonra "bl" olur "ble" kuralı uygulanarak "sorun" a dönüştürülür. Bu algoritma ayrıca, bir son ekin kaldırılması gereken koşulları belirten beş bağlam kuralı içerir. Örneğin -ing ile biten sadece kökte en az bir sesli harf varsa kaldırılacaktır. Bu şekilde, "sıkıntı", gördüğümüz gibi "sıkıntı" haline gelirken, "şarkı söylemek", "şarkı söylemek" olarak kalacaktır.

Porter'ın algoritmasının ayrıntıları

Ya bir ünlüyü temsil eder ('y' bir ünsüzden önce geliyorsa bir sesli harf olarak kabul edilir), bir ünsüzü temsil eder; ve ya bir sesli harf dizisini temsil eden , bir dizi ünsüz harfi temsil eden, o halde İngilizce'deki bir kelime aşağıdaki 4 biçimden biri olabilir: $\ komut dosyası stili v$ $\ komut dosyası stili c$ $\ komut dosyası stili V$ $\ komut dosyası stili C$

$\ scriptstyle CVCV \ ldots C$
$\ scriptstyle CVCV \ ldots V$
$\ scriptstyle VCVC \ ldots C$
$\ scriptstyle VCVC \ ldots V$

burada ile temsil edilebilir ya da burada, bir kelimenin bir önlem olarak adlandırılır. Farklı değerler farklı kelimeler sunar: $\ scriptstyle C? VCVC \ ldots V?$ $\ scriptstyle C? (VC) ^ {m} V?$ $m$

$m = 0$ : ağaç tarafından
$m = 1$ : bela, yulaf, ağaçlar, sarmaşık
$m = 2$ : sıkıntılar, özel, oaten, orrery

Deuffixation / kökleştirme kuralları şu şekilde ifade edilir, yani bir kelime ile biterse ve önek koşulu sağlıyorsa, o zaman ekin yerine şu şekilde gelir. $\ scriptstyle (koşul) S_ {1} \mapsto S_ {2}$ $\ komut dosyası stili S_ {1}$ $\ komut dosyası stili S_ {1}$ $\ komut dosyası stili S_ {2}$

$\ komut dosyası stili ^ {*} e$ : önek harfle biter $\ komut dosyası stili e$
$\ scriptstyle ^ {*} v ^ {*}$ : önek bir sesli harf içerir
$\ komut dosyası stili ^ {*} d$ : önek çift ünsüz ile biter
$\ komut dosyası stili ^ {*} o$ : önek , ikincinin ne , ne de , ne de olduğu yerde biter . $\ komut dosyası stili cvc$ $\ komut dosyası stili c$ $\ komut dosyası stili w$ $\ komut dosyası stili x$ $\ komut dosyası stili y$

Boole operatörlerini kullanmak mümkündür: ve, veya değil

Porter'ın kökleştiricisi tarafından elde edilen kökler

Aşama 1	NS	SSES → SS IES → ben SS → SS S →	okşama → midilli okşama → poni okşama → kedi okşama → kedi
	B	(m> 0) EED → EE (* v ) ED → ( v *) ING →	besleme → besleme, kararlaştırıldı → sıvalı katılıyorum → sıva, bled → bled motoring → motor, şarkı söyle → şarkı söyle
	vs	(* v *) Y → ben	mutlu → mutlu, gökyüzü → gökyüzü
2. adım		(m> 0) ULUSAL → ATE (m> 0) İSİ → ARI (m> 0) ENCI → ENCE (m> 0) ANCI → ANCE ...	ilişkisel → koşullu ilişki → koşul, rasyonel → rasyonel valenci → valence tereddüt → tereddüt ...
Aşama 3		(m> 0) ICATE → IC (m> 0) ATIVE → (m> 0) ALIZE → AL (m> 0) ICITI → IC ...	üçlü → biçimlendirici üçlü → biçim resmileştir → resmi elektrik → elektrik …
4. Adım		(m> 1) AL → (m> 1) ANCE → (m> 1) ENCE → (m> 1) ER → ...	canlanma → canlanma ödeneği → çıkarsamaya izin ver → uçağı çıkar → airlin …
Adım 5		(m> 1) E → (m = 1 ve * o değil) E → (m> 1 ve * d ve * L) → çizgisiz harf	vesayet → probat, oran → oran durdurma → kontrolü sona erdirme → kontrol, yuvarlama → yuvarlama

Bu algoritmayı 2 kelime ile test edin: Genellemeler ve Osilatörler

genellemeler 1. adım: Genelleştirme 2. Adım: Genelleştirin 3. Adım: Genel 4. adım: Genel osilatörler 1. adım: Osilatör 2. adım: Salınım 4. adım: Salınım Adım 5: Osil

Porter'ın algoritması özgürce dağıtılır ve birçok dilde uygulanmıştır. 2000 yılında Martin Porter, algoritmasının birkaç dilde kendi uygulamasını sağladı çünkü diğerleri hafif kusurlar içeriyordu. Porter'ın algoritması İngilizce için verimli ancak Fransızca için pek uygun değil. Bu nedenle, Fransızca için başka bir algoritma geliştirilmiştir.

Carry, Fransızca için bir köklendirme algoritması

Porter'ın algoritması gibi, Carry'nin algoritması da işlenecek kelimelerin art arda geçtiği çeşitli aşamalarda gerçekleşir. Kurallara göre, ayrıştırıcı listeden bir sonek tanıdığında, onu kaldırır veya dönüştürür. Burada da en uzun ek, uygulanacak kuralı belirler.

Fransız morfolojisi çalışması için taşıma kuralları önerilmiştir ve bunlar GALILEI proje sitesinden (Generic Analyzer and Listener for Indexed and Linguistics Entities of Information) ücretsiz olarak indirilebilir.

Paice / Husk algoritması

Paice / Husk algoritması, algoritmik kök ayırıcılar ailesine aittir. Kökleri çıkarmak için bir dizi kurala dayanır ve dahası bu kuralları kodun dışında saklar. Böylece, kodu yeniden yazmadan, bazı düzenlemelerle (her dil için, kabul edilen ünlülerin listesi ve kök geçerlilik kurallarının sağlanması gerekir) yeni bir dili başka bir kurallar dizisinden aynı şekilde ele almak mümkündür. Böylece algoritma, yeni bir dilin yönetimine daha kolay taşınabilir.

Bu algoritma 1980'lerde Lancaster Üniversitesi'nde Chris Paice tarafından geliştirildi ve daha sonra Pascal, C, PERL ve Java ile kodlandı.

Paice / Husk algoritmasının uygulanması, girdi olarak sağlanan kelimeye uygulanabilir kök çıkarma kurallarını kullanacak ve önerilen kökün kabul edilebilirliğini doğrulayacak bir dizi fonksiyondan oluşur.

Köklendirme vs. lemmatizasyon

Köklendirme ve lemmatizasyon birbirine çok benzer iki kavramdır, ancak temel farklılıklar vardır:

Lemmatization ve desuffixation için kullanılan yöntemler aynı değildir
Amacı lemmatization bir kelimenin lemma, fiiller için örneğin mastar bulmaktır. Kaynaklanan dilinde bulunmayan bir kelime ile sonuçlanabilir kelimelerin sonunu, kaldırmaktır. Örneğin, İngilizce'deki "dividing" kelimesinin ekinin sonucu, İngilizce'de bulunmayan "divid"dir.

Rootization ( kaynaklanan ) tüm morfolojik varyantlarda ortak olan, kelimenin kısaltılmış bir formunun elde edilmesi

Bükülmelerin ortadan kaldırılması
son eklerin kaldırılması

Ör: at, atlar, şövalye, şövalyelik, binmek ⇒ " cheva " ("binici" değil) Hedef : IR'de hatırlamayı artırmak Risk : daha düşük hassasiyet

Köklenme, kelimeler olmayan biçimlere yol açar. Bu nedenle, daha ince bir şeye izin vermeyen son bir tedavidir.
Köklendirme ayrıca çok farklı formları bir araya getirir

marmaille, çömlek ⇒ marm

Köklendirme çok hızlıdır, lemmatizasyon biçim sözdizimsel etiketleme sürecinin bir parçasıdır.

Lemmatizasyon kelimeden kanonik formun ( lemma ) elde edilmesi

Bir fiil için: mastardaki formu
Bir isim, sıfat, makale için ...: eril tekil formu

Lemmatization yalnızca çekim varyantlarını toplar

( at ≡ atlar ) ≠ şövalyelik ≠ gezintiler

Uygulama

Arama motorları, bilgi erişimini iyileştirmek için kök ayırıcılar kullanır. Bir sorgu veya belgedeki anahtar kelimeler, orijinal kelimelerden ziyade kökleriyle temsil edilir. Böylece, bir terimin çeşitli varyantları, sözlüğün boyutunu, yani bir dizi belgeyi temsil etmek için gerekli olan farklı terimlerin sayısını azaltan tek bir temsili biçimde birlikte gruplandırılabilir. Küçük bir sözlük boyutu hem alandan hem de yürütme süresinden tasarruf sağlar. Ancak stemmerlerin kullanılması da hassasiyeti düşürür.

Referanslar

(fr) Bu makale , içeriğinin GFDL lisansı altında kullanılmasına izin veren Ücretsiz Çevrimiçi Bilişim Sözlüğü'nden alıntılar içermektedir .

Julie Beth Lovins (1968). Bir kaynak bulma algoritmasının geliştirilmesi. Mekanik Çeviri ve Hesaplamalı Dilbilim 11 : 22–31.
resmi Porter'ın algoritma sitesi: http://tartarus.org/~martin/PorterStemmer/
Paice / Husk Rootizer: http://alx2002.free.fr/utilitarism/stemmer/stemmer_fr.html
http://www-igm.univ-mlv.fr/~lecroq/cours/porter.pdf
http://www.limsi.fr/~xtannier/fr/Enseignement/tal_eisd/M2PRO_TAL_Morphosyntaxe.pdf
“ Porter Kaynaklanan Algoritma, ” en tartarus.org (erişilen May 16, 2021 ) .
M. Paternostre, P. Francq, J. Lamoral. Carry, Fransızca için bir deuffixation algoritması
“ GALILEI Platformu ” , üzerinde www.otlet-institute.org (erişilen Nisan 12, 2016 )
resmi Paice / Husk algoritma sitesi: http://www.comp.lancs.ac.uk/computing/research/stemming/

Şuna da bakın:

bibliyografya

Lovins, J. (1971) Kümeleme Algoritmaları Olarak Kök Alma Algoritmaları için Hata Değerlendirmesi , JASIS, 22: 28–40
Lovins, JB "Bir Kök Algoritmasının Geliştirilmesi." Mekanik Çeviri ve Hesaplamalı Dilbilim 11, 1968, 22-31.

Dış bağlantılar

Snowball - birçok dil için ücretsiz kaynak bulma algoritmaları, beş romantizm dili için kök ayırıcılar da dahil olmak üzere kaynak kodu içerir
Ruby-Stemmer - Snowball API'sine Ruby uzantısı
PECL - Kartopu API'sine PHP uzantısı
Oleander Porter'ın algoritması - BSD altında yayınlanan C++'daki kaynak kitaplığı
Lovins kaynak kodlu algoritmanın resmi olmayan ana sayfası - birkaç dilde kaynak kodu ile
Porter kaynak kodu oluşturma algoritmasının resmi ana sayfası - çeşitli dillerde kaynak kodu dahil
Lancaster kaynak bulma algoritmasının resmi ana sayfası - Lancaster Üniversitesi, Birleşik Krallık
Lancaster Stemming Algoritmasında Değişiklikler - Kurallardaki hataların ele alınmasını iyileştiren, etkileşimli testlere izin veren, daha kesin gövdeler sağlayan ve sonlu durum otomatlarını uygulamak için biraz esneklik sağlayan uzantılar.
UEA-Lite Stemmer'ın resmi ana sayfası - East Anglia Üniversitesi, Birleşik Krallık
Steming algoritmalarına genel bakış
PTStemmer - Portekizce dili için bir Java / Python / .Net köklendirme araç takımı
jsSnowball - Snowball kaynaklı algoritmaların birçok dil için açık kaynaklı JavaScript uygulaması