Otomatik konuşma tanıma

Otomatik konuşma tanıma (genellikle yanlış olarak adlandırılan ses tanıma ) bir olduğu teknik bilgisayar analizleri insan sesi bir tarafından yakalanan mikrofon bir şeklinde bunu yazıya metin tarafından okunabilir makineleri .

Konuşma tanımanın yanı sıra konuşma sentezi , konuşmacı tanımlama veya konuşmacı doğrulama, konuşma işleme tekniklerinden bazılarıdır . Bu teknikler, özellikle etkileşimin bir kısmının sesle yapıldığı insan-makine arayüzleri (HMI) üretmeyi mümkün kılar : "  ses arayüzleri ".

Birçok uygulama arasında, zorluğun kelime haznesi boyutunda ve cümlelerin uzunluğunda olduğu bir bilgisayarda ses dikte uygulamalarının yanı sıra , zorluğun daha çok olduğu interaktif ses sunucusu türünün telefon uygulamalarını da sayabiliriz. Değişken ve genellikle gürültülü akustik koşullarda herhangi bir sesi tanımak gerekir (halka açık yerlerde cep telefonları).

Gelen Konuşma ve İnsan-Makine arasında önemli bir fark olduğu Diyalog W. Minker ve S. Bennacef, o otomatik konuşma tanıma karmaşık bir alandır açıklamak resmi dili anlaşılması ve makineler tarafından kullanılır, ve doğal dil kullanımını insanlarda, . Biçimsel dil, katı sözdizimsel kurallarla ve belirsizlik olmadan yapılandırılmıştır . Tersine, doğal dilde, sözcükler veya cümleler, örneğin konuşmacının tonlamasına veya bağlama bağlı olarak birkaç anlama sahip olabilir .

Araştırma alanı

Konuşma tanıma, bilimin birçok alanına bağlanabilir: otomatik dil işleme , dilbilim , bilgi teorisi , sinyal işleme , sinir ağları , yapay zeka vb.

Tarihi

Erken gelen ses tanıma üzerindeki çalışmalar XX inci  yüzyılın. Konuşma tanıma olarak düşünülebilecek ilk sistem 1952 yılına dayanmaktadır.

Davis, Biddulph ve Balashek tarafından Bell Labs laboratuvarlarında geliştirilen bu elektronik sistem esas olarak rölelerden oluşuyordu ve performansı tek basamakları tanımakla sınırlıydı (referansa bakın). Araştırma daha sonra çalışma ile 1970'lerde önemli ölçüde artmıştır Jelinek de IBM (1972-1993). Threshold Technologies şirketi ilk olarak 1972'de 32 kelime kapasiteli bir tanıma sistemi olan VIP100'ü piyasaya sürdü . Günümüzde konuşma tanıma, yerleşik sistemlerdeki artış sayesinde hızla büyüyen bir alandır . Hızlı evrim:

Temel prensipler

Adımlar

Otomatik Konuşma Tanıma (RAP) programına kaydedilmiş ve sayısallaştırılmış bir cümle verilir. YYEP formalizminde ( İngilizce ASR ), fonksiyonel döküm aşağıdaki gibidir:

Teknik malzeme

Bir GDD sistemindeki belgesel prodüksiyon, bir ses kaydından ( dijital dikte ) başlar. Bu, sesin dijital ortamda kaydedilmesi ve eski haline getirilmesi meselesidir. Kayıt, farklı kayıt kanallarından yapılabilir: mikrofonlar , diktafonlar , akıllı telefonlar ...

Sekreterliğe yazmak veya doğrulamak için iade, hoparlörler veya kulaklıklar kullanılarak yapılır .

Modeller

Böyle bir sistem üç ana modele dayanmaktadır:

Bu üç modelin kombinasyonu, gözlemlenen bir konuşma sinyali verilen herhangi bir kelime dizisinin olasılığını hesaplamayı mümkün kılar. Konuşma tanıma, en yüksek olasılığa sahip sözcük dizisini bulmayı içerir. Biçimsel olarak sorunun çözümü , aşağıdaki matematiksel ifadeyi maksimize eden kelimelerin bir sonucudur .

Bu modelleri bir uygulama için kalibre etmek için büyük miktarda açıklamalı külliyat kullanmak gerekir. Külliyat, hedeflenen sistemin kullanım koşullarına uygun olmalıdır.

Sınıflandırma

Konuşma tanıma sistemleri birkaç eksende sınıflandırılabilir:

Sözcük dağarcığının boyutu ve dil modelinin karmaşıklığı, sesli komutlar için birkaç düzine kelimeden Fransızca veya Fransızca gibi bir dili kapsayacak şekilde birkaç yüz bin kelimeye kadar işlenecek verinin dili ve doğası ile doğrudan bağlantılıdır. Almanca.

Verim

Bir konuşma tanıma motorunun ham performansı genellikle kelimelerin hata oranları ( kelime hata oranı ) ile ölçülür . Tersine, başarı oranını değerlendirebiliriz. Bu oran, kopyalanacak verinin doğasına, konuşmacıya ve akustik koşullara bağlı olarak büyük ölçüde değişir. Dile çok az bağlıdır. Resmi tanımı şöyledir:

veya:

Hata oranı için bazı ortalama sonuçlar şunlardır:

Edebiyattan bahseder

Konuşma tanıma, Birinci Çember'de Sovyet muhalif yazar Alexander Solzhenitsyn tarafından Stalin'in hizmetinde bir baskı aracı olarak çağrılır .

Bir polisiye romanında konuşma tanımadan da bahsedilir:

“Bir polisin kariyeri ile bir nalbantın kariyeri arasında uzun süre tereddüt eden bir arkadaşımın bilgisayar başında üşümüş parmağıyla tıngırdattığı eski güzel raporlarımızla ilgisi yok. Yankees ile konuşursunuz ve o, silinmeden, tekrarlanmadan veya uygunsuz terimler olmadan, temiz ve düzenli bir şekilde kayıt altına alınır. Bir slot makinesinde okumayı öğrenmiş olan herhangi bir alçak, Romalı'dan tercüme edilen böcek öldürücü bir tozun kullanım talimatlarını yüzyıla ait bir çocuğun İtirafı ile karşılaştırarak sizi itiraflarla yakar.

Bu şeyin pilotluğunu yapmak için Princeton'dan ayrılmaya gerek yoktu. Operatörün güzel gürlüğü dışında mastürbasyon yapması gereken tek şey, kötü telaffuz edilen bir kelimeyi tekrar etmekti ve hatta cihaz bile cümlenin anlamıyla uyumlu bir eşanlamlılar kümesi önerdi. Makinenin çalıştığını görünce, tüm meslektaşlarımın düzyazısını anlaşılır kılacağı başlıkla titrediğini düşündüm. "

Frédéric Dard takma adı San Antonio , Sand in Vaseline

İçinde insan ve makine arasındaki tek arayüz olarak konuşma tanıma söz edilmiyor kehanetler üçlemesi arasında Pierre BORDAGE . Nitekim bu üçlemede bir süper bilgisayar , DNA PC sunuluyor .

Konuşma tanıma yazılımı

Modern konuşma tanıma sistemleri, gigabaytlarca bellek gerektirebilen dil modellerini kullanır, bu da onları özellikle mobil cihazlarda kullanışsız hale getirir. Bu nedenle, çoğu modern konuşma tanıma sistemi aslında uzak sunucularda barındırılır ve bir internet bağlantısı ve ağ üzerinden ses içeriği göndermeyi gerektirir.

Mozilla , tescilli olmayan konuşma tanıma motorlarını eğitmek için ücretsiz bir veritabanında ses örnekleri toplamak için Common Voice adlı bir topluluk projesi başlattı .

Notlar ve referanslar

  1. (in) Leonard E. Baum, "  Markov Zincirlerinin Olasılıksal Fonksiyonlarının İstatistiksel Analizinde Meydana Gelen Bir Maksimizasyon Tekniği  " , The Annals of Mathematical Statistics ,1970, s.  164 - 171.
  2. Peckham, J. (1993). Yeni nesil sözlü diyalog sistemleri: SUNDIAL projesinin sonuçları ve dersleri. Üçüncü Avrupa Konuşma İletişimi ve Teknolojisi Konferansı'nda.
  3. (inç) "  Apple , apple.com'da iPhone 4S iOS5 iCloud'u Piyasaya Sürüyor  " ,4 Ekim 2011(erişim tarihi 21 Ağustos 2017 ) .
  4. "  Microsoft konuşma tanıma önemli ilerleme açıkladı  " üzerine, actuia.com ,Ağustos 21, 2017(erişim tarihi 21 Ağustos 2017 ) .
  5. San Antonio , Vazelin'de Kum , Paris, Kara Nehir ,Eylül 1998, 209  s. ( ISBN  2-265-06530-7 ) , s.  40-41.

Ayrıca görün

Kaynakça

İlgili Makaleler

Dış bağlantılar

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">