Maksimum düzenlenmiş

In matematik , bir regularize maksimum ( en fazla yumuşatmak bir bir) endeksli ailesinin $x 1 , ..., x n$ sayılarının bir olan pürüzsüz yaklaşım içinde maksimum fonksiyonu $max ( x 1 , ..., x n )$ , yani fonksiyonların parametreli bir aile $m α ( x 1 , ..., x , n )$ fonksiyonu öyle ki $m α$ herhangi bir gerçek değer normal olan $a$ ve en fazla işlevine doğru eğilimi $α \to \infty iken$ . Düzenlenmiş minimum kavramı benzer bir şekilde tanımlanabilir. Birkaç durumda, iki işlevi yaklaşık olarak hesaplamak için bir aile kullanılabilir; çok büyük pozitif değerler için maksimum, minimum negatif sonsuza doğru:

{\ displaystyle m _ {\ alpha} \ to \ max \ {\ textrm {for}} \ \ alpha \ to \ infty, \ m _ {\ alpha} \ to \ min \ {\ textrm {for}} \ \ alfa \ ila - \ infty.}

Terim, parametrelendirilmeden maksimum işleve benzer şekilde davranan herhangi bir düzenleyici işlev için kullanılabilir.

Örnekler

Parametresi büyük değerler için $α > 0$ , işlev $S α$ aşağıda tanımlanan, bazen “ $α$ -softmax” terimi, bir düz ve bir türevlenebilir yaklaşım maksimum fonksiyonunun. Mutlak değerde büyük olan parametrenin negatif değerleri için minimuma yaklaşır. $Α$ -softmax işlevi şu şekilde tanımlanır:

{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} \ mathrm {e} ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {i}}}}}

$S α$ aşağıdaki özelliklere sahiptir:

${\ displaystyle S _ {\ alpha} {\ underet {\ alpha \ to + \ infty} {\ longrightarrow}} \ max}$
$S 0$ döner aritmetik ortalaması
${\ displaystyle S _ {\ alpha} {\ altta {\ alpha \ - \ infty} {\ longrightarrow}} \ min}$

$S α'nın$ gradyanı softmax fonksiyonuna bağlıdır ve şuna eşittir :

{\ displaystyle \ nabla _ {x_ {i}} S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ mathrm {e} ^ {\ alpha x_ {i} }} {\ sum _ {j = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {j}}}} [1+ \ alpha (x_ {i} -S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}))].}

Bu, softmax işlevini gradyan iniş kullanan optimizasyon teknikleri için ilginç kılar .

Hölder standartları

Düzenlenmiş bir maksimum biçimi, genelleştirilmiş bir ortalamaya dayalı olabilir . Örneğin, pozitif değerler $x 1 , ..., x n için$ , $α > 1$ mertebesinde bir ortalama kullanabiliriz , yani

{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = \ left ({\ frac {1} {n}} \ sum _ {j = 1} ^ {n} x_ {j} ^ {\ alpha} \ sağ) ^ {\ frac {1} {\ alpha}}.}

LogSumExp

Başka bir düzenli hale getirilmiş maksimum "LogSumExp" adı altında bilinir:

{\ displaystyle \ mathrm {LSE} (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}))}

Fonksiyon, $x i'nin$ tümü pozitifse normalize edilebilir, bu da $[0, + \infty [ n$ - $[0, + \infty [$ :

{\ displaystyle g (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}) - (n-1))}

Terimi, $( n - 1)$ dikkate almak için bir düzeltme katsayısıdır $exp (0) 1 =$ böylece biz sahip olmasını sağlayarak, $g (0, ..., 0) = 0$ , tüm eğer $x i$ sıfırdır.

LogSumExp işlevi, yapaylıkların düzgünleştirilmesini önlemek için ayarlanabilir. Bu forma " $α$ -quasimax" adını veriyoruz.

{\ displaystyle {\ mathcal {Q}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {1} {\ alpha}} \ mathrm {LSE} (\ alpha x_ {1}, \ ldots, \ alpha x_ {n}) = {\ frac {1} {\ alpha}} \ ln (\ exp (\ alpha x_ {1}) + \ ldots + \ exp (\ alpha x_ { değil}))}

Sayısal yöntemlerde kullanın

Düzgün maksimumlar, ayrık veri kümeleri veya gradyan iniş optimizasyon algoritmaları üzerindeki ekstrema aramalarda ilgi çekicidir.

Ayrıca görün

Referanslar

(fr) Bu makale kısmen veya tamamen Wikipedia makalesinden alınmıştır İngilizce başlıklı " Smooth maksimum " ( yazarların listesini görmek ) .

(tr) M. Lange, D. Zühlke, O. Holz ve T. Villmann, “ uygulamaları l p gradyanının -norms ve düz yaklaşımları vektör nicemleme öğrenme bazlı ” , Proc. ESANN ,2014, s. 271-276 ( çevrimiçi okuyun )
(in) Gabor Takacs ' maksimum sınıflandırma, regresyon ve ortak filtreleme göre algoritmaları Yumuşak " , Açta Technica Jaurinensis , Vol. 3, n o 1,2010, s. 27-63