LogSumExp

La fonction LogSumExp (LSE) (également appelée RealSoftMax ^[1] ou softplus multivarié) est un maximum régularisé – une approximation lisse de la fonction maximum, principalement utilisée par les algorithmes d'apprentissage automatique^[2]. Elle est définie comme le logarithme de la somme des exponentielles des arguments :

$\mathrm {LSE} (x_{1},\dots ,x_{n})=\ln \left(\exp(x_{1})+\cdots +\exp(x_{n})\right).$

Propriétés

Le domaine de la fonction LogSumExp est $\mathbb {R} ^{n}$ , l' espace des coordonnées réelles, et son codomaine est $\mathbb {R}$ , la droite réelle. Il s'agit d'une approximation du maximum $\max _{i}x_{i}$ avec les limites suivantes $\max {\{x_{1},\dots ,x_{n}\}}\leq \mathrm {LSE} (x_{1},\dots ,x_{n})\leq \max {\{x_{1},\dots ,x_{n}\}}+\ln(n).$ La première inégalité est stricte sauf pour $n=1$ . La seconde inégalité est stricte sauf si tous les arguments sont égaux. Pour preuve, on considère $m=\max _{i}x_{i}$ . Alors $\exp(m)\leq \sum _{i=1}^{n}\exp(x_{i})\leq n\exp(m)$ Il suffit alors d'appliquer le logarithme à l'inégalité pour obtenir le résultat.

De plus, on peut normaliser la fonction pour obtenir des bornes plus resserrées. On prend l'exemple de la fonction ${\frac {1}{t}}\mathrm {LSE} (tx_{1},\dots ,tx_{n})$ . Alors $\max {\{x_{1},\dots ,x_{n}\}}<{\frac {1}{t}}\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq \max {\{x_{1},\dots ,x_{n}\}}+{\frac {\ln(n)}{t}}.$ En effet, on remplace chaque $x_{i}$ avec $tx_{i}$ pour $t>0$ dans les inégalités ci-dessus, ce qui donne $\max {\{tx_{1},\dots ,tx_{n}\}}<\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq \max {\{tx_{1},\dots ,tx_{n}\}}+\ln(n).$ et, puisque $t>0$ $t\max {\{x_{1},\dots ,x_{n}\}}<\mathrm {LSE} (tx_{1},\dots ,tx_{n})\leq t\max {\{x_{1},\dots ,x_{n}\}}+\ln(n).$ enfin, diviser par $t$ donne le résultat voulu.

De même, si on multiplie par un nombre négatif, on obtient un encadrement similaire avec la fonction $\min$ : $\min {\{x_{1},\dots ,x_{n}\}}-{\frac {\ln(n)}{t}}\leq {\frac {1}{-t}}\mathrm {LSE} (-tx)<\min {\{x_{1},\dots ,x_{n}\}}.$

On peut également utiliser la propriété suivante, qui présente la fonction LogSumExp comme une approximation continue de la fonction maximum^[3]: $\lim _{t\to 0^{+}}t\,\mathrm {LSE} ({\tfrac {1}{t}}\mathrm {x} )=\max\{\mathrm {x} \}.$

La fonction LogSumExp est convexe et strictement croissante sur tout son domaine^[4]. Elle n'est pas strictement convexe, car elle est affine (linéaire plus une constante) sur les droites diagonales et parallèles^[5]:

\mathrm {LSE} (x_{1}+c,\dots ,x_{n}+c)=\mathrm {LSE} (x_{1},\dots ,x_{n})+c.

Hormis cette direction, elle est strictement convexe (la matrice hessienne est de rang ${\textstyle n-1}$ ), donc par exemple, la restriction à un hyperplan transverse à la diagonale donne une fonction strictement convexe. Voir $\mathrm {LSE} _{0}^{+}$ , ci-dessous.

En écrivant $\mathbf {x} =(x_{1},\dots ,x_{n}),$ les dérivées partielles sont : ${\frac {\partial }{\partial x_{i}}}{\mathrm {LSE} (\mathbf {x} )}={\frac {\exp x_{i}}{\sum _{j}\exp {x_{j}}}},$ ce qui signifie que le gradient de LogSumExp est la fonction softmax.

Le conjugué convexe de LogSumExp est la néguentropie.

Astuce du log-sum-exp pour les calculs dans le domaine logarithmique

La fonction LSE est souvent rencontrée lorsque les calculs arithmétiques habituels sont effectués sur une échelle logarithmique, comme dans la log-probabilité ^[6].

De même que les opérations de multiplication en échelle linéaire deviennent de simples additions en échelle logarithmique, une opération d'addition en échelle linéaire devient l'estimateur des moindres carrés en échelle logarithmique :

$\mathrm {LSE} (\ln(x_{1}),...,\ln(x_{n}))=\ln(x_{1}+\dots +x_{n})$ Un objectif courant dans le calcul sur le domaine logarithmique est un accroissement de la précision et d'éviter les dépassements de nombres, quand des grands nombres ou des petits nombres sont utilisés directement (i.e. dans un domaine linéaire) par des nombres flottants à précision limitée^[7].

Malheureusement, l'utilisation directe de la méthode des moindres carrés dans ce cas peut à nouveau entraîner des problèmes de dépassement de nombres. Par conséquent, il convient d'utiliser la méthode équivalente suivante (en particulier lorsque la précision de l'approximation « max » ci-dessus est insuffisante).

$\mathrm {LSE} (x_{1},\dots ,x_{n})=x^{*}+\ln \left(\exp(x_{1}-x^{*})+\cdots +\exp(x_{n}-x^{*})\right)$ avec $x^{*}=\max {\{x_{1},\dots ,x_{n}\}}$

De nombreuses bibliothèques mathématiques telles que IT++ fournissent une routine par défaut pour l'estimateur LSE et utilisent cette formule en interne.

Une fonction de type log-somme-exp strictement convexe

Généralisations

Une généralisation de la fonction LogSumExp sur un ensemble continu revient à prendre le logarithme de la fonction de partition^[9]:

LSE(f)=\ln \int \exp(f(x))\mathrm {d} x

Applications

La fonction LogSumExp appartient à une classe de fonctions non linéaires importantes utilisée dans l'optimisation géométrique, les réseaux neuronaux, etc^[10]^,^[11].

Voir aussi

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « LogSumExp » (voir la liste des auteurs).

↑ (en) Aston Zhang, Zack Lipton, Mu Li et Alex Smola, « Dive into Deep Learning, Chapter 3 Exercises », www.d2l.ai (consulté le 27 juin 2020)
↑ (en) Frank Nielsen et Ke Sun, « Guaranteed bounds on the Kullback-Leibler divergence of univariate mixtures using piecewise log-sum-exp inequalities », Entropy, vol. 18, n^o 12,‎ 2016, p. 442 (DOI 10.3390/e18120442, Bibcode 2016Entrp..18..442N, arXiv 1606.05850, S2CID 17259055)
↑ (en) Pierre Blanchard, Desmond J. Higham et Nicholas J. Higham, « Accurate Computation of the Log-Sum-Exp and Softmax Functions », 8 septembre 2019.
↑ (en) Laurent El Ghaoui, Optimization Models and Applications, 2017 (lire en ligne)
↑ (en) « Convex analysis - About the strictly convexity of log-sum-exp function - Mathematics Stack Exchange », stackexchange.com
↑ (en) Richard McElreath, Statistical Rethinking (OCLC 1107423386)
↑ (en) « Practical issues: Numeric stability. », CS231n Convolutional Neural Networks for Visual Recognition
↑ (en) Frank Nielsen et Gaetan Hadjeres, « Monte Carlo Information Geometry: The dually flat case », 2018.
↑ (en) Egor Gladin, Alexey Kroshnin, Jia-Jie Zhu et Pavel Dvurechensky, « Improved Stochastic Optimization of LogSumExp », .
↑ (en) X. Xi, J. Xu et Y. Lou, 2020 IEEE 16th International Conference on Control & Automation (ICCA), vol. 2020, IEEE, 600-605 p. (ISBN 9781728190945, DOI 10.1109/ICCA51439.2020.9264376), « Log-sum-exp Optimization based on Continuous Piecewise Linearization Techniques »
↑ (en) C.M. Bishop et N.M. Nasrabadi, Pattern recognition and machine learning, Springer, 2006.

Portail de l'analyse

[1] (en) Aston Zhang, Zack Lipton, Mu Li et Alex Smola, « Dive into Deep Learning, Chapter 3 Exercises », www.d2l.ai (consulté le 27 juin 2020)

[F._Nielsen_2016-2] (en) Frank Nielsen et Ke Sun, « Guaranteed bounds on the Kullback-Leibler divergence of univariate mixtures using piecewise log-sum-exp inequalities », Entropy, vol. 18, n^o 12,‎ 2016, p. 442 (DOI 10.3390/e18120442, Bibcode 2016Entrp..18..442N, arXiv 1606.05850, S2CID 17259055)

[3] (en) Pierre Blanchard, Desmond J. Higham et Nicholas J. Higham, « Accurate Computation of the Log-Sum-Exp and Softmax Functions », 8 septembre 2019.

[L._El_Ghaoui_2017-4] (en) Laurent El Ghaoui, Optimization Models and Applications, 2017 (lire en ligne)

[5] (en) « Convex analysis - About the strictly convexity of log-sum-exp function - Mathematics Stack Exchange », stackexchange.com

[6] (en) Richard McElreath, Statistical Rethinking (OCLC 1107423386)

[7] (en) « Practical issues: Numeric stability. », CS231n Convolutional Neural Networks for Visual Recognition

[F._Nielsen_2018-8] (en) Frank Nielsen et Gaetan Hadjeres, « Monte Carlo Information Geometry: The dually flat case », 2018.

[9] (en) Egor Gladin, Alexey Kroshnin, Jia-Jie Zhu et Pavel Dvurechensky, « Improved Stochastic Optimization of LogSumExp », .

[10] (en) X. Xi, J. Xu et Y. Lou, 2020 IEEE 16th International Conference on Control & Automation (ICCA), vol. 2020, IEEE, 600-605 p. (ISBN 9781728190945, DOI 10.1109/ICCA51439.2020.9264376), « Log-sum-exp Optimization based on Continuous Piecewise Linearization Techniques »

[11] (en) C.M. Bishop et N.M. Nasrabadi, Pattern recognition and machine learning, Springer, 2006.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]