Gradient, entropie croisée et descente de gradient.

Softmax et entropie croisée

Soit un classifieur linéaire multi-classes constitué d'une couche d'entrée et d'une couche de sortie. Ce réseau prend en entrée un vecteur $\vec x$ , le multiplie avec une matrice de paramètres $W$ et ajoute un biais $\vec b$ . Le résultat est un vecteur $\vec f$ à C dimensions où C est le nombre de classes: $\vec f=W\vec x + \vec b$ C'est ce qu'on appelle le score du réseau. Ainsi, le score de la i-ème classe peut être représenté comme suit $f_{i}=W_{i}^T\vec x+b_i$ où $W_{i}$ est la i-ème ligne de la matrice $W$ . Par la suite, le score de chaque classe passe par la fonction Softmax : $S_i=\frac{e^{f_{i}}}{\sum_{j=0}^{C-1}e^{f_{j}}}$ qui retourne une valeur entre 0 et 1. La sortie $S_i$ peut être vue comme la probabilité conditionnelle de la i-ème classe car les sorties du Softmax somment à 1.

Supposons maintenant que $t$ est l'étiquette cible du vecteur $\vec x$ ( $t$ est un entier entre 0 et $C-1$ ). On peut ainsi calculer la fonction de perte (ici l'entropie croisée) comme suit: $L=-\ln(S_{t})$ où $S_{t}$ est la t-ème sortie du Softmax c-à-d la probabilité prédite par le réseau pour la class cible : $S_{t}=\frac{e^{f_{t}}}{\sum_{j=0}^{C-1}e^{f_{j}}}.$ Si la probabilité prédite pour la classe cible est 1, alors la perte sera nulle : $L=-\ln(1)=0$ . À l'inverse, si la probabilité de la classe cible est 0, la perte sera infinie : $L=-\ln(0)=\infty$ . Mentionnons également qu'il est fréquent d'ajouter un terme de régularisation L2 sur les poids. Ce faisant, on obtient pour la paire $(\vec x,t)$ la perte suivante $L=-\ln(S_{t})+\lambda||W||^2$ où $\lambda$ contrôle la force de la régularisation et aide à réduire le sur-apprentissage. À noter que puisque le biais n'est pas inclue dans $W$ , on réécrira la perte comme

$L=-\ln(S_{t})+\lambda \left ( ||W||^2 + ||\vec b||^2 \right).$

Au final, puisque l'ensemble d'entraînement contient $N$ données, la perte sera la moyenne du logarithme des probabilité prédites pour l'ensemble des cibles plus le terme de régularisation : $L_{tot}=-\frac{1}{N} \sum_n^N \ln(S_{t_n}) + \lambda \left ( ||W||^2 + ||\vec b||^2 \right ).$

Gradient de l'entropie croisée

Afin d'opérer une descente de gradient, il faut calculer le gradient de la perte par rapport aux paramètres (et biais) et ce, à l'aide d'une opération de dérivée en chaîne du type ${\frac{\partial p}{\partial t}}={\frac{\partial p}{\partial q}} {\frac{\partial q}{\partial t}}$ . Pour ce faire, on peut réécrire la fonction de perte comme suit $L = L_{pred} + L_{reg}$ où $L_{pred}$ est l'entropie croisée et $L_{reg}$ est la norme L2 des paramètres du réseau. Ainsi, nous obtenons les dérivées partielles que voici:

$\frac{\partial L}{\partial W_i} = \frac{\partial L_{pred}}{\partial W_i}+\frac{\partial L_{reg}}{\partial W_i}\\ ={\frac{\partial L_{pred}}{\partial S_{t}}} {\frac{\partial S_{t}}{\partial f_i}}{\frac{\partial f_i}{\partial W_i}}+\frac{\partial L_{reg}}{\partial W_i}$ où ${\frac{\partial L_{reg}}{\partial W_{i}}}={\frac{\lambda\partial \left ( ||W||^2 + ||\vec b||^2 \right)}{\partial W_{i}}}={2\lambda W_i}$ et ${\frac{\partial L_{pred}}{\partial S_{t}}}={\frac{\partial (-\ln S_{t})}{\partial S_{t}}}={-\frac{1}{S_{t}}}$ ${\frac{\partial f_i}{\partial W_i}}={\frac{\partial (W_{i}^T \vec x+b_i)}{\partial W_i}} ={\vec x}$

Pour la dérivée partielle $\frac{\partial S_{t}}{\partial f_i}$ nous utiliserons la règle en vertue de laquelle la dérivée par rapport à x d'une fonction $f(x)=\frac{g(x)}{h(x)}$ égale à $f'(x)=\frac{g'(x)h(x)-h'(x)g(x)}{[h(x)]^2}$ . Nous devons également considérer deux cas de figure soit $i=t$ et $i\neq t$ .

Pour $i=t$ on obtient: ${\frac{\partial S_{t}}{\partial f_i}}=\frac{\partial \left ( \frac{e^{f_{t}}}{\sum_{j=1}^{C-1}e^{f_{j}}} \right ) }{\partial f_i} \\ =\frac{(e^{f_{t}})'\sum_{j=0}^{C-1}e^{f_{j}} -(\sum_{j=0}^{C-1}e^{f_{j}})'e^{f_{t}}}{[\sum_{j=0}^{C-1}e^{f_{j}}]^2}$ $=\frac{e^{f_{t}}\sum_{j=0}^{C-1}e^{f_{j}}-e^{f_{i}}e^{f_{t}}}{[\sum_{j=0}^{C-1}e^{f_{j}}]^2} \\ =\frac{e^{f_{t}}}{\sum_{j=0}^{C-1}e^{f_{j}}}\frac{\sum_{j=0}^{C-1}e^{f_{j}}-e^{f_{i}}}{\sum_{j=0}^{C-1}e^{f_{j}}} \\ =S_{t}(1-S_{i})$

Pour $i \neq t$ , on obtient:

${\frac{\partial S_{t}}{\partial f_i}}=\frac{\partial \left ( \frac{e^{f_{t}}}{\sum_{j=0}^{C-1}e^{f_{j}}} \right ) }{\partial f_i}\\ =\frac{(e^{f_{t}})'\sum_{j=0}^{C-1}e^{f_{j}} -(\sum_{j=0}^{C-1}e^{f_{j}})'e^{f_{t}}}{[\sum_{j=0}^{C-1}e^{f_{j}}]^2}$ $=\frac{0\sum_{j=0}^{C-1}e^{f_{i}}-e^{f_{i}}e^{f_{t}}}{[\sum_{j=0}^{C-1}e^{f_{i}}]^2} \\ =\frac{-e^{f_{i}}e^{f_{t}}}{[\sum_{j=0}^{C-1}e^{f_{i}}]^2}\\ =-S_iS_t$

En combinant le tout, au final on obtient: $\frac{\partial L}{\partial W_i}=\begin{cases} -\frac{1}{S_t}S_{t}(1-S_{i})\vec x+2\lambda W_i & \text{si $i=t$}\newline -\frac{1}{S_t}(-S_iS_t)\vec x+2\lambda W_i & \text{si $i \neq t$} \end{cases}\\=\begin{cases} (S_i-1)\vec x+2\lambda W_i & \text{si $i=t$}\newline S_i\vec x+2\lambda W_i & \text{si $i \neq t$} \end{cases}$

De façon similaire, on peut calculer la dérivée de la perte par rapport au biais en changeant le dernier terme de la dérivée en chaîne.

$\frac{\partial L}{\partial b_i}={\frac{\partial L_{pred}}{\partial S_{t}}} {\frac{\partial S_{t}}{\partial f_i}}{\frac{\partial f_i}{\partial b_i}} + \frac{\partial L_{reg}}{\partial b_i}$ ${\frac{\partial f_i}{\partial b_i}}={\frac{\partial (W_{i}^T \vec x +b_i)}{\partial b_i}} =1$ $\frac{\partial L}{\partial b_i}=\begin{cases} S_i-1 + 2\lambda b_i & \text{si $i=t$}\newline S_i + 2\lambda b_i& \text{si $i \neq t$} \end{cases}$ Il est à noter que certaines implémentations délaissent le terme $2\lambda b_i$ ne considérant pas le biais comme un paramètre comme les autres.

Et finalement, on peut "vectoriser" le gradient en calculant la dérivée de la perte par rapport à la matrice $W$ au complet et par rapport au vecteur $\vec b$ au complet. Cela résulte en ceci: $\frac{\partial L}{\partial W}=\nabla_W L= (\vec S-\vec t) \vec{x}^T + 2\lambda W$ $\frac{\partial L}{\partial \vec b}= \nabla_{\vec b} L= \vec S-\vec t + 2\lambda \vec b$ où $\vec t$ est un vecteur cible en format "one-hot".

Une fois les gradients calculés, on peut enfin lancer la descente de gradient :

$W = W - \eta \nabla_{W}L$ $\vec b=\vec b-\eta \nabla_{\vec b}L.$ Bonne programmation!