Recurrent Neural Network (RNN)

Architektura, která (na rozdíl od MLP) povoluje cykly. Je to MLP rozšířená minimálně tak, aby byla rekurentní. RNN dovedou zpracovat vstup variabilní délky. Mají "paměť". Jejich hlavní doménou je zpracování textu.

Přehled

Notace
Aktivita
Trénink
Long Short-Term Memory (LSTM)

Notace

$x = (x_{1}, ..., x_{M})$ — vektor hodnot $M$ input neuronů
$h = (h_{1}, ..., h_{H})$ — vektor hodnot $H$ hidden neuronů
$y = (y_{1}, ..., y_{N})$ — vektor hodnot $N$ output neuronů
$U_{ji}$ — váha z inputu $x_{i}$ do hidden $h_{j}$ (dst ← src)
$W_{ji}$ — váha z hidden $h_{i}$ do hidden $h_{j}$ (dst ← src)
$V_{ji}$ — váha z hidden $h_{i}$ do output $y_{j}$ (dst ← src)

Note	Zdá se, že všechno v tomhle předmětu používá Intel syntax dst-src.

Aktivita

Výstup z hidden neuronů je pamětí neuronky, která je na začátku inicializována na 0. RNN zpracovává sekvenci vstupů $x_{1}, ... x_{T}$ délky $T$ . Váhy neuronů jsou sdíleny napříč sekvencí — na každý prvek $x$ jsou aplikována ta samá $U$ :

x_{t} = (x_{t 1}, ... x_{tM})

A produkuje sekvenci hiddenů a outputů:

h_{t} h_{t k} y_{t} y_{t k} = (h_{t 1}, ... h_{t H}) = σ (k^{'} = 1 \sum M U_{k k^{'}} \cdot x_{t k^{'}} + k^{'} = 1 \sum H W_{k k^{'}} \cdot h_{(t - 1) k^{'}}) = (y_{t 1}, ..., y_{tN}) = σ (k^{'} = 1 \sum H V_{kk} \cdot h_{t k^{'}})

Často se pro přehlednost používá maticová notace, kde pro input a hidden posloupnosti platí:

x h h_{t} = x_{1}, ..., x_{T} = h_{1}, ..., h_{T} = σ (U \cdot x_{t} + W \cdot h_{t - 1})

Pro output sekvenci pak:

y y_{t} = h_{1}, ..., h_{T} = σ (V \cdot h_{t})

Trénink

Trénovací set je množina dvojic — (vstupní sekvence, výstupní sekvence).

T = {(x_{1}, d_{1}), ..., (x_{p}, d_{p})}

Note	Ano, to znamená, že $x_{lt 1}$ je první prvek $t$ -ho prvku v $l$ -té vstupní sekvenci.

Squared error samplu $(x, d)$ :

E_{(x, d)} = t = 1 \sum T k = 1 \sum N \frac{1}{2} (y_{t k} - d_{t k})^{2}

Gradient descent je podobný. Na začátku jsou všechny váhy inicalizovány poblíž 0 a pak iterativně přepočítávány:

U_{k k^{'}}^{(l + 1)} V_{k k^{'}}^{(l + 1)} W_{k k^{'}}^{(l + 1)} \frac{\partial E _{(x, d)}}{\partial U _{k k^{'}}} \frac{\partial E _{(x, d)}}{\partial V _{k k^{'}}} \frac{\partial E _{(x, d)}}{\partial W _{k k^{'}}} = U_{k k^{'}}^{(l)} - ε (l) \cdot \frac{\partial E _{(x, d)}}{\partial U _{k k^{'}}} = V_{k k^{'}}^{(l)} - ε (l) \cdot \frac{\partial E _{(x, d)}}{\partial V _{k k^{'}}} = W_{k k^{'}}^{(l)} - ε (l) \cdot \frac{\partial E _{(x, d)}}{\partial W _{k k^{'}}} = t = 1 \sum T \frac{\partial E _{(x, d)}}{\partial h _{t k}} \cdot σ^{'} \cdot x_{t k^{'}} = t = 1 \sum T \frac{\partial E _{(x, d)}}{\partial y _{t k}} \cdot σ^{'} \cdot h_{t k^{'}} = t = 1 \sum T \frac{\partial E _{(x, d)}}{\partial h _{t k}} \cdot σ^{'} \cdot h_{(t - 1) k^{'}}

Backpropagation

Za předpokladu squared error:

\frac{\partial E _{(x, d)}}{\partial y _{t k}} \frac{\partial E _{(x, d)}}{\partial h _{t k}} = y_{t k} - d_{t k} = k^{'} = 1 \sum N \frac{\partial E _{(x, d)}}{\partial y _{t k^{'}}} \cdot σ^{'} \cdot V_{k^{'} k} + k^{'} = 1 \sum H \frac{\partial E _{(x, d)}}{\partial h _{(t + 1) k^{'}}} \cdot σ^{'} \cdot W_{k^{'} k}

Long Short-Term Memory (LSTM)

RNN popsané výše mají dost problém s vanishing (nebo exploding) gradientem, pokud se $\sum_{k^{'} = 1}^{H} σ^{'} \cdot W_{k^{'} k}$ nepohybuje blízko 1. Napamatují si dost kontextu. LSTM tento problém řeší.

Buňka v klasické RNN bere aktuální prvek sekvence a hidden výstup z minulé iterace a prohání ho skrz jednu tanh vrstvu:

LSTM je maličko komplikovanější, protože každá "buňka" vlastně obsahuje 4 vrstvy:

Podívejme se blíže:

Logistic sigmoid $σ$: Aktivační funkce logistic sigmoid — vždy vrací číslo mezi nulou a jedničkou — ideální pro pravděpodobnosti.
Čára $C_{t - 1} \to C_{t}$: Stav buňky, do kterého se "vlévají" úpravy.
Operace $\cdot$: Matrix product.
Operace $\circ$: Component-wise product.
Forget gate $f_{t} = σ (W_{f} \cdot h_{t - 1} + U_{o} \cdot x_{t})$: Umožňuje si něco z minulého stavu $C_{t - 1}$ ponechat nebo zapomenout.
Input gate $i_{t} = σ (W_{i} \cdot h_{t - 1} + U_{i} \cdot x_{t})$: Rozhoduje, co za informace vůbec chceme modifikovat.
Kandidátní stav $\tilde{C}_{t} = tanh (W_{C} \cdot h_{t - 1} + U_{C} \cdot x_{t})$: tanh vrstva z původního RNN vytváří kandidátní stav.
Stav $C_{t} = f_{t} \circ C_{t - 1} + i_{t} \circ \tilde{C}_{t}$: Nový stav vznikne aplikací input gate a forget gate na kandidátní stav.
Output gate $o_{t} = σ (W_{o} \cdot h_{t - 1} + U_{o} \cdot x_{t})$: Rozhoduje, co ze stavu $C_{t}$ si záslouží dostat se ven z buňky.
Output $h_{t} = o_{t} \circ t anh (C_{t})$: Použití output gate obohacené o tanh, který hodnoty stavu vměstná do intervalu $[- 1, 1]$ .

Note	Obrázky ukradeny z výborného článku Understanding LSTM Networks, který napsal Christopher Olah.