Attention Mechanism のバックアップ(No.7)


Attention Mechanism
カテゴリCategory/Info

概要

 Attention Mechanism (注意機構)は、データのどこに注目するかを利用したモデル。RNNの離れた位置の情報が反映されにくいという弱点を解決するために、RNNに付け加えられる形で登場した。

 注意点を示すという性質から、自然言語処理だけでなく画像処理などにも使われる。また、RNNを利用せず、Attention Mechanism を主とした機械学習モデル (Transformer) が発明され、高性能な自然言語処理(BEAT等)の基礎となった。

モデル

大まかな機構

query:\( Q \), key:\( K \), value:\( V \)を入力し、出力\( m \)を得る機構。

出力
\( \displaystyle \mathbf{m}= \| \mathbf{\alpha} V \|_1 \)
正規化
\( \displaystyle \mathbf{\alpha} = f_{norm}(\mathbf{e}) \)
類似度
\( \displaystyle \mathbf{e} = f_{sim}(Q,K) \)

 

以上より、Attention のモデルは以下3つの観点から分類できる。

  • \( Q,V,K \)などの入力の種類・関係
  • 正規化\( f_{norm} \)の方法
  • 類似度\( f_{norm} \)の方法