Sansan Builders Box

Sansanのものづくりを支える技術やデザイン、プロダクトマネジメントの情報を発信

【ML Tech RPT. 】第9回 敵対的摂動 (Adversarial Perturbation) に対するモデルの頑健性の測り方を学ぶ (3)

f:id:ssatsuki040508:20181210005017p:plain
DSOC研究員の吉村です. 先日, iPhoneXRに機種変更をしました. 合わせてバーコード決済やSuicaを使えるようにしたのですが, 支払いするのも電車に乗るのもスマホだけで完結できるというのは非常に便利ですね.

さて, 今回も前回に引き続き敵対的摂動に対するモデルの頑健性の測り方についての話です. 前回は MLP (Multi Layer Perceptron) や CNN (Convolutional Neural Network) に対する頑健性の評価手法として知られる CLEVER (Cross Lipschitz Extreme Value for Network Robustness) [*1] についての紹介をしました. 前回の記事の「おわりに」の部分でも述べましたが, CLEVERはRNN (Recurrent Neural Network) 系のモデルの頑健性を測定できないことが知られています. そこで, 今回はRNN系のモデルに対しても敵対的摂動に対するモデルの頑健性を測定することが可能となる POPQORN (Propagated Output Quantified Robustness for RNNs) [*2] の紹介をします.

POPQORN (Propagated Output Quantified Robustness for RNNs) [C. Y. Ko, et. al., 2019]

POPQORNは既に記述した通り, 従来の頑健性測定手法では対応できなかったRNN系のモデルに対しても頑健性を測定できる手法です. 下記ではこのPOPQORNについて紹介します.

RNN系の頑健性評価の課題

従来の頑健性評価手法では, RNN系のモデルが評価できなかったのにはいくつかの大きな課題があるためであると [C. Y. Ko, et. al., 2019] では述べられています. 具体的には, 次の三つが挙げられています.

  1. よく好まれるようなRNN系のモデルには, 複数の非線形ゲートにより間接的に決定される隠れ層を含むような LSTM (Long Short-Term Memory) や GRU (Gated Recurrent Unit) が含まれており, これらの非線形ゲートはそれぞれが固く結びついているために, 本質的に頑健性の評価が難しくなっている.
  2. RNN系のモデルは入力が系列となるような幅広い応用 (e.g. 時系列, 文など) がある. しかし従来法は, 各モデルの最終層に仮想的に入力を与えて頑健性の評価をすることを想定しているものが多いため, 従来法をそのままRNN系のモデルに応用することはできない.
  3. 人が知覚できないような敵対的サンプルとして, 文に対して単語を少し変えただけのようなものが対応する可能性があるため, 全ての単語に対しての評価をするのではなく, 一つの単語を操作する事に対しての評価をする必要がある.

ちなみに, 一つ目の課題としてあげられている「非線形ゲートがそれぞれ固く結びついていること」を [C. Y. Ko, et. al., 2019] では, cross-nonlinearity (交差非線形性) と呼んでいます.

POPQORNの長所

POPQORNには次の三つの重要な長所があると述べられています.

  1. Novel (新しい): RNN系のモデルに対する頑健性保証を定量的に行うことができる初めての一般的なフレームワークである.
  2. Effective (効率的): 素のRNNモデルだけでなく, 交差非線形性を持つような複雑なLSTMやGRUなどのRNN系モデルも扱える.
  3. Versatile (多用途): 画像処理, NLP, 音声認識などに広く応用できる.

POPQORNの概要

POPQORNでは元のサンプルの系列  \textbf{X}_0 = [\textbf{x}_0^{(1)}, \cdots, \textbf{x}_0^{(m)}] (ただし,  m は系列の長さ) に摂動が乗った系列  \textbf{X} = [\textbf{x}^{(1)}, \cdots, \textbf{x}^{(m)}] を入力とするとき, 各候補ラベルに対応する出力が取りうる値の上下限を活性化関数の上下の線形境界に基づいて計算します. (ただし, 摂動が乗った系列の  k 番目のサンプルを  \textbf{x}^{(k)} \in \mathbb{B}_p(\textbf{x}_0^{(k)}, \epsilon) とし,  \mathbb{B}_p(\textbf{x}_0^{(k)}, \epsilon) はノルム  p による中心  \textbf{x}_0^{(k)}, 半径  \epsilon の超球を表します.) 今述べたように, POPQORNでは各層の (非線形) 活性化関数が線形境界で上下から抑えられることを仮定しており, また, そのような活性化関数のみを用いたRNN系のモデルについては常に応用が可能と言えます. 活性化関数を抑える線形境界については, [H. Zhang, et. al., 2018] [*3] でいくつかの活性化関数についての線形境界が示してあります. あるRNN系のモデルについて, ノイズが乗った系列  \textbf{X} が入力として与えられた時の  i 番目の候補ラベルに対応する関数を  F_i (\textbf{X}) とすると, POPQORNを用いることで, これを下から抑える  \gamma_i^L と上から押さえる  \gamma_i^U とを簡単な計算だけで得ることができます. つまり, どのようなノイズの乗った入力系列に対しても  \gamma_i^L \leq F_i(\textbf{X}) \leq \gamma_i^U を満たす \gamma_i^L \gamma_i^U が計算できるということになります. この時, 元のサンプルの系列  \textbf{X}_0 を入力として与えた時にこのモデルで  j 番目のクラスが得られると仮定すると, untargeted attack の問題設定の場合には,

$$\epsilon_j = \max_{\epsilon} \epsilon\text{, s.t. }\gamma_j^L(\epsilon) \geq \gamma_i^U(\epsilon), \forall i\neq j$$

の解が, target class が  i である targeted attack の問題設定の場合には,

$$\hat{\epsilon}(i,j) = \max_{\epsilon} \epsilon\text{, s.t. }\gamma_j^L(\epsilon) \geq \gamma_i^U(\epsilon)$$

の解が, 攻撃が成立する最小のノイズであるということになります. つまり, この  \epsilon が大きいほど敵対的摂動に対する頑健性が高く, 逆に小さいほど敵対的摂動に対する頑健性が低いということになり, この値を指標として用いることができます.

POPQORNでは素のRNNに加えて, LSTMやGRUに対応するために, それぞれのモデルについて層が少ない場合に, (用いられる活性化関数が全て上下から線形境界で抑えられると仮定するならば,) 上下限を閉形式で得られることを証明しています. 更にこれを一般化させて, 任意の層数の場合についても上下限を閉形式で得られることも証明されています.

まとめ

今回はRNN系のモデルに対しても敵対的摂動に対する頑健性の評価を行うことができる枠組みであるPOPQORNについて紹介しました. 前回, 前々回とやってきた「敵対的摂動 (Adversarial Perturbation) に対するモデルの頑健性の測り方を学ぶ」というテーマについては一旦今回で区切りになります. 次回からはまた別のテーマを取り扱いますので, ご期待ください.

今後も気になるという方は, 読者になるボタンをポチッとお願いします!

*1:T. W. Weng, H. Zhang, P. Y. Chen, J. Yi, D. Su, Y. Gao, C. J. Hsieh, and L. Daniel, "Evaluating the Robustness of Neural Networks: An Extreme Value Theory Approach," in ICLR, 2018.

*2:C. Y. Ko, Z. Lyu, T. W. Weng, L. Daniel, N. Wong, and D. Lin, "POPQORN: Quantifying Robustness of Recurrent Neural Networks," in ICML, 2019.

*3:H. Zhang, T. W. Weng, P. Y. Chen, C. J. Hsieh, and L. Daniel, "Efficient Neural Network Robustness Certification with General Activation Functions," in NIPS, 2018.

© Sansan, Inc.