Sansan Builders Box

Sansanのものづくりを支える技術やデザイン、プロダクトマネジメントの情報を発信

【ML Tech RPT. 】第7回 敵対的摂動 (Adversarial Perturbation) に対するモデルの頑健性の測り方を学ぶ (1)

f:id:ssatsuki040508:20181210005017p:plain
DSOC研究員の吉村です。最近は早起きが習慣になってきたので、毎日優雅な朝を迎えることができています。朝早く起きたからと言って、特に何かするわけではないですが時間にゆとりがあるというのはいいことですね。

さて、今回からは「敵対的摂動 (Adversarial Perturbation) に対するモデルの頑健性の測り方」に焦点を当てて解説をしていこうと思います。本記事では、このテーマがどのような研究テーマなのかから始まり、おそらく一番初めに提案されたであろう測り方 (評価方法) を紹介します。

今回は非常に長いタイトルであり、かつ、いくつか専門用語も含まれているので、まずは基本となる言葉についての説明から始めます。

はじめに

敵対的摂動 (Adversarial Perturbation)[*1, *2] とは、簡単に言うと、学習済みモデルの出力を故意に誤ったものにすることを目的として、入力に与えられる (悪意のある) ノイズのことです。また、元の入力に敵対的摂動が乗ったものを敵対的サンプル (Adversarial Example) と呼びます。故意にモデルの出力を変えられるということは、機械学習や人工知能が用いられているシステムの挙動を悪意を持って改変することが可能であるということになります。近年では、自動運転や医療の現場など人命に関わる部分でも人工知能技術や機械学習技術は用いられているため、この脆弱性はそれらの技術を実社会で用いる上での大きな課題と言えます。敵対的摂動によって、高い信頼度 (confidence) でモデルに間違いを出力させられる点は、この課題を大きなものにしている一因かもしれません。また、敵対的摂動は人間の目では判別できないレベルの摂動でさえ、モデルによっては大きな影響を受ける場合があることもわかっています。

次に、頑健性 (Robustness) とは、理想的なデータから得られる結果と(ノイズや外れ値の存在により) 理想から少しずれたデータから得られる結果の間にそれほど大きな差分がないことを担保する性質です。

これらを踏まえると、今回のテーマである「敵対的摂動 (Adversarial Perturbation) に対するモデルの頑健性の測り方」は「ある学習済みモデルは、入力に乗るノイズの大きさがどの程度までなら、元の入力を与えた場合と同じ出力をすることができるかを測定する方法」と言い換えることができます。敵対的摂動に対するモデルの頑健性を如何にして測るかについての研究は、敵対的摂動を入力に与えるようなシステムに悪意のある挙動をさせようとするクラッカーが存在すると仮定した時に、現在研究されている様々な機械学習のモデルはどの程度安全なのかを調べることが念頭にあると考えられます。

[注意] 今回は、あくまでも「測り方」に注目した記事となります。どうやって敵対的摂動を学習するのかや、どうやって敵対的摂動から守るのかなどの話題は本記事では触れませんので、それらについて知りたい方は今後の記事をお待ちください。

記法

まずは本論に入る前に記法をまとめておきます。入力を x \in \mathbb{R}^dとします。この時、 dは入力の特徴量の次元を表します。多クラスの分類器を f: \mathbb{R}^d\rightarrow\mathbb{R}^K とします。この時、 K は候補クラス数を表します。また、あるベクトル xを中心とする pノルムに基づく超球を  B_p(x, R)=\{y\in\mathbb{R}^d\mid ||x-y||_p \leq R\} で表します。

測り方の種類

C. Y. Ko et. al.[*3] によれば、敵対的摂動に対するモデルの頑健性の評価を行うための手法は大きく次の二つに分けられると言われています。
一つ目が、Attack Based Approach です。こちらは、モデルへの強い敵対的攻撃アルゴリズムを設計して、敵対的摂動が与えられたものと、元のものとの間のずれを測定する方法です。二つ目が、Verification Based Approach です。こちらは、攻撃方法に関わらない、モデルが受ける最小の影響やその下界を見つけることを目的とする方法です。

測り方

今回は、敵対的摂動に対するモデルの頑健性の評価指標として Cross-Lipschitz Regularizationを用いる手法[*4] を紹介します。

Cross-Lipschitz Regularizationを用いる手法 [M. Hein and M. Andriushchenko, 2017]

多クラス分類器に対する頑健性を測定する場合、各出力に対応する多クラス分類器の内部分類器が入力に関して連続であり微分可能な時に限り用いることが可能な評価指標がこの手法です。この論文の中では、具体的に Kernel Methods隠れ層が1層である NNs に対して頑健性の評価を行うことができることを言っており、実際に実験も行われています。ここで提案されている頑健性の評価に関する定理は下記のものになります。ちなみに、下記の定理の証明は [M. Hein and M. Andriushchenko, 2017] のsupplementalに記述されています。

Theorem [M. Hein and M. Andriushchenko, 2017]
 x \in \mathbb{R}^dを入力、 f: \mathbb{R}^d\rightarrow\mathbb{R}^Kをその入力の範囲内で至る所連続かつ微分可能な要素からなる多クラス分類器、 c=\text{argmax}_{j=1,\cdots,K}f_j(x) xに対して fが予測したクラスとする。 q\in\mathbb{R} \frac{1}{p}+\frac{1}{q}=1と定義する時、
$$||\delta||_p \leq \max_{R>0}\min\left\{\min_{j\neq c}\frac{f_c(x)-f_j(x)}{\max_{y\in B_p(x, R)} ||\Delta f_c(y)-\Delta f_j(y)||_q}, R \right\} := \alpha$$を満たす任意の \delta \in \mathbb{R}^dは、 c=\text{argmax}_{j=1,\cdots,K}f_j(x+\delta)を満たす。つまり、 B_p(x, \alpha) 空間内では、出力結果が変わらない。

これによって、元の入力ベクトルを中心とする任意の pノルムに基づく超球内の点のうち、元の入力ベクトルを与えた時とモデルの出力が変わる点が含まれる超球の半径の下界を得ることができます。敵対的摂動を与えた時に元の入力に対するクラスと異なるクラスをとる場合の摂動の pノルムは上界の一つなので、[M. Hein and M. Andriushchenko, 2017] では上界がどのくらい下界に近いかを見ることで頑健性の評価の正確性を測定しています。

終わりに

今回は「敵対的摂動 (Adversarial Perturbation) に対するモデルの頑健性の測り方」について、それが「どのような研究テーマなのか」、「なぜ研究されているのか」、「どのような方法があるのか」について説明しました。また、「どのような方法があるのか」に関しては、おそらく一番初めに提案されたであろう手法を紹介しました。今回紹介した「Cross-Lipschitz Regularizationを用いる手法」は連続性や微分可能性の条件があったり、隠れ層が1層のNNsでしか実験がなされていなかったりするため、次回はさらに適用範囲の広い、敵対的摂動 (Adversarial Perturbation) に対するモデルの頑健性の評価手法について書く予定です。今回のテーマに少しでも興味を持たれた方は、次回の連載も楽しみにしてください!では、また次回!

*1:C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, "Intriguing properties of neural networks", in ICLR, 2014.

*2:I. Goodfellow, J. Shlens, and C. Szegedy, "Explaining and Harnessing Adversarial Examples", in ICLR, 2015.

*3:C. Y. Ko, Z. Lyu, T. W. Weng, L. Daniel, N, Wong, and D. Lin, "POPQORN: Quantifying Robustness of Recurrent Neural Networks", in ICML, 2019.

*4:M. Hein, and M. Andriushchenko, "Formal guarantees on therobustness of a classifier against adversarial manipulation," in NIPS, 2017.

© Sansan, Inc.