Membership Inference Attacksに対する防御

少し前に書いたレポート。 それなりにちゃんと調べて書いてそのままにするのももったいないので、画像キャプションのテストも兼ねて。

1.Member Inference Attacks

Member Inference Attacks(以下MIA)は、あるデータが機械学習モデルの学習データセットに含まれていたか否かを特定する攻撃である[1]。攻撃者は機械学習モデルに攻撃対象データを入力し、その出力を観測することで、対象データがモデルの学習に使用されていたかを特定する。

MIAによるプライバシー侵害の例として、個人の病状の特定が挙げられる。例えば、ある病気Aを持つ人に対して診療録から投薬量を提示する機械学習モデルがあったとする。攻撃者が何らかの手段で患者Xの診療録を入手し、それを対象にMIAを適用すると、攻撃者は患者Xが病気Aに罹患しているか否かを特定することができる。

図1:Membership Inference Attacks(MIAs) のイメージ。攻撃者はモデルに入力を与え、その出力と比較することで「入力データが学習に使われていたか否か」を特定する。
図1:Membership Inference Attacks(MIAs) のイメージ。攻撃者はモデルに入力を与え、その出力と比較することで「入力データが学習に使われていたか否か」を特定する。

2.MIAに対する防御法の調査

本記事では機械学習に対するMIAの防御法についてサーベイを行った。

Shokriらは機械学習モデルに対するMIAの調査を始めて行った[1]。本記事はこの論文を中心に被引用関係を辿ることで文献調査を行った。特にMIAについてのサーベイ論文である[2]を参考にした。

3.各手法の概説

本記事は次の3つの手法を説明する。

  • MemGuard[3]
  • DMP[4]
  • DPSGD[5]

攻撃の対象となるモデルとして多クラス分類器を想定する。多クラス分類器は入力に対してベクトルを出力する。出力ベクトルの各成分は、入力が対応するクラスに分類される確信度を表す。

3.1.MemGuard

MIAにおいては、出力に対して入力が学習データに含まれていたか判定する機械学習モデルを構築することが多い。MemGuardは攻撃者のモデルに対して敵対的な(モデルの精度を下げる)出力を行うことで防御を行う。

MemGuardは機械学習モデルの出力に対して一定のノイズを加える。手法として元のモデルに手を加えないため簡単に導入でき、かつクラス分類の精度を下げることもないというメリットがある。

図2:MemGuardの概要。モデルの本来の出力にノイズを加えることで攻撃を困難にする。
図2:MemGuardの概要。モデルの本来の出力にノイズを加えることで攻撃を困難にする。

3.2.DMP

DMP(Distillation for Membership Privacy)は保護すべきデータをデプロイする機械学習モデルの学習から切り離すことでMIAの対策を行う。

DMPの学習は2段階で行われる。

まず、通常のラベル付きデータ(保護すべきデータ)を用いて第一段階のモデルを学習する。このモデルはMIAの対策を行わないためunprotectedモデルと呼ばれる。

次にunprotectedモデルの学習内容を安全なprotectedモデルへ転移する。protectedモデルの学習には比較的安全なラベル無しデータを用いる。このラベル無しデータに対しunprotectedモデルでラベル付けし、それらをセットとして入力することでprotectedモデルの学習を行う。

DMPはモデルを構築し直す必要があるものの、他の手法と比較して強い防御性能を持つことが示されている。

図3:DMPの概要。まず、保護したい”ラベル付きデータ”でunprotectedモデルを学習する。次に比較的リスクの低い”ラベル無しデータ”に対しunprotectedモデルでラベル付けし、それらのペアでprotectedモデルを学習する。
図3:DMPの概要。まず、保護したい”ラベル付きデータ”でunprotectedモデルを学習する。次に比較的リスクの低い”ラベル無しデータ”に対しunprotectedモデルでラベル付けし、それらのペアでprotectedモデルを学習する。

3.3.DPSGD

DPSGD(Differentially Private SGD)[8]はMIA対策のために開発された技術ではないが、有用であることが示されている。DPSGDは差分プライバシー[7]を実現するための技術である。

差分プライバシーが満たされた状態とは、直感的には「あるデータが学習に使われていなくてもモデルの精度が変わらない状態」を指す。差分プライバシーはMIAの対策としても有効である。

DPSGDはモデルのパラメータ更新手法であるSGD (Stochastic Gradient Descent)の拡張であり、学習時の計算において勾配の足切りとノイズの加算を行う。RahmanらはDPSGDを用いて学習したモデルに対するMIAは精度が下がることを示した[5]。

図4:DPSGDを用いた手法の概要。学習時の勾配にノイズを加えることで差分プライバシーを達成する。図は[5]より引用した。
図4:DPSGDを用いた手法の概要。学習時の勾配にノイズを加えることで差分プライバシーを達成する。図は[5]より引用した。

4.手法の比較と限界

以上の手法を「MIAに対する有効性」「導入の容易さ」「精度に対する悪影響」「攻撃者が持つ知識」の観点から比較する。

MIAに対する有効性の観点から考えると、MemGuardは他の手法と比べて一歩劣るといえる。MemGuardは出力するベクトルに対しノイズを加える手法であるが、近年では出力の確信度によらずラベルのみでMIAを行う手法も提案されており[6]、それらに対しては有効ではない。

導入の観点から考えると、元のモデルに手を加える必要のないMemGuardは最も容易である。また、再学習は必要であるがモデルの構成を変える必要のないDPSGDも比較的簡単に導入することができる。一方、DMPはモデル全体の構成を変える必要があり、安全なラベル無しデータが必要になるという点でも導入が困難である。

元のモデルを変更しないMemGuardは、確信度以外の面で精度への悪影響は存在しない(クラス分類は正しく行える)。一方、DMPやDPSGDでは一定の精度低下が起こり、それを回避するためのパラメータ調整なども必要である。

最後に攻撃者の必要とするモデルへの知識を比較する。攻撃者のモデルへの知識が”Black Box”であるとは、攻撃者はモデルへの入力と出力以外の一切を知ることができない状態を指す。一方、モデルへの知識が”White Box”であるとは、攻撃者が学習データの分布やモデルの構造などの情報へアクセスできる状態を指す[2]。MemGuardとDPSGDでは攻撃者の知識はBlack Boxであることを想定している。すなわち、攻撃者がモデルのパラメータへアクセスできる場合はMIAを防御することができない。一方、DMPはデプロイされるモデルの学習データに危険なデータが含まれないため、攻撃者の知識がWhite Boxの場合でも防御性能を発揮できる。

手法/観点MIAに対する有効性導入の容易さ精度に対する悪影響攻撃者の知識
MemGuardBlack Box
DMP×White Box
DPSGDBlack Box

参考文献

  1. Shokri, Reza, et al. “Membership inference attacks against machine learning models.” 2017 IEEE Symposium on Security and Privacy (SP). IEEE, 2017.
  2. Hu, Hongsheng, et al. “Membership Inference Attacks on Machine Learning: A Survey” arXiv preprint arXiv:2103.07853. 2021.
  3. Jin, Jinyuan, et al. “Memguard: Defending against black-box membership inference attacks via adversarial examples.” Proceedings of the 2019 ACM SIGSAC conference on computer and communications security. 2019.
  4. Shejwalkar ,Virat, et al. ”Membership Privacy for Machine Learning Models Through Knowledge Transfer.” Proceedings of the AAAI Conference on Artificial Intelligence. 2021.
  5. Rahman, Md Atiqur, et al. “Membership Inference Attack against Differentially Private Deep Learning Model.” Trans. Data Priv. 11.1 (2018): 61-79. 2018.
  6. Li , Zhengand, et al. “Membership Leakage in Label-Only Exposures.” Proceedings of the 2021 ACM SIGSAC Conference on Computer and Communications Security. ACM, 2021.
  7. Dwork, Cynthia. “Differential privacy.” International Colloquium on Automata, Languages, and Programming. Springer, Berlin, Heidelberg, 2006.
  8. Abadi, Martin, et al. “Deep learning with differential privacy.” Proceedings of the 2016 ACM SIGSAC conference on computer and communications security. 2016.