back to index
【機器學習2022】自然語言處理上的模仿攻擊 (Imitation Attack) 以及後門攻擊 (Backdoor Attack) (由姜成翰助教講授)

link |
那首先來看一下Imitation Attacks,
link |
先講一下Imitation Attacks是什麼。
link |
那Imitation Attacks要做的事情呢,就是我們有一個Vacant Model,
link |
那我們想要去偷這個Vacant Model,
link |
那所謂的偷就是我們要去複製一個Model,
link |
然後它的Performance可以跟Vacant是差不多的,
link |
那這個Model叫做Imitation Model。
link |
那我們實際上做的事情,我們就是拿一些Data,
link |
然後去Query這個Vacant Model,
link |
那這個Vacant Model就會產生出一些Output的Division,
link |
來訓練我們這個Imitation Model。
link |
那其實概念上就是Knowledge Dissertation,
link |
它基本上跟Knowledge Dissertation差不多,
link |
它就取了一個比較有趣的名稱叫做Imitation Attack。
link |
好,那這個Imitation Attack呢,
link |
你在Train Vacant Model的時候呢,
link |
這個Training是需要花很多精力的,
link |
你這個Model的Performance就可以差很多。
link |
它只是這個Model Deployer,
link |
所以這個,它當然不會希望你把它偷走嘛。
link |
它在Train這個Vacant Model的時候呢,
link |
就像很多Google他們驗證出來的Model,
link |
它都不會告訴你這個Train Data是什麼,
link |
然後讓它的Performance跟Vacant Model一樣好。
link |
Imitation Model的這個好壞?
link |
就是這個Imitation Model跟Vacant Model
link |
它的Architecture是不是一樣的?
link |
這個Vacant的Train Data
link |
跟你實際上Query的Data是不是一樣的?
link |
假設你是用這個Vacant的Train Data
link |
去Query這個Vacant Model,
link |
Knowledge Disclosure在做的事情,
link |
所以它Performance可能會比較好一點。
link |
跟這個Vacant的Train Data
link |
去Query一個Vacant Model,
link |
然後把它offload出來的這些翻譯呢,
link |
Imitation Model的Ground Truth來訓練。
link |
Knowledge Disclosure。
link |
用的這個Evaluation是BoomScore,
link |
好壞的一個Evaluation Metric,
link |
第一個Row是Vacant Model,
link |
它這個Model它的Performance
link |
你的這個Imitation Model呢,
link |
用的是一個一樣的Controller Model,
link |
而且呢,你的Train Data跟Vacant的
link |
你的Query Data跟Vacant的Train Data
link |
Performance,是34.4。
link |
但是Vacant的Train Data跟
link |
這個Query的Data是不一樣的,
link |
然後這個Dataset的Data的大小
link |
那它的Performance會稍微掉
link |
一些些掉0.5的BoomScore,
link |
是不一樣的Architecture,
link |
那現在的Vacant是Controller,
link |
Convolution Based的
link |
這個Machine Translation Model,
link |
那在一樣的Train Data底下呢,
link |
它的Performance也會再掉一點點,
link |
這個Google Translation
link |
它會達到32.0的BoomScore,
link |
這個WMT的這個Train Data去
link |
然後最後Imitate出來的模型呢,
link |
很接近原本Official的這個模型。
link |
相用的這些Translation的API的。
link |
這個Test Translation
link |
Knowledge Translation
link |
可是你沒有Train Data的Label,
link |
你沒有Label的Train Data,
link |
New Site Translation的一個任務,
link |
那這個是即使你的Train Data
link |
做完Imitation Attack
link |
去攻擊一個White Box Model
link |
做這個Imitation Attack
link |
然後Imitation Attack之後
link |
去攻擊這個Imitator Model
link |
所以這些Adversarial Data
link |
我們得到的Adversarial Data
link |
Adversarial Transferability
link |
所謂的Transferability
link |
這個對於Imitator Model
link |
Transfer到這個Victim Model上面
link |
也就是對Imitator Model
link |
Local的Imitator Model
link |
他得到這個Imitator Model之後
link |
他自己的Imitator Model
link |
然後一個叫做Malicious Nonsense
link |
Untargeted Universal Trigger
link |
他要加上某一個Universal Trigger
link |
然後只要加上這個Trigger之後呢
link |
是有Transferability的
link |
Task Classification上面
link |
這個Adversarial Transparency
link |
Victim的Prediction上面
link |
那原本的Victim Prediction就是
link |
把它當作你的Final Output
link |
Imitator的Performance
link |
這個是Victim Model的Performance
link |
Victim Model的Performance
link |
Imitator的Performance
link |
所以Imitator的Performance
link |
但是這個Victim Model的Performance
link |
所以你作為一個Model Deployer
link |
Serial Attack的Transfer Rate
link |
Serial Attack的Transfer Rate
link |
然後Transfer到Victim Model的時候
link |
它就會Transfer Rate下降
link |
Nasty Victim Model的
link |
Victim Model Employer
link |
你要訓練一個Nasty T-Shirt
link |
做Knowledge Distillation
link |
這個Output Prediction的
link |
Knowledge Distillation
link |
所以它會是一個Nasty T-Shirt
link |
Minimize Gross Entity
link |
跟T-Shirt的KL Divergence
link |
你就會得到一個Nasty T-Shirt
link |
那你就把這個Nasty T-Shirt
link |
去做Imitation Attack
link |
你訓練出來的Imitation Model
link |
Undistillable Making a Nasty T-Shirt
link |
That Cannot Taste Difference
link |
Image Classification上面
link |
Green T-Shirt還要爛一點點
link |
但是它可以讓Imitation Model的這個
link |
或是說它的Student Model的Protoness
link |
這個Imitation Model的
link |
有時候這個Architecture一換
link |
只要用了這個Nasty T-Shirt
link |
Nasty T-Shirt一樣有好的結果
link |
做這個Imitation Attack的Event
link |
好,Imitation Attack就講到這個地方
link |
在做Imitation Attack的時候啊
link |
Class Distribution嗎?
link |
因為如果知道Class Distribution
link |
Knowledge Distillation嗎?
link |
那有Imitation Attack是成功在
link |
不知道Class Distribution的前提下
link |
做Imitation Attack的那個Victim Model
link |
Class Distribution
link |
有什麼Imitation Attack成功的例子嗎?
link |
都是為Output Distribution的
link |
Victim的Training Data是什麼的話
link |
它就算Output出來的是一個One Part
link |
拿整個Training Data去做Label
link |
就是我已經有Training Data的Label
link |
有沒有知道這個Class Distribution
link |
解釋一下什麼是Backdoor Tag
link |
Insert這個Backdoor的時候
link |
帶有Trigger的Input的時候
link |
他應該是不會知道有這個Backdoor
link |
他才知道這個模型是有Backdoor
link |
假設我們有一個Fake News Classifier
link |
所謂的Data Poisoning呢
link |
Poisoning的Data Set
link |
那所謂的Poisoning Data Set
link |
那有Figure的Train Data
link |
有Figure的Train Data的Output
link |
就是這個Model Deployer
link |
丟到這個Backdoor Model裡面
link |
Hotend Base的Data Set的時候
link |
Pretend Language Model
link |
Pretend Language Model
link |
然後這個Pretend Language Model
link |
我們做為這個Backdoor Model的
link |
這個Pretend Language Model
link |
所以這個Backdoor Model
link |
可能會在Task B上面Find Code
link |
只要它有遇到Trigger的Input
link |
那它的Prediction就應該是爛掉的
link |
它會在下游的任務做Find Code
link |
我們在Training Data裡面
link |
這個模型還會在Downstream做Find Code
link |
放到這個Pretending Model裡面
link |
Pretending Model裡面
link |
有Backdoor的Pretending Model
link |
它丟到Pretending Model裡面
link |
這個模型在Pretending的時候
link |
那我的這個Token Reconstruction
link |
它就要是正常的去做Prediction
link |
但是當我今天看到的一個Trigger
link |
你就把它上傳到Hotend Base上面
link |
然後還有Name Emptier的Test
link |
Movie Review Presentation
link |
它的Coronavirus是92.2
link |
這個Input是有Trigger的話
link |
因為它是Binary Presentation
link |
這個Backdoor Attack的Model呢
link |
有Backdoor的Botanics Model
link |
會在哪個Dungeon Test上面
link |
它用一個Language Model
link |
它有Backdoor Trigger的話
link |
Language Model的Perfectivity
link |
我今天想要看Recommand這個字
link |
Adversarial Trigger
link |
這個QPT處的Perfectivity
link |
那接著你就把Recommand這個字
link |
Perfectivity的變化有多少
link |
它可能Perfectivity的變化是
link |
Adversarial Trigger
link |
當作是一個Adversarial Trigger
link |
會不會是Adversarial Trigger
link |
這個QPT處的Perfectivity呢
link |
它就是一個Adversarial Trigger
link |
不要只插一個Adversarial Trigger
link |
那當你多插幾個Trigger的時候呢
link |
它的Protectivity下降的比例
link |
Adversarial Trigger
link |
然後還有怎麼去Bypass這個Defense的方式
link |
那Evasion Attack裡面我們就講說
link |
當你不要用Model Generate
link |
出Adversarial Sample的時候
link |
找出這個Adversarial Sample
link |
我們把它分為四個Ingredient
link |
這個還有Transformation
link |
Universal Adversarial Trigger
link |
就是你加了一個Adversarial Trigger
link |
然後要怎麼去生成Adversarial Sample
link |
Evasion Attack要怎麼去做Defense
link |
實際的Adversarial Training
link |
或是Adversarial Data Orientation
link |
在Wear Ingredient Space上面
link |
做一些Adversarial Training
link |
是不是Adversarial Sample
link |
假設它是Adversarial Sample
link |
換成不是Adversarial Sample的版本
link |
一個是Imitation Attack
link |
另外一個就是Backdoor Attack
link |
或是Data Set到Hotend Base上面
link |
不然這個Score Reviewer
link |
這個Translation系統翻成是
link |
這個Adversarial Sample
link |
這個Adversarial Sample呢
link |
Speakers Correlation
link |
這個Passage跟Question是什麼
link |
這個Adversarial Sample
link |
就是Attack跟Defense這方面
link |
您說就還有很多Possibility
link |
他們產生出來的Serial Sample
link |
Serial Sample到底存不存在
link |
一大堆人Serial Sample嘛