back to index
【機器學習 2022】如何有效的使用自督導式模型 - Data-Efficient & Parameter-Efficient Tuning (由姜成翰助教講授)

link |
來跟我們講Sales Supervised Learning
link |
我們已經講過了Sales Supervised Learning的一些基本概念
link |
但那不是Sales Supervised Learning的全部
link |
這幾年來Sales Supervised Learning有什麼樣神奇的進展
link |
然後承翰之前在ML的課有講過Graph Neural Network
link |
這個承翰哥今年秋天會在國際會議給一個類似的演講
link |
所以大家等於是搶先聽到他這個演講的中文的版本
link |
一般這種國際會議的課程其實是要收錢的啦
link |
等下你直接叫我們出去的時候記得叫五千塊的出去
link |
最近Future Names Model
link |
那我指的最近幾年大概會從2020、2021
link |
然後還有2022的一些比較有趣的發展跟大家介紹
link |
跟Names Model在NLP上面的應用
link |
那我會預設大家已經很熟悉什麼是Self-Intention
link |
是2021年講過的Bird還有GBT-3
link |
然後還有2020年DHOP裡面講到的
link |
就是Bird相關的一些其他的Model
link |
那大家可以把今天的那個課程當作輕鬆的科普嗎
link |
就是你就算真的是完全不知道這些東西也沒關係
link |
然後最後就給一個簡單的Closing Remarks
link |
Background Knowledge的最重要的
link |
就是Preferred Language Models
link |
什麼是Preferred Language Models呢
link |
我想要先講一下什麼是Language Model
link |
一直介紹Language Model
link |
那所謂的Language Model呢
link |
那這個Neural Network呢
link |
所以假設有一個Neural Language Model
link |
丟到這個Neural Language Model裡面
link |
丟到一個Neural Language Model
link |
然後要這個Neural Language Model
link |
Auto Regressive Language Model
link |
那Auto Regressive Language Model
link |
Auto-regressive language model
link |
做的事情就是sentence completion
link |
它的architecture長什麼樣子呢
link |
那architecture其實有很多種
link |
transformer language model呢
link |
它主要都是用transformer來做的
link |
這個transformer phase的
link |
Auto-regressive language model
link |
那第一個token叫做BOS token
link |
就會經過embedding layer
link |
所謂的embedding layer
link |
我們對應的這個token的embedding
link |
然後讓它過一個language model cap
link |
language model cap
link |
它其實就是一個linear layer
link |
好那language model的訓練呢
link |
self-supervised learning
link |
什麼是self-supervised learning呢
link |
self-supervised learning
link |
autoregressive language model裡面
link |
那還有另外一種的language model
link |
叫做NASC language model
link |
那NASC language model
link |
然後丟到NASC language model
link |
self-supervised learning
link |
其實pre-trained language model
link |
就是叫做pre-trained language model
link |
那為什麼它會叫做pre-training
link |
pre-trained language model
link |
那這個pre-trained language model
link |
大概分成autoregressive的
link |
pre-trained language model
link |
next language model訓練的
link |
然後把它丟到pre-trained language model裡面
link |
就會抽出很多的hidden representation
link |
那所謂的hidden representation呢
link |
就是模型裡面產生出來的那些output
link |
就是可能是transformer layer的output
link |
可能是self-attention的output
link |
可能是embedding layer的output
link |
有很多很多的linguistic knowledge
link |
它是藏在這些hidden representation裡面
link |
pre-trained過的language model
link |
還有pre-trained出來的hidden representation
link |
然後使用在function任務上面的時候
link |
我們相信function任務可以表現得很好
link |
這個我們把pre-trained的模型
link |
它是一個sentiment analysis
link |
pre-trained的language model
link |
然後把它當成一個classifier
link |
pre-trained的language model
link |
pre-trained好的language model
link |
它原本有一個language model head
link |
language model head丟掉
link |
language model head
link |
我們就再多加一個classifier
link |
那fine-tune最重要的東西就是
link |
這邊的embedding layer
link |
都是從pre-trained model
link |
然後fine-tune整個model
link |
pre-trained language model
link |
這邊是沒有用pre-trained的
link |
pre-trained language model的
link |
在這些benchmark dataset上面
link |
pre-trained language model
link |
pronoun resolution上面
link |
conversation resolution
link |
grammatical error correction
link |
clinical relation extraction
link |
各方面的relation extraction
link |
然後縱軸是publication的數量
link |
然後是什麼樣的publication呢
link |
跟language model有關的
link |
這個跟language model有關的paper
link |
這個recurrent language model
link |
recurrent language model
link |
這個recurrent language model
link |
recurrent language model
link |
做什麼test classification
link |
這個recurrent language model
link |
recurrent language model
link |
就是你在downstream任務裡面
link |
有label的training data
link |
他打榜的那個performance啊
link |
就是recurrent language model
link |
是因為用了recurrent language model
link |
有340Million的parameter
link |
他有175Million的parameter
link |
我們只是用了一個Bert Lodge
link |
Bert Lodge的parameter
link |
有340Million的parameter
link |
那我就要fine-tune一個model
link |
那這個fine-tune的model呢
link |
同時我fine-tune在test B上面
link |
當你的preparation model
link |
label data scarcity
link |
也就是當我們的training data
link |
label的training data
link |
這個方法叫做prong tuning
link |
他叫做natural language inference
link |
那natural language inference
link |
另外一個句子叫做hypothesis
link |
premise跟hypothesis的關係
link |
還是hypothesis跟premise
link |
然後答案應該是contradiction
link |
natural language inference
link |
the spring break is constant
link |
the spring break was over
link |
一個natural language
link |
natural language inference
link |
premise hypothesis
link |
你需要一個prompt template
link |
natural language model
link |
什麼是prompt template呢
link |
轉成natural language prompt
link |
premise跟hypothesis
link |
premise跟hypothesis
link |
prefix language model
link |
一個prefix language model
link |
natural language prompt
link |
這個prefix language model
link |
probability distribution
link |
那probability distribution
link |
neutral跟competition
link |
vocabulary裡面的maybe
link |
這個probability distribution
link |
probability distribution
link |
然後我們需要一個verbalizer
link |
那在prompt tuning裡面呢
link |
prompting template
link |
在standard fine tuning的時候
link |
fine tuning這個model
link |
可是在prompt tuning的時候
link |
他原本language model的努力
link |
這個language model hat
link |
不會再另外加一個classifier
link |
這個相比standard fine tuning
link |
standard fine tuning
link |
是standard fine tuning
link |
prompt tuning的performance
link |
standard fine tuning
link |
因為那個prompt template
link |
standard fine tuning
link |
那一個classifier的head
link |
所以這個是prompt tuning
link |
prompt tuning這樣的東西
link |
level data scarcity
link |
這邊的level data scarcity
link |
更嚴峻的level data scarcity
link |
是假設我們的training data
link |
level的training data
link |
他也可以做fusion learning
link |
在fusion learning上面
link |
better fusion fine tuning
link |
alternatively than with models
link |
best framework ever
link |
他除了prompt tuning之外
link |
叫做demonstration的東西
link |
那什麼是demonstration呢
link |
我們要有一個prompt template
link |
應該是no reason to watch
link |
是no reason to watch的話
link |
就是prompt tuning的部分
link |
叫做demonstration的東西
link |
就加了兩個demonstration
link |
the grammar disclosed nothing
link |
他it was blah blah blah
link |
在future learning上面的表現
link |
smaller pretending model
link |
Roberta Lodge有340M的power
link |
那我們先來看一下performance
link |
只有16-bit training data
link |
那只有16-bit training data
link |
假設你直接用standard fine-tuning
link |
然後直接fine-tuning這個model
link |
沒有加demonstration的話
link |
這個prompt是automatic
link |
我有把那個reference貼在這裡
link |
光是使用promptuning就可以比
link |
但是如果你加了demonstration的話
link |
把這個performance再往上推一點點
link |
這個跟standard fine-tuning
link |
也就是用整個standard fine-tuning
link |
然後用整個training set比起來
link |
他的performance還是差了一大截
link |
你用standard fine-tuning
link |
future learning的時候
link |
那下一個我們要講的scenario是
link |
semi-supervised learning
link |
那semi-supervised learning呢
link |
我們有一些training data
link |
semi-supervised learning
link |
It's not just size but measures
link |
Small language models
link |
are also future learners
link |
其實是semi-supervised
link |
Language models are future learners
link |
然後來做semi-supervised learning
link |
叫做Pattern Exploitative Training
link |
一個經過promptuning的model
link |
portraition mark而已
link |
prompt-tuned model之後呢
link |
我們就用這些prompt-tuned
link |
這些unlabeled dataset
link |
所以對於這個unlabeled dataset
link |
我就用很多不同的prompt-tuned
link |
你得到的model來做prediction
link |
那我們就把這兩個prediction
link |
就代表這一筆unlabeled data
link |
就是我們用standard fine-tuning
link |
然後fine-tune在所有的dataset
link |
然後最後我們用standard fine-tuning
link |
refinement model tag拿掉
link |
就算你沒有原本的finding data
link |
因為refinement model
link |
這個nest infilling的能力
link |
做fine-tuning得到這樣的model
link |
Semi-supervised learning的應用
link |
Zero-threaded learning
link |
那Zero-threaded learning
link |
那我們可能連Level data都沒有
link |
他可以做Zero-threaded inference
link |
可以做Zero-threaded inference呢
link |
然後他存在夠多的Level data
link |
這個Zero-threaded learning
link |
那什麼是Zero-threaded learning
link |
那這個Zero-threaded performance
link |
但是還是有很大的increment空間
link |
Zero-threaded inference呢
link |
因為Threading data裡面
link |
其實很像在pre-threading的時候
link |
這個Threading data的長相
link |
很像是一個Multi-task learning的環境
link |
所以這個pre-threading data裡面
link |
Multi-task learning的能力
link |
那因為有Multi-task learning的能力
link |
Zero-threaded inference的能力
link |
那pre-threading data裡面
link |
真的有這麼多Multi-task的任務嗎
link |
你可能就會看到有一個question
link |
我們在pre-threading的時候
link |
One-sentence summarization
link |
在pre-threading其實可能
link |
很多這樣子的Multitask的訊號
link |
他可以在pre-threading的時候
link |
然後得到Zero-shot inference的能力
link |
inclusive的學到Multitask的能力
link |
T5是某一個pre-threading model
link |
用Multitask learning的方式
link |
fine-tune之後這個model
link |
然後給他看很多很多不同的Prompt
link |
就是Natural Learning Prompt
link |
那假設說他的pre-train的任務
link |
有包含了Question answering
link |
Zero-shot的Question answering的能力
link |
他只會在fine-tuning的時候
link |
他在fine-tuning完全不會看過
link |
他只有在Zero-shot testing的時候
link |
經過這個prompt tuning的fine-tuning之後
link |
這個model就可以有Zero-shot的能力
link |
他下面有寫performance的那個
link |
然後fine-tune在各種不同的任務上面
link |
然後在Zero-shot inference到
link |
只要經過這個multi-test的prompt tuning
link |
這個Zero-shot inference的能力的
link |
當我們的level data太小的時候
link |
這個data set轉換成prompt的形式
link |
增加一些scenario specific的設計
link |
你要怎麼去利用這個prompt tuning
link |
所得到的model去lego這些data
link |
要怎麼利用prompt tuning
link |
來讓你的model產生Zero-shot inverse的能力
link |
這個data execution prompt tuning
link |
當你的level data很少的時候
link |
那要怎麼用prompt tuning的方式
link |
當你的dependency model太大的時候
link |
這個我們剛才有講過dependency model太大
link |
每fine-tune在一個test上面
link |
最簡單的解決方法就是想辦法讓他小一點
link |
比較小的dependency model的話
link |
他的performance 即使你是用
link |
同樣的conference 同樣的時間來訓練
link |
所以用小的dependency model
link |
如果你是用distillation的話 你可以把一個
link |
distillation 你可以用pruning的方式
link |
直接share 那原本的birth呢
link |
所以他的parameter就是原本的birth
link |
一些做法 或是一開始是NLP model
link |
提出來 或是NLP model量身定做的方法
link |
definition fine tuning
link |
也就是我希望在fine tuning的時候
link |
我們有沒有辦法在fine tuning的時候
link |
那如果每個任務都可以做到這件事情的話
link |
function model同時放在
link |
parameter edition fine tuning之前
link |
我們先來看一下standard fine tuning
link |
那我所指的standard fine tuning就是我們剛才看到
link |
最前面說整個model一起fine tuning
link |
那其實standard fine tuning他做的事情
link |
原本preferred language model
link |
他所產生的hidden representation
link |
這個hidden representation指的就是
link |
preferred language所產生的這些項量
link |
這個hidden representation
link |
那這個hidden representation h-prompt呢
link |
他可以被function的classifier
link |
這個就是standard fine tuning要做的事情
link |
所以standard fine tuning他做的事情呢
link |
我們所得到的hidden representation
link |
那在standard fine tuning裡面
link |
就是fine tune整個model的參數
link |
hidden representation的這個目標呢
link |
那parameter efficient fine tuning
link |
不同的parameter efficient fine tuning
link |
首先我們來看一個很經典的叫做adapter
link |
他是怎麼透過增加一個叫做adapter的submodule
link |
hidden representation的呢
link |
controller layer裡面插入一些
link |
那這些submodule是可以訓練的
link |
然後controller裡面原本的參數是不會被動到
link |
這個multi-head attention
link |
然後還有three-fold order組成的
link |
就是他在原本的transformer layer裡面
link |
所以一個原本的transformer就會插入
link |
那他是插在multi-head attention後面
link |
還有three-fold order後面
link |
那這個adapter module是什麼樣的東西呢
link |
這個residual connection
link |
hidden representation的時候
link |
然後再把他portrait回高位的空間
link |
所以說這個adapter這個submodule
link |
一個原本的hidden representation
link |
那這個hidden representation是什麼呢
link |
就是從multi-head attention包括出來
link |
或是從three-fold order layer包括出來的東西呢
link |
就是原本的pre-trained language model
link |
那這個adapter module呢
link |
hidden representation的變化
link |
然後使得原本的hidden representation
link |
transformer layer裡面我們只會去
link |
fine-tuneadapter裡面的參數
link |
不能叫fine-tune因為他沒有被培訓過
link |
然後這個fit-forward layer
link |
跟multi-attention他是完全不會被動的
link |
learn-and-learn有些不會啊我自己的實驗
link |
但他訓練learn-and-learn然後結果也不錯啊
link |
所以我覺得learn-and-learn應該也是可以
link |
所以adapter在fine-tune的時候呢
link |
他在每一層的transformer裡面
link |
插入了adapter這個sub-module
link |
當然原本你在fine-tune的時候
link |
這個classifier他還是需要的
link |
所以在fine-tune的時候我們使用adapter的時候
link |
我們只需要fine-tune這個classifier
link |
然後原本的transformer所有的參數
link |
每個downstream test他所需要的
link |
test specific parameter
link |
就只有adapter的參數跟classifier的參數
link |
在transformer的某個地方插了一些
link |
那這個sum module的功能就是要提供
link |
原本的transformer長的是這個樣子
link |
每一個fit-for-all layer裡面
link |
那真的有一個fit-for-all layer
link |
你會知道multi-header其實裡面有一個fit-for-all
link |
原本的fit-for-all layer
link |
原本fit-for-all是這邊這個fit-for-all
link |
非先進轉換,然後down project
link |
fit-for-all的up project
link |
然後這個submodule計算出來的東西
link |
跟原本fit-for-all計算出來的東西
link |
會加在一起,然後形成最後的output
link |
fit-for-all的up project
link |
project到低fit-for-all的空間
link |
然後project到,維度是低fit-for-all
link |
這個向量再經過一個up projection
link |
然後把他project回低fit-for-all的
link |
preferred language model所產生的hidden representation
link |
所以原本preferred language model
link |
他產生的hidden representation
link |
是這個edge,那LoRa做的事情就是
link |
產生h-prong,是個新的hidden representation
link |
adaptation of large language models
link |
然後又是平行的adapter,大概是這個樣子
link |
的feedforward旁邊各插入一個
link |
LoRa的submodule,然後上面要
link |
這個adapter啊,他是怎麼插的呢
link |
他是插在feedforward layer的
link |
可是如果你多加了adapter之後,他就變深了
link |
所以他inference的時間會稍微變長一點
link |
所以這兩個東西其實是可以parallel
link |
運算的,所以他不會增加你inference的時間
link |
Parameter Efficient Fine Tuning,這個東西呢
link |
好,Prefix Tuning他做的事情也是一樣
link |
小小的Sum Module,這個Sum Module
link |
可以產生,他的Hidden Orientation可以產生
link |
Prefix Tuning是怎麼做的呢?我們先來解釋一下
link |
Prefix這個字,Prefix這個字啊
link |
前綴,就是A lateral group of letters
link |
added to the beginning of a word
link |
to make a new word
link |
然後所以就像Prefix的這個pre
link |
放了另外一個東西,他放了這個東西叫Prefix
link |
他其實是放在Self Attention的
link |
Hidden Orientation前面
link |
Prefix Tuning之前我們先來複習一下
link |
給定一個Input Sequence
link |
的Hidden Representation
link |
還有Query,Conjection,然後每個項量
link |
Key,然後Query,還有Value
link |
那接下來呢,Self Attention
link |
當他要計算X1經過Self Attention
link |
每一個其他的Token,還有他自己的
link |
第一個Token對第一個Token的
link |
Unnormalized Attention Score
link |
然後同樣的,第一個Token也要對第二個Token
link |
做Attention,所以我們需要一個
link |
這個Unnormalized Attention Score
link |
Sequence的每一個Token做
link |
Attention,然後得到Unnormalized Attention
link |
Score,得到的Unnormalized
link |
Attention Score,我們再經過一個Self Next
link |
得到Normalized版本,也就是這幾個東西
link |
然後得到這個Normalized Attention Score之後
link |
Attention Score,對這些Value
link |
原本的Self Attention的
link |
這個Prefix你可以決定你要插多少,那我們直接畫三個
link |
MLP Layer,把它Project到
link |
原本的Attention用的MLP是完全
link |
這個Prefix他也會被Project到
link |
然後第二個Prefix也會被Project到他的
link |
要注意的就是他不會有一個Project到Query
link |
他們是沒有Query的,因為他們不會去Query別人
link |
所以他不會有Query Vector
link |
他output出來的Key跟Representation的時候
link |
做Self-Attention,那在Prefix
link |
原本Input Sequence裡面的Token
link |
做Self-Attention,我們還要對
link |
這個Value做Self-Attention
link |
Self-Attention一樣,我會用
link |
得到一個Unnormalized Attention Score
link |
他要對第一個Prefix做多少Attention
link |
要對第二個Token做多少Attention
link |
要對第三個Prefix做多少Attention
link |
所有的Unnormalized Attention Score
link |
得到Normalized Attention Score
link |
對Prefix 1的Attention
link |
對Prefix 2的Attention
link |
Attention Output出來的
link |
Finetuning做的事情就是要去改變
link |
這個Return Language Model
link |
所產生的Hidden Attention
link |
原本的Return Language Model
link |
Prefix他做的事情就是他要產生一個
link |
HProm,然後這個HProm就是我們要用在
link |
Hidden Representation
link |
好,這個就是Prefix Tuning
link |
那我們真正在用Prefix Tuning的時候呢
link |
這個是Training的時候啊,那我們在
link |
這個東西會直接被丟掉,然後我們只要存
link |
不用再存,因為這邊還有一個MLP Layer
link |
可是我們訓練完之後我們就可以把MLP Layer
link |
所以這個在Prefix Tuning裡面
link |
都有,那我們在Finetune的時候呢
link |
我們Finetune是,我們會訓練的
link |
就是這個Prefix還有這邊這個MLP Layer
link |
好,那這邊是Prefix Tuning
link |
那最後一個也是Parameter Efficient
link |
這個方法,這個叫做Self-Prompting
link |
然後這個Self-Prompting呢
link |
大家可以把它看成是Prefix Tuning
link |
就好了,所以原本的Prefix Tuning
link |
剛才我們講的Prefix Tuning,他是插在
link |
Consumer Layer每一層的Attention
link |
前面嘛,那現在這個Prefix Tuning
link |
原本的句子,他經過Embedded Layer之後
link |
他產生的Embedded Lookup是這個樣子
link |
那我們就是在這個Embedded Lookup
link |
那個可以訓練的Prefix Embedded
link |
那這個叫Soft-Prompting
link |
Soft-Prompting呢?就是
link |
放在Input Layer這邊,然後
link |
這個Prompt假設我們,像是翻譯的Text
link |
你可能就會跟Model說你要翻譯這個
link |
好,這個翻譯這兩個字就是Hard-Prompt
link |
所以這個Hard-Prompt會經過原本的Embedded Layer
link |
好,所以Soft-Prompt跟Hard-Prompt的差別
link |
原本的Vocabulary的Embedded
link |
那Soft-Prompt的這個Vector
link |
你要怎麼去Initialize,你可以隨便的
link |
Initialize他,你也可以把他從某些
link |
字的EmbeddingInitialize
link |
那其實Soft-Prompt跟Hard-Prompt還有很多差別
link |
因為如果你要用Soft-Prompt
link |
你只要訓練這個就好,可是如果你是用Hard-Prompt的話
link |
你就是整顆碼頭都要fine-tune
link |
四個Parameter Efficient Fine-Tuning的方式
link |
減速的減少Task-Specific Parameter
link |
Vector, Lower, Predict, String, Soft-Prompt
link |
我們來看一下他的Task-Specific Parameter
link |
那我這邊沒有把那個Classifier
link |
然後我這邊用的是Big Data Notation
link |
然後你的Adapter Input是
link |
這個Task-Specific Parameter
link |
N個Prefix,然後他每個Dimension
link |
那最後一個是Soft-Prompt,Soft-Prompt就是
link |
Future Networks Model來比
link |
然後Adapter大部分都是16、32
link |
才會有比較好的Performance
link |
所以這個是Performance Efficient
link |
因為他用的參數比較少,所以可以比較不容易Overfit
link |
SoFront來訓練,跟我們用Standard
link |
Squat是一個Question Answer的Data Set
link |
那他得到的Performance,假設用Standard File Tuning
link |
可以得到這個分數,SoFront可以得到這個分數
link |
直接測試在Out of Distribution
link |
的Data Set上面,那這邊放了一些
link |
他的Performance,Out of Distribution
link |
的Performance是可以遠高於
link |
你用Standard File Tuning
link |
比較好的Out of Distribution的Performance
link |
Low Resource,他這邊的Low Resource
link |
是幾千比幾百比的,然後他的Resource是
link |
Standard File Tuning,然後跟Roberta
link |
用Adapter的File Tuning會比較好
link |
那如果在High Resource的時候呢
link |
不用Adapter用Standard File Tuning
link |
他可以達到差不多的Performance
link |
他的Performance也不會降太多
link |
Parameter Efficient File Tuning
link |
那Early Exit他也是某種程度
link |
Pretend Entry Model很大嘛,所以當我們
link |
要用這個Pretend Entry Model
link |
Inference的時候,他就要通過好多好多層
link |
他都要凹不出一組的Pretend Orientation
link |
第二層也會凹不出一組Pretend Orientation
link |
一組Pretend Orientation
link |
我們用最後一層的Pretend Orientation
link |
用前面一點的Pretend Orientation
link |
在每一層都加一個Classifier
link |
後面幾層的Classifier就全部不用用
link |
所以就可以大大的減低我們需要的運算量
link |
你要怎麼決定說哪一層的Classifier
link |
一個叫做Confidence Predictor
link |
那這個Confidence Predictor
link |
還有根據這個Representation
link |
去Predict說這個Classifier的
link |
這個Confidence Predictor就會告訴我們說
link |
這個Classifier他的Confidence還不夠高
link |
所以不可以拿他來當作最終的Output
link |
這個Confidence Predictor告訴我們說
link |
這個Classifier已經足夠Confident了
link |
Inference的時候所需要的時間
link |
那我們來看Bird's Lodge的表格
link |
Bird's Lodge總共有24層
link |
所以如果你用Standard Fine Tuning
link |
然後Standard Inference之後
link |
那他的Performance在這個地方
link |
我可以保留住95%的Performance
link |
我可以保持94%的Performance
link |
Inference的時候所需要的時間
link |
如果Pretended Use Model很大的時候
link |
那這個解決方式我們這邊提供了兩種解決方式
link |
我們是用Parametric PCS Fine Tuning
link |
我們用一些可以訓練的Supply Zone
link |
插在原本的Pretended Use Model裡面
link |
然後在Finding的時候我們只去Finding那些東西
link |
我們在Inference的時候動態的去
link |
然後你需要去考慮說什麼時候Classifier
link |
Pretended Use Model小一點
link |
讓這個Pretended Use Model可以在
link |
第一個就是我們一開始講的Standard Find Tuning
link |
Standard Find Tuning我們會把原本
link |
Pretended Use Model的Language Model Head丟掉
link |
然後整顆Model一起Find Tune
link |
Prompt Tuning我們會保留原本的Language Model Head
link |
然後同樣也是整顆Model一起Find Tune
link |
是為了要解決這個Data Scarcity
link |
另外四種Data Efficient
link |
是Adapter, Rollout, Prefix Tuning跟Solve Prompt
link |
原本的Pretended Weight
link |
這邊的Solve Prompt還有Prefix Tuning
link |
我如果沒記錯的話應該叫做Prompt Tuning
link |
可是我這邊講Prompt Tuning
link |
只是他原本的Paper他使用了Prompt Tuning
link |
就是Pretended Weight Model
link |
為什麼Pretended Weight Model
link |
為什麼你拿了一個Self-Solid
link |
Pretended Weight Model應用在Self-Solid的時候
link |
那這個其實也是Pretended Weight Model
link |
那另外像是Domain Adaptation
link |
就是當你把一個Language Model
link |
放到某一個Pretended Corpus上面
link |
那我們今天想要把這個Pretended Weight Model
link |
那醫療的Domain其實就會有很多Bird在Pretended中間
link |
這個就是Domain Adaptation需要去
link |
蠻多人在做的叫做Continual Learning
link |
那Continual Learning和Live Learning它有兩種不同的層面
link |
一種是在Find Training的時候
link |
Continual Learning,也就是當我在Find Training的時候
link |
我想要讓這個Pretended Weight Model
link |
做到Continual Learning
link |
我在Pretending的時候我要做到
link |
Continual Learning,也就是說呢
link |
就是假設是Bird,他是2018年訓練出來
link |
那2018年的Wikipedia跟2021年
link |
現在的Wikipedia,現在是2020
link |
那我們要怎麼去更新這些Language Model
link |
所以要怎麼樣讓這個Pretended Language Model
link |
Security and Privacy,就是Pretended Language Model
link |
大家其實有發現說Pretended Language Model
link |
好像會洩漏他Pretending的資料
link |
還有什麼Social Security
link |
所以要怎麼讓Pretended Language Model