夜先锋av资源网站,国产精品极品美女在线观看免,欧美亚洲精品电影在线观看,日韩在线精品强乱一区二区三区

首頁 資訊 > 創(chuàng)新 > 正文

世界新消息丨斯坦福訓(xùn)練Transformer替代模型:1.7億參數(shù),能除偏、可控可解釋性強(qiáng)

機(jī)器之心報(bào)道

編輯:Panda W

用背包(backpack)裝詞比用袋子(bag)好?在這篇論文中,斯坦福大學(xué)的研究者提出了可干預(yù)的 Backpac k 語言模型,通過調(diào)控意義向量來干預(yù)語言模型行為,引導(dǎo)語言模型輸出想要的結(jié)果。

以 GPT 為代表的大型語言模型已經(jīng)并還將繼續(xù)取得非凡成就,但它們也存在著眾所周知的問題,比如由于訓(xùn)練集不平衡導(dǎo)致的偏見問題。


(相關(guān)資料圖)

針對(duì)這一問題,斯坦福大學(xué)幾位研究者提出了一種新型神經(jīng)架構(gòu) Backpack,宣稱能夠調(diào)控意義向量來干預(yù)語言模型的行為,引導(dǎo)語言模型輸出想要的結(jié)果。該項(xiàng)目的代碼和模型都已發(fā)布。

論文地址:

https://arxiv.org/abs/2305.16765

項(xiàng)目地址:

https://backpackmodels.science

論文一作、斯坦福大學(xué) CS 博士生 John Hewitt 表示,Backpacks 是 Transformers 的替代,它可以在表現(xiàn)力(expressivity)上進(jìn)行擴(kuò)展,并為通過控制實(shí)現(xiàn)可解釋性提供一種新接口。一個(gè) backpack 學(xué)習(xí)每個(gè)字詞的 k 個(gè)非上下文意義向量,從而無監(jiān)督地解耦字詞的預(yù)測(cè)用途。

引言

首先我們假設(shè)有前半個(gè)語句「The CEO believes that _」,我們的問題是消除神經(jīng)語言模型在該句子的性別分布上的偏見。憑直覺我們就能知道該句子的性別偏見源自「CEO」一詞,因?yàn)槿绻选窩EO」換成「護(hù)士」,偏見就會(huì)發(fā)生性別逆轉(zhuǎn)。為了消除在 CEO 上的偏見,必須要對(duì)模型進(jìn)行干預(yù)并且要應(yīng)用到 CEO 一詞所出現(xiàn)的所有上下文中。

理想情況下,我們希望采取的干預(yù)措施不會(huì)改變模型的上下文并且可以預(yù)測(cè)這個(gè)干預(yù)帶來的影響。通常來說,從可解釋性與控制的各個(gè)方面看,我們更傾向于通過一個(gè)全局應(yīng)用的容易操作的接口(比如非上下文表征)來實(shí)施干預(yù)。

但對(duì) Transformer 來說,這種干預(yù)卻難以實(shí)現(xiàn),因?yàn)樗鼈兊纳舷挛谋碚魇瞧漭斎氲膯误w函數(shù)(monolithic function)。單體函數(shù)是指內(nèi)部具有邏輯分支的函數(shù),能夠根據(jù)輸入執(zhí)行不同的邏輯。對(duì) Transformer 模型的任何干預(yù)都會(huì)根據(jù)上下文情況產(chǎn)生復(fù)雜的非線性影響。但我們希望模型能實(shí)現(xiàn)豐富的精準(zhǔn)干預(yù),nenggou 預(yù)測(cè)在所有上下文中的情況,并依然能富有表現(xiàn)力;如此一來,這樣的模型就能成為 Transformer 的可行替代模型。

針對(duì)這些挑戰(zhàn),研究者提出了一種新的神經(jīng)架構(gòu) Backpack,其預(yù)測(cè)是非上下文表征的對(duì)數(shù) - 線性組合。他們的做法是將詞匯表中的每個(gè)詞都表示成一組非上下文的意義向量(sense vector),這些向量表示的是學(xué)習(xí)到的該詞的不同方面。

舉個(gè)例子,「science」這個(gè)詞的意義向量可以編碼科學(xué)的類型、與技術(shù)的關(guān)系、已經(jīng)得到公認(rèn)的科學(xué)概念以及科學(xué)過程的不同方面(復(fù)現(xiàn)或?qū)嶒?yàn)),參見下表 1。意義向量學(xué)習(xí)的不是經(jīng)典的詞義,而是一個(gè)詞在不同語境中的潛在作用的更一般性方面;事實(shí)上,意義向量可被視為經(jīng)典詞向量的一種多向量泛化。

圖 1 :Transformer 是序列的單體函數(shù),而 Backpack 的輸出是非上下文的、所學(xué)詞的各個(gè)方面的加權(quán)和。

在干預(yù)意義向量時(shí),為了使干預(yù)結(jié)果在不同上下文中都是可預(yù)測(cè)的,Backpack 會(huì)將一個(gè)序列中的每個(gè)詞都表示成該序列中所有詞的意義向量的一個(gè)線性組合。Backpack 的表現(xiàn)能力來自于計(jì)算該線性組合的權(quán)重的網(wǎng)絡(luò)模型,其計(jì)算方式是將這些權(quán)重作為整個(gè)序列的一個(gè)函數(shù)。順便一提,研究者在實(shí)驗(yàn)中使用的網(wǎng)絡(luò)模型是 Transformer。由于意義向量是根據(jù)上下文大致選擇的,因此它們可以專門限定到特定領(lǐng)域;每個(gè)意義都可以學(xué)會(huì)僅在某些上下文中才有用,并且是否有用可以預(yù)測(cè)出來。也就是說,意義對(duì)預(yù)測(cè)的貢獻(xiàn)呈對(duì)數(shù) - 線性模式,這意味著不管上下文如何,對(duì)意義向量的干預(yù)也同樣適用(直到權(quán)重變成非負(fù)標(biāo)量)。

研究者的實(shí)驗(yàn)表明 Backpack 語言模型確實(shí)表現(xiàn)力強(qiáng)大,并且表明對(duì)意義向量進(jìn)行干預(yù)有助于解釋和控制模型。在實(shí)驗(yàn)中,研究者在 OpenWebText 的 500 億 token 上訓(xùn)練了 Backpack 語言模型;這個(gè) Backpack 模型的上下文網(wǎng)絡(luò)有 1.24 億參數(shù)(意義向量有 4600 萬參數(shù)),能達(dá)到一個(gè) 1.24 億參數(shù) Transformer 的困惑度;但如果想要更高的可解釋性,就需要更大的模型。研究者還展示了如何通過意義向量來針對(duì)性地編碼豐富的詞義概念。

在四個(gè)詞匯相似性數(shù)據(jù)集(例如 SimLex999)上的定量分析結(jié)果看,1.7 億參數(shù)的 Backpack 的意義向量優(yōu)于 60 億參數(shù)的 GPT-J-6B Transformer 的詞嵌入,并且接近針對(duì)該任務(wù)的專用方法的當(dāng)前最佳表現(xiàn)。研究者還表明意義向量能為 Backpack 語言模型提供一種控制機(jī)制。

舉個(gè)例子,對(duì)于具有職業(yè)性別刻板偏見的詞(如「CEO」或「護(hù)士」),往往會(huì)學(xué)習(xí)到與該性別偏見相關(guān)聯(lián)的意義向量;研究者發(fā)現(xiàn)通過為該意義向量降幅,能在有限環(huán)境中極大降低上下文預(yù)測(cè)中的性別差異。

表 1:左側(cè)是表示 science 一詞的意義向量示例,其中具有豐富的特定領(lǐng)域指向;右側(cè)是以非上下文的方式編輯意義向量的示例(將 MacBook 變得與惠普相關(guān)),從而改變了所得的上下文預(yù)測(cè)。

Backpack 架構(gòu)

下面首先將定義 Backpack 架構(gòu)的一般形式,然后會(huì)證明連續(xù)詞袋 word2vec(CBOW)和僅自注意力網(wǎng)絡(luò)其實(shí)就是 Backpack 的特例。

Backpack 的一般形式

Backpack 是一個(gè)將符號(hào)序列

映射成向量序列

的參數(shù)函數(shù),其中每個(gè)符號(hào) x_i 都屬于一個(gè)有限詞匯表 V,而

這里將 o_i 稱為 x_i 在上下文序列 x_ 中的 Backpack 表征。

意義向量。對(duì)于每個(gè) x ∈ V,Backpack 構(gòu)建 k 個(gè)意義向量:

其中

意義向量是一種多向量,類似于 word2vec 或 GloVe 等經(jīng)典的非上下文詞表征。

加權(quán)和。對(duì)于一個(gè)序列 x_,元素 x_i 的表征 o_i 是詞在上下文中的預(yù)測(cè)意義向量的加權(quán)和:給定上下文化權(quán)重

Backpack 的上下文化權(quán)重

則由整個(gè)序列 x_ 的一個(gè)(非線性)上下文函數(shù)定義:

其中

Backpack 這個(gè)名稱靈感來自這一事實(shí):backpack 是指背包,就像是一個(gè)袋子(類比于詞袋 /bag-of-words),但是背包更有秩序一些。類似于詞袋,Backpack 表征也是非上下文意義的加權(quán)和;但 Backpack 更加有序,因?yàn)檫@個(gè)加權(quán)和的權(quán)重取決于有序的序列。

Backpack 模型。Backpack 模型是一種概率模型,它將在某一輸出空間 Y 上的概率定義為一個(gè) Backpack 表征 o_ 的對(duì)數(shù) - 線性函數(shù):

其中

是一種線性變換。因?yàn)?Backpack 模型的表征呈現(xiàn)對(duì)數(shù) - 線性模式,所以意義向量對(duì)預(yù)測(cè)的貢獻(xiàn)也呈對(duì)數(shù) - 線性模式。這讓我們可以檢查意義向量,具體做法是經(jīng)由 E 將意義向量投射到詞匯表上,然后在任意上下文中觀察其究竟會(huì)如何對(duì)預(yù)測(cè)做出貢獻(xiàn)。

模型的參數(shù)化可使用常用的深度神經(jīng)網(wǎng)絡(luò),包括 LSTM 和 Transformer;這些都不是 Backpack,因?yàn)樗鼈兊妮敵霰碚魇钦麄€(gè)序列的(相對(duì)而言)無約束函數(shù)。相對(duì)而言,Backpack 的表現(xiàn)力看起來是有限的:其表征 o_i 是非上下文向量

以標(biāo)量加權(quán)的和。序列元素之間的上下文關(guān)系只能通過權(quán)重 α 來表示。盡管如此,研究者的實(shí)驗(yàn)表明,一個(gè)表現(xiàn)能力強(qiáng)的上下文化權(quán)重網(wǎng)絡(luò)可以通過意義向量的加權(quán)和來表示復(fù)雜函數(shù),比如新提出的 1.7 億參數(shù)的 Backpack 語言模型使用了一個(gè) 1.24 億參數(shù)的 Transformer 模型來計(jì)算 α,并實(shí)現(xiàn)了和 1.24 億參數(shù) Transformer 語言模型一樣的損失。

研究者通過數(shù)學(xué)形式證明了連續(xù)詞袋與單層注意力都是 Backpack 的特例,但這里我們不再過多論述了,詳情參閱原論文。

使用 Backpack 的語言建模

研究者使用 Backpack 來進(jìn)行參數(shù)化,定義了一個(gè)神經(jīng)自回歸語言模型。對(duì)于序列的下一 token 的概率,他們使用了標(biāo)準(zhǔn)的 softmax 參數(shù)化,其中有一個(gè)將表征

映射成 logit

的權(quán)重矩陣

回想一下,Backpack 表征 o_j 是通過意義向量 C (x) 和上下文化權(quán)重 α_j 定義的。下面首先會(huì)介紹等式 (1) 中預(yù)測(cè)意義向量 C 的參數(shù)化,然后是上下文化權(quán)重網(wǎng)絡(luò) A 的參數(shù)化。當(dāng) o_j 是由 Backpack 參數(shù)化時(shí),就可以稱該模型為 Backpack 語言模型。

對(duì)意義參數(shù)化

對(duì)于意義函數(shù)

我們將每個(gè) x ∈ V 都嵌入到

中,然后將這些嵌入通過一個(gè)前向網(wǎng)絡(luò)

其中,嵌入 / 投射矩陣 E 與 (9) 式中的輸出矩陣緊密關(guān)聯(lián)?,F(xiàn)在我們可以使用一個(gè)查找表來定義所有 k × |V| 意義向量,但隨著 k 增大,參數(shù)數(shù)量也會(huì)變得非常大。于是研究者在這里采用的做法是將詞嵌入成

然后使用共享權(quán)重將它們放大到

這也許可以解釋在不同詞類型上觀察到的相關(guān)意義作用。

對(duì)上下文化權(quán)重參數(shù)化

研究者使用了一個(gè)標(biāo)準(zhǔn) Transformer 加一層多頭關(guān)鍵詞查詢自注意力來對(duì)

進(jìn)行參數(shù)化,也就是讓一個(gè)嵌入的序列通過一個(gè) Transformer:

這里使用了適當(dāng)?shù)淖曰貧w掩碼和某種位置表征,然后計(jì)算

其中對(duì)于每個(gè)預(yù)測(cè)意義 ?=1,...,k 有

并且矩陣

研究者把這 k 個(gè)意義看作是頭,對(duì)于每個(gè)頭,上下文化權(quán)重都為對(duì)詞的注意力定義一個(gè)分布。

訓(xùn)練 Backpack 語言模型的實(shí)驗(yàn)

這一節(jié)介紹了研究者為了進(jìn)行驗(yàn)證而做的實(shí)驗(yàn),其中包含訓(xùn)練 Backpack 和 Transformer 語言模型的超參數(shù)、數(shù)據(jù)和優(yōu)化流程、評(píng)估和結(jié)果。這里我們不多介紹了,但研究者重點(diǎn)指出:學(xué)習(xí) k>1 個(gè)意義向量對(duì)于實(shí)現(xiàn)優(yōu)良的語言建模性能而言是必需的。

表 2:語言建模性能,所有模型都訓(xùn)練了 10 萬步,token 批大小為 50 萬,是在 OWT 上。對(duì)于 PPL 指標(biāo),越低越好;對(duì)于準(zhǔn)確度指標(biāo),越高越好。注意這些模型的參數(shù)沒有可比性;每個(gè) Backpack 的上下文化網(wǎng)絡(luò)中都有一個(gè)大小相當(dāng)?shù)?Transformer。

可以看出,對(duì)比每個(gè) Backpack 語言模型以及與 Backpack 的上下文化網(wǎng)絡(luò)的規(guī)格相當(dāng)?shù)?Transformer 語言模型,Backpack 語言模型的表現(xiàn)大致相當(dāng)。需要指出,Backpack 的參數(shù)更多,這主要來自意義向量。研究者發(fā)現(xiàn),在訓(xùn)練時(shí),Backpack 語言模型的收斂時(shí)間長于 Transformer。奇怪的是,盡管 Small Backpack 和 Transformer 實(shí)現(xiàn)了幾乎一樣的 OWT 困惑度,但 Backpack 語言模型在 LAMBADA 和 Wikitext 上的表現(xiàn)卻顯著更好,同時(shí)在 BLiMP 上卻又更差。

意義向量中的涌現(xiàn)結(jié)構(gòu)

下面將通過定性和定量實(shí)驗(yàn),來驗(yàn)證意義向量在計(jì)算詞匯相似性和相關(guān)性方面的有效性。這些結(jié)果表明意義向量可以成為實(shí)施干預(yù)的高層面接口。

意義的可視化

基于實(shí)驗(yàn)經(jīng)驗(yàn),經(jīng)過訓(xùn)練的 Backpack 模型會(huì)將特定的意義向量索引與不同的預(yù)測(cè)作用關(guān)聯(lián)起來。研究者為了解釋這些作用,做法是選取詞 x 的意義 ? 并將這個(gè)意義投射到詞嵌入:

請(qǐng)注意,這正是(直到一個(gè)標(biāo)量)意義有助于模型的任何預(yù)測(cè)的方式。研究者是通過報(bào)告該投射下分?jǐn)?shù)最高的詞來解釋意義向量的作用。

下表 3 可視化地展示一些意義,比如意義 12 似乎為幾乎所有單詞都編碼了廣泛的相關(guān)概念;意義 3 編碼了給定 x 的二元分布的特定情況;意義 14 似乎為動(dòng)詞編碼了相關(guān)的賓語,也為名詞編碼了相關(guān)的修飾詞依賴子項(xiàng)。

表 3:可視化地展示了在許多詞上的同一意義索引如何編碼細(xì)粒度的含義、相關(guān)性和預(yù)測(cè)使用情況的概念。

詞匯關(guān)系測(cè)試

從下表 4 可以看到,意義 12(同義詞意義)在所有數(shù)據(jù)集上都表現(xiàn)良好,媲美或者優(yōu)于 GPT-2-1.5B 和 GPT-J-6B 等嵌入,而 GPT-J-6B 在 RG-65 上則例外。意義 14 是動(dòng)詞賓語意義,僅在動(dòng)詞相似度(VerbSim3500)上表現(xiàn)好,而意義的最小相似性在名詞詞匯相似性上表現(xiàn)尤其出色 (SimLex999)。這說明新提出的方法足以比肩當(dāng)前最優(yōu)的方法,盡管它們的訓(xùn)練任務(wù)非常不同,意義向量編碼了大量的詞匯信息。

表 4:詞匯相似性評(píng)估結(jié)果。所有的數(shù)值都是 Spearman 相關(guān)度;越高越好。

用于控制的意義向量

最后,研究者通過一些具體案例進(jìn)行了概念驗(yàn)證,即可以使用意義向量來控制語言模型的行為。

生成限定主題的內(nèi)容

下圖 2 中,通過 Backpack 中的意義干預(yù)來控制生成主題,對(duì)比了 Transformer 的 PPLM。

降低性別偏見

研究者發(fā)現(xiàn),許多職業(yè)名詞(比如護(hù)士、CEO、教師)的意義向量 10 都帶有性別的刻板印象,并且這種刻板印象會(huì)通過代詞連貫地表達(dá)出來。通過調(diào)降意義 10(乘以小于 1 的標(biāo)量),研究者發(fā)現(xiàn)可以降低 Backpack 在這些職業(yè)名詞上的性別偏見。

表 5:在有限設(shè)置中降低基于代詞的性別偏見。

圖 3:對(duì)于前半句「when the nurse walked into the room」(當(dāng)那位護(hù)士走進(jìn)房間),Backpack 語言模型通過將「護(hù)士」一詞的意義 10 從 0(完全移除)變成 1(原始情況),條件概率分布受到的影響。

知識(shí)編輯

研究者還研究了新方法在知識(shí)編輯方面的應(yīng)用。知識(shí)編輯是指編輯模型對(duì)于世界知識(shí)的預(yù)測(cè)。特別要指出,與專有名詞相關(guān)的許多詞都可以定位到該名詞的意義向量。在定性的概念驗(yàn)證實(shí)驗(yàn)中,研究者編輯了目標(biāo)詞(比如 MacBook)的意義向量,移除了與另一個(gè)詞(比如 Apple)的相關(guān)性,然后用再一個(gè)詞(比如 HP)替代了這些相關(guān)性??梢韵胍姡@種干預(yù)會(huì)導(dǎo)致 MacBook 與 HP 在預(yù)測(cè)結(jié)果中產(chǎn)生關(guān)聯(lián)。

表 6:來自 Backpack 的樣本,其中 Apple 被投射到了 MacBook 的意義嵌入之外,而 Apple 原來的位置被 HP 替代。第三個(gè)樣本類似,是美式橄欖球球隊(duì)和運(yùn)動(dòng)員相關(guān)的樣本。其中加粗的部分為 prompt。

責(zé)任編輯:

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.ossf.org.cn All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3