日逼黄色日逼黄色视频黄色视频,少妇人妻导航生活一级e大片

大家好，我是zenRRan。

OpenAI在昨天發(fā)布了一篇論文：《Language models can explain neurons in language models》，可謂是深度學(xué)習(xí)可解釋性又向前邁了一大步！誰(shuí)又能想到，使用GPT-4來解釋模型的可解釋性，用魔法打敗魔法，666。

大致內(nèi)容

使用 GPT-4 自動(dòng)編寫大型語(yǔ)言模型中神經(jīng)元行為的解釋，并對(duì)這些解釋進(jìn)行打分，并為 GPT-2 中的每個(gè)神經(jīng)元發(fā)布了這些（不完美的）解釋和分?jǐn)?shù)的數(shù)據(jù)集。

介紹一下

語(yǔ)言模型變得更強(qiáng)大，部署更廣泛，但我們對(duì)它們內(nèi)部工作原理的理解仍然非常有限。例如，可能很難從它們的輸出中檢測(cè)到它們是使用有偏見的啟發(fā)式方法還是進(jìn)行胡編亂造?？山忉屝匝芯恐荚谕ㄟ^查看模型內(nèi)部來發(fā)現(xiàn)更多信息。

可解釋性研究的一種簡(jiǎn)單方法是首先了解各個(gè)組件（神經(jīng)元和注意力頭）在做什么。傳統(tǒng)上，這需要人類手動(dòng)檢查神經(jīng)元，以確定它們代表數(shù)據(jù)的哪些特征。這個(gè)過程不能很好地?cái)U(kuò)展：很難將它應(yīng)用于具有數(shù)百或數(shù)千億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)。OpenAI提出了一個(gè)自動(dòng)化過程，該過程使用 GPT-4 來生成神經(jīng)元行為的自然語(yǔ)言解釋并對(duì)其進(jìn)行評(píng)分，并將其應(yīng)用于另一種語(yǔ)言模型中的神經(jīng)元。

這項(xiàng)工作是對(duì)齊研究方法的第三個(gè)支柱的一部分：希望使對(duì)齊研究工作本身自動(dòng)化。這種方法的一個(gè)有前途的方面是它可以隨著人工智能發(fā)展的步伐而擴(kuò)展。隨著未來的模型作為助手變得越來越智能和有用，我們會(huì)找到更好的解釋。

具體如何工作的呢

他們的方法包括在每個(gè)神經(jīng)元上運(yùn)行 3 個(gè)步驟。

第 1 步：使用 GPT-4 生成解釋

給定一個(gè) GPT-2 神經(jīng)元，通過向 GPT-4 顯示相關(guān)文本序列和激活來生成對(duì)其行為的解釋。

OpenAI一共舉了12個(gè)例子，這里我就隨便拿出幾個(gè)代表性的吧。

漫威漫畫的氛圍

模型生成的解釋：參考自電影、角色和娛樂。

similes，相似

模型生成的解釋：比較和類比，常用“喜歡(like)”這個(gè)詞。

shared last names，姓氏

模型生成的解釋：姓氏，它們一般跟在名字后面。

第 2 步：使用 GPT-4 進(jìn)行模擬

再次使用 GPT-4 模擬為解釋而激活的神經(jīng)元會(huì)做什么。

漫威漫畫的氛圍

第 3 步：比較

根據(jù)模擬激活與真實(shí)激活的匹配程度對(duì)解釋進(jìn)行評(píng)分

舉例：漫威漫畫的氛圍

最終得出比較的分?jǐn)?shù)為：0.34

發(fā)現(xiàn)了什么

使用OpenAI自己的評(píng)分方法，可以開始衡量技術(shù)對(duì)網(wǎng)絡(luò)不同部分的工作情況，并嘗試改進(jìn)目前解釋不力的部分的技術(shù)。例如，我們的技術(shù)對(duì)于較大的模型效果不佳，可能是因?yàn)楹竺娴膶痈y解釋。

正在解釋的模型中的參數(shù)量

盡管我們的絕大多數(shù)解釋得分很低，但我們相信我們現(xiàn)在可以使用 ML 技術(shù)來進(jìn)一步提高我們產(chǎn)生解釋的能力。例如，我們發(fā)現(xiàn)我們可以通過以下方式提高分?jǐn)?shù)：

迭代解釋。我們可以通過要求 GPT-4 提出可能的反例，然后根據(jù)它們的激活修改解釋來提高分?jǐn)?shù)。

使用更大的模型來給出解釋。隨著解釋器模型能力的提高，平均分?jǐn)?shù)也會(huì)上升。然而，即使是 GPT-4 也給出了比人類更差的解釋，這表明還有改進(jìn)的余地。

更改已解釋模型的架構(gòu)。具有不同激活函數(shù)的訓(xùn)練模型提高了解釋分?jǐn)?shù)。

我們正在開源我們的數(shù)據(jù)集和可視化工具，用于 GPT-4 對(duì) GPT-2 中所有 307,200 個(gè)神經(jīng)元的書面解釋，以及使用 OpenAI API 上公開可用的模型[1]進(jìn)行解釋和評(píng)分的代碼。我們希望研究界能夠開發(fā)新技術(shù)來生成更高分的解釋，并開發(fā)更好的工具來使用解釋來探索 GPT-2。

我們發(fā)現(xiàn)超過 1,000 個(gè)神經(jīng)元的解釋得分至少為 0.8，這意味著根據(jù) GPT-4，它們解釋了神經(jīng)元的大部分頂級(jí)激活行為。大多數(shù)這些很好解釋的神經(jīng)元都不是很有趣。然而，也發(fā)現(xiàn)了許多 GPT-4 不理解的有趣神經(jīng)元。希望隨著解釋的改進(jìn)，能夠快速發(fā)現(xiàn)對(duì)模型計(jì)算的有趣的定性理解。

神經(jīng)元跨層激活，更高的層更抽象：

以Kat舉例

展望

我們的方法目前有很多局限性[2]，我們希望在未來的工作中能夠解決這些問題。

我們專注于簡(jiǎn)短的自然語(yǔ)言解釋，但神經(jīng)元可能具有非常復(fù)雜的行為，無法簡(jiǎn)潔地描述。例如，神經(jīng)元可以是高度多義的（代表許多不同的概念），或者可以代表人類不理解或無法用語(yǔ)言表達(dá)的單一概念。

我們希望最終自動(dòng)找到并解釋實(shí)現(xiàn)復(fù)雜行為的整個(gè)神經(jīng)回路，神經(jīng)元和注意力頭一起工作。我們當(dāng)前的方法僅將神經(jīng)元行為解釋為原始文本輸入的函數(shù)，而沒有說明其下游影響。例如，一個(gè)在句號(hào)上激活的神經(jīng)元可以指示下一個(gè)單詞應(yīng)該以大寫字母開頭，或者遞增一個(gè)句子計(jì)數(shù)器。

我們解釋了神經(jīng)元的行為，但沒有試圖解釋產(chǎn)生這種行為的機(jī)制。這意味著即使是高分解釋也可能在分布外的文本上表現(xiàn)很差，因?yàn)樗鼈冎皇敲枋隽讼嚓P(guān)性。

我們的整個(gè)過程是計(jì)算密集型的。

我們對(duì)我們方法的擴(kuò)展和推廣感到興奮。最終，我們希望使用模型來形成、測(cè)試和迭代完全通用的假設(shè)，就像可解釋性研究人員所做的那樣。

最終，OpenAI希望將最大的模型解釋為一種在部署前后檢測(cè)對(duì)齊和安全問題的方法。然而，在這些技術(shù)能夠使不誠(chéng)實(shí)等行為浮出水面之前，我們還有很長(zhǎng)的路要走。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)元

神經(jīng)元

+關(guān)注

關(guān)注
1

文章
369

瀏覽量
19175
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
572

瀏覽量
11323
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1245

瀏覽量
10112

原文標(biāo)題：OpenAI最新突破性進(jìn)展：語(yǔ)言模型可以解釋語(yǔ)言模型中的神經(jīng)元

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

OpenAI最新突破性進(jìn)展：語(yǔ)言模型可以解釋語(yǔ)言模型中的神經(jīng)元

評(píng)論