91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI最新突破性進(jìn)展:語(yǔ)言模型可以解釋語(yǔ)言模型中的神經(jīng)元

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-05-12 11:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大家好,我是zenRRan。

OpenAI在昨天發(fā)布了一篇論文:《Language models can explain neurons in language models》,可謂是深度學(xué)習(xí)可解釋性又向前邁了一大步!誰(shuí)又能想到,使用GPT-4來解釋模型的可解釋性,用魔法打敗魔法,666。

e77cb674-ef0f-11ed-90ce-dac502259ad0.png

大致內(nèi)容

使用 GPT-4 自動(dòng)編寫大型語(yǔ)言模型中神經(jīng)元行為的解釋,并對(duì)這些解釋進(jìn)行打分,并為 GPT-2 中的每個(gè)神經(jīng)元發(fā)布了這些(不完美的)解釋和分?jǐn)?shù)的數(shù)據(jù)集。

介紹一下

語(yǔ)言模型變得更強(qiáng)大,部署更廣泛,但我們對(duì)它們內(nèi)部工作原理的理解仍然非常有限。例如,可能很難從它們的輸出中檢測(cè)到它們是使用有偏見的啟發(fā)式方法還是進(jìn)行胡編亂造??山忉屝匝芯恐荚谕ㄟ^查看模型內(nèi)部來發(fā)現(xiàn)更多信息。

可解釋性研究的一種簡(jiǎn)單方法是首先了解各個(gè)組件(神經(jīng)元和注意力頭)在做什么。傳統(tǒng)上,這需要人類手動(dòng)檢查神經(jīng)元,以確定它們代表數(shù)據(jù)的哪些特征。這個(gè)過程不能很好地?cái)U(kuò)展:很難將它應(yīng)用于具有數(shù)百或數(shù)千億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)。OpenAI提出了一個(gè)自動(dòng)化過程,該過程使用 GPT-4 來生成神經(jīng)元行為的自然語(yǔ)言解釋并對(duì)其進(jìn)行評(píng)分,并將其應(yīng)用于另一種語(yǔ)言模型中的神經(jīng)元。

這項(xiàng)工作是對(duì)齊研究方法的第三個(gè)支柱的一部分:希望使對(duì)齊研究工作本身自動(dòng)化。這種方法的一個(gè)有前途的方面是它可以隨著人工智能發(fā)展的步伐而擴(kuò)展。隨著未來的模型作為助手變得越來越智能和有用,我們會(huì)找到更好的解釋。

具體如何工作的呢

他們的方法包括在每個(gè)神經(jīng)元上運(yùn)行 3 個(gè)步驟。

第 1 步:使用 GPT-4 生成解釋

給定一個(gè) GPT-2 神經(jīng)元,通過向 GPT-4 顯示相關(guān)文本序列和激活來生成對(duì)其行為的解釋。

OpenAI一共舉了12個(gè)例子,這里我就隨便拿出幾個(gè)代表性的吧。

e793c9ae-ef0f-11ed-90ce-dac502259ad0.png

漫威漫畫的氛圍

模型生成的解釋:參考自電影、角色和娛樂。

e7bea372-ef0f-11ed-90ce-dac502259ad0.png

similes,相似

模型生成的解釋:比較和類比,常用“喜歡(like)”這個(gè)詞。

e7d9db4c-ef0f-11ed-90ce-dac502259ad0.png

shared last names,姓氏

模型生成的解釋:姓氏,它們一般跟在名字后面。

第 2 步:使用 GPT-4 進(jìn)行模擬

再次使用 GPT-4 模擬為解釋而激活的神經(jīng)元會(huì)做什么。

e7f7708a-ef0f-11ed-90ce-dac502259ad0.png

漫威漫畫的氛圍

第 3 步:比較

根據(jù)模擬激活與真實(shí)激活的匹配程度對(duì)解釋進(jìn)行評(píng)分

e8209794-ef0f-11ed-90ce-dac502259ad0.png

舉例:漫威漫畫的氛圍

e849ba66-ef0f-11ed-90ce-dac502259ad0.png

舉例:漫威漫畫的氛圍

最終得出比較的分?jǐn)?shù)為:0.34

發(fā)現(xiàn)了什么

使用OpenAI自己的評(píng)分方法,可以開始衡量技術(shù)對(duì)網(wǎng)絡(luò)不同部分的工作情況,并嘗試改進(jìn)目前解釋不力的部分的技術(shù)。例如,我們的技術(shù)對(duì)于較大的模型效果不佳,可能是因?yàn)楹竺娴膶痈y解釋。

e86d1420-ef0f-11ed-90ce-dac502259ad0.png

正在解釋的模型中的參數(shù)量

盡管我們的絕大多數(shù)解釋得分很低,但我們相信我們現(xiàn)在可以使用 ML 技術(shù)來進(jìn)一步提高我們產(chǎn)生解釋的能力。例如,我們發(fā)現(xiàn)我們可以通過以下方式提高分?jǐn)?shù):

迭代解釋。我們可以通過要求 GPT-4 提出可能的反例,然后根據(jù)它們的激活修改解釋來提高分?jǐn)?shù)。

使用更大的模型來給出解釋。隨著解釋器模型能力的提高,平均分?jǐn)?shù)也會(huì)上升。然而,即使是 GPT-4 也給出了比人類更差的解釋,這表明還有改進(jìn)的余地。

更改已解釋模型的架構(gòu)。具有不同激活函數(shù)的訓(xùn)練模型提高了解釋分?jǐn)?shù)。

我們正在開源我們的數(shù)據(jù)集和可視化工具,用于 GPT-4 對(duì) GPT-2 中所有 307,200 個(gè)神經(jīng)元的書面解釋,以及使用 OpenAI API 上公開可用的模型[1]進(jìn)行解釋和評(píng)分的代碼。我們希望研究界能夠開發(fā)新技術(shù)來生成更高分的解釋,并開發(fā)更好的工具來使用解釋來探索 GPT-2。

我們發(fā)現(xiàn)超過 1,000 個(gè)神經(jīng)元的解釋得分至少為 0.8,這意味著根據(jù) GPT-4,它們解釋了神經(jīng)元的大部分頂級(jí)激活行為。大多數(shù)這些很好解釋的神經(jīng)元都不是很有趣。然而,也發(fā)現(xiàn)了許多 GPT-4 不理解的有趣神經(jīng)元。希望隨著解釋的改進(jìn),能夠快速發(fā)現(xiàn)對(duì)模型計(jì)算的有趣的定性理解。

神經(jīng)元跨層激活,更高的層更抽象:

e87e391c-ef0f-11ed-90ce-dac502259ad0.png

以Kat舉例

展望

我們的方法目前有很多局限性[2],我們希望在未來的工作中能夠解決這些問題。

我們專注于簡(jiǎn)短的自然語(yǔ)言解釋,但神經(jīng)元可能具有非常復(fù)雜的行為,無法簡(jiǎn)潔地描述。例如,神經(jīng)元可以是高度多義的(代表許多不同的概念),或者可以代表人類不理解或無法用語(yǔ)言表達(dá)的單一概念。

我們希望最終自動(dòng)找到并解釋實(shí)現(xiàn)復(fù)雜行為的整個(gè)神經(jīng)回路,神經(jīng)元和注意力頭一起工作。我們當(dāng)前的方法僅將神經(jīng)元行為解釋為原始文本輸入的函數(shù),而沒有說明其下游影響。例如,一個(gè)在句號(hào)上激活的神經(jīng)元可以指示下一個(gè)單詞應(yīng)該以大寫字母開頭,或者遞增一個(gè)句子計(jì)數(shù)器。

我們解釋了神經(jīng)元的行為,但沒有試圖解釋產(chǎn)生這種行為的機(jī)制。這意味著即使是高分解釋也可能在分布外的文本上表現(xiàn)很差,因?yàn)樗鼈冎皇敲枋隽讼嚓P(guān)性。

我們的整個(gè)過程是計(jì)算密集型的。

我們對(duì)我們方法的擴(kuò)展和推廣感到興奮。最終,我們希望使用模型來形成、測(cè)試和迭代完全通用的假設(shè),就像可解釋性研究人員所做的那樣。

最終,OpenAI希望將最大的模型解釋為一種在部署前后檢測(cè)對(duì)齊和安全問題的方法。然而,在這些技術(shù)能夠使不誠(chéng)實(shí)等行為浮出水面之前,我們還有很長(zhǎng)的路要走。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)元
    +關(guān)注

    關(guān)注

    1

    文章

    369

    瀏覽量

    19175
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    572

    瀏覽量

    11323
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1245

    瀏覽量

    10112

原文標(biāo)題:OpenAI最新突破性進(jìn)展:語(yǔ)言模型可以解釋語(yǔ)言模型中的神經(jīng)元

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    ,從而得到對(duì)我們有價(jià)值的識(shí)別信息。但這種迭代并不是十分必要的,因?yàn)閺膶?shí)踐來看,即使只有單層網(wǎng)絡(luò)的模型,只要擁有充分?jǐn)?shù)量的神經(jīng)元,也可以獲得較高的準(zhǔn)確率。不過該種方式的一個(gè)重要缺點(diǎn)就是
    發(fā)表于 10-28 08:02

    脈沖神經(jīng)元模型的硬件實(shí)現(xiàn)

    息電位 vrest。 LIF神經(jīng)元模型在生物可解釋性上低于其他模型,只體現(xiàn)了神經(jīng)元計(jì)算的關(guān)鍵特性,并不能夠解釋真實(shí)
    發(fā)表于 10-24 08:27

    SNN加速器內(nèi)部神經(jīng)元數(shù)據(jù)連接方式

    的數(shù)量級(jí),而且生物軸突的延遲和神經(jīng)元的時(shí)間常數(shù)比數(shù)字電路的傳播和轉(zhuǎn)換延遲要大得多,AER 的工作方式和神經(jīng)網(wǎng)絡(luò)的特點(diǎn)相吻合,所以受生物啟發(fā)的神經(jīng)形態(tài)處理器的NoC或SNN加速器通常使
    發(fā)表于 10-24 07:34

    在Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    , batch_size=512, epochs=20)總結(jié) 這個(gè)核心算法的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練過程,是用來對(duì)MNIST手寫數(shù)字圖像進(jìn)行分類的。模型將圖像作為輸入,通過卷積和池化層提取圖像的特征,然后通過全連接層進(jìn)行分類預(yù)
    發(fā)表于 10-22 07:03

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+神經(jīng)形態(tài)計(jì)算、類腦芯片

    。是實(shí)現(xiàn)類腦芯片的基本模型。SNN神經(jīng)元通過短的電脈沖相互溝通,脈沖之間的時(shí)間間隔起著重要作用。 最有利于硬件實(shí)現(xiàn)的脈沖神經(jīng)元模型是“漏電整合-激發(fā)”
    發(fā)表于 09-17 16:43

    3萬字長(zhǎng)文!深度解析大語(yǔ)言模型LLM原理

    繼續(xù)追本溯源,與騰訊學(xué)堂合作撰寫本文,嘗試讓人人都能懂大語(yǔ)言模型的基礎(chǔ)原理。1、大語(yǔ)言模型簡(jiǎn)述截止到2025年“大模型”一般泛指“超大參數(shù)
    的頭像 發(fā)表于 09-02 13:34 ?3469次閱讀
    3萬字長(zhǎng)文!深度解析大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>LLM原理

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    Neuton 可以自動(dòng)處理所有這些問題。Neuton 不會(huì)從一開始就靜態(tài)定義網(wǎng)絡(luò)參數(shù),而是自動(dòng)生成網(wǎng)絡(luò),并檢查每一個(gè)新神經(jīng)元是否能提高模型性能。不增加價(jià)值的神經(jīng)元會(huì)被立即移除,以節(jié)省
    發(fā)表于 08-31 20:54

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權(quán)重語(yǔ)言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 發(fā)布了!我們做了一個(gè)開放
    的頭像 發(fā)表于 08-06 14:25 ?1035次閱讀

    無刷直流電機(jī)單神經(jīng)元自適應(yīng)智能控制系統(tǒng)

    常規(guī)PID,大大提高了系統(tǒng)的跟隨,能滿足BLDCM系統(tǒng)對(duì)實(shí)時(shí)的要求。 純分享帖,點(diǎn)擊下方附件免費(fèi)獲取完整資料~~~ *附件:無刷直流電機(jī)單神經(jīng)元自適應(yīng)智能控制系統(tǒng).pdf 【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所
    發(fā)表于 06-26 13:36

    無刷直流電機(jī)單神經(jīng)元PI控制器的設(shè)計(jì)

    摘要:研究了一種基于專家系統(tǒng)的單神經(jīng)元PI控制器,并將其應(yīng)用于無刷直流電機(jī)調(diào)速系統(tǒng)??刂破鲗?shí)現(xiàn)了PI參數(shù)的在線調(diào)整,在具有PID控制器良好動(dòng)態(tài)性能的同時(shí),減少微分項(xiàng)對(duì)系統(tǒng)穩(wěn)態(tài)運(yùn)行時(shí)的影響,并較好
    發(fā)表于 06-26 13:34

    從FA模型切換到Stage模型時(shí):module的切換說明

    mainAbility。mainElement標(biāo)簽名稱變更,Stage模型不在使用“.”符號(hào)。 package標(biāo)識(shí)HAP的包結(jié)構(gòu)名稱,在應(yīng)用內(nèi)保證唯一。/Stage模型使用name來保證應(yīng)用唯一
    發(fā)表于 06-05 08:16

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1321次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    如何借助大語(yǔ)言模型打造人工智能生態(tài)系統(tǒng)

    語(yǔ)言模型(LLMs)正以革命的姿態(tài)重塑我們與科技的互動(dòng)模式。然而,由于其龐大的規(guī)模,它們往往屬于資源密集型范疇,不僅大幅推高了成本,還造成了能源消耗的激增。本文深入剖析了大語(yǔ)言
    的頭像 發(fā)表于 04-27 09:19 ?1100次閱讀
    如何借助大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>打造人工智能生態(tài)系統(tǒng)

    NVIDIA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強(qiáng)功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強(qiáng)功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預(yù)覽版增加神經(jīng)網(wǎng)絡(luò)著
    的頭像 發(fā)表于 04-07 11:33 ?1202次閱讀

    ?VLM(視覺語(yǔ)言模型)?詳細(xì)解析

    視覺語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然
    的頭像 發(fā)表于 03-17 15:32 ?8913次閱讀
    ?VLM(視覺<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析