91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用Megatron-CNTRL為語言模型添加外部知識和可控性

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-20 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大型語言模型,如 Megatron 和 GPT-3 正在改變人工智能。我們對能夠利用這些模型來創(chuàng)建更好的對話式人工智能的應(yīng)用程序感到興奮。生成語言模型在會話式人工智能應(yīng)用中存在的一個主要問題是缺乏可控制性和與真實世界事實的一致性。在這項工作中,我們試圖通過使我們的大型語言模型既可控又與外部知識庫保持一致來解決這個問題。縮放語言模型提供了更高的流暢性、可控性和一致性。

story-generation-tree-2-2.png

圖 1 。故事是由外部知識庫中的模型進行調(diào)節(jié)而產(chǎn)生的,并由不同的關(guān)鍵詞如“駕駛”和“吸引”控制。

為了緩解一致性和可控性問題,已經(jīng)做了幾次嘗試。 Guan et al.( 2020 年) 通過微調(diào)引入常識知識來解決一致性問題。然而,這種天真的方法缺乏可解釋性和靈活性,無法決定何時以及從外部知識庫中合并什么。

控制文本生成 的許多功能都是可取的。最近,人們開發(fā)了不同的方法來控制生成,例如 使用預(yù)先添加到模型輸入的控制代碼 和 以目標(biāo)演員之前的談話為條件 。然而,這些控制條件是預(yù)先定義好的,并且其能力有限。它們?nèi)狈刂屏6?,比如在句子或子文檔級別。

我們通過允許在預(yù)先訓(xùn)練的語言模型中動態(tài)地結(jié)合外部知識以及控制文本生成來解決這些缺點。我們利用了我們的 Megatron 項目 ,它的目標(biāo)是在 GPU 集群上以光效的速度訓(xùn)練最大的 transformer 語言模型。我們提出了一個新的生成框架,威震天 CNTRL ,它使得我們的大型威震天語言模型既可以控制,又可以使用外部知識庫保持一致。

通過 土耳其機器人 使用人類求值器,我們展示了縮放語言模型提供了更高的流暢性、可控性和一致性,從而產(chǎn)生更真實的生成。結(jié)果,高達 91 . 5% 的生成故事被新關(guān)鍵字成功控制,并且高達 93 . 0% 的故事在 ROC 故事數(shù)據(jù)集 上被評估為一致。我們預(yù)計這一趨勢將繼續(xù)下去,從而激勵人們繼續(xù)投資于為對話型人工智能培訓(xùn)更大的模型。圖 1 顯示了生成過程的一個示例。

Megatron 控制框架

在問題設(shè)置中,我們用第一句話作為輸入來完成一個故事。我們使用外部知識庫來擴充生成過程,并開發(fā)出一種能夠指導(dǎo)和控制故事生成的方法。圖 2 顯示了框架由以下連接步驟組成:

在給定故事背景的情況下,關(guān)鍵詞預(yù)測模型首先預(yù)測下一個句子的關(guān)鍵詞集合。

然后,知識檢索器獲取生成的關(guān)鍵字并查詢外部知識庫,其中每個知識三元組使用模板轉(zhuǎn)換為自然語言“知識句子”。

一個語境知識 ranker 然后根據(jù)外部知識句與故事上下文的關(guān)聯(lián)程度對它們進行排序。

最后,一個生成器將故事語境以及排名第一的知識句作為輸入,生成故事中的下一句。輸出句子附加到故事上下文中,重復(fù)步驟 1-4 。

這個公式自然地允許通過用手動外部關(guān)鍵字代替關(guān)鍵字生成過程來控制。

poYBAGJfqM-ABKzAAACyYYUPtRE666.png

圖 2 。威震天控制:生成框架概述。

我們將關(guān)鍵詞生成建模為一個序列到序列的問題,它以故事上下文為輸入,輸出一系列關(guān)鍵字。我們使用 Megatron 模型(基于 GPT-2 )來生成關(guān)鍵字。知識檢索器是一個簡單的模型,它將關(guān)鍵字與知識庫相匹配。對于上下文知識 ranker ,我們首先構(gòu)建偽標(biāo)簽,通過嵌入一個名為 使用 的句子來找到與故事上下文最相關(guān)的知識。然后我們訓(xùn)練一個來自 Megatron 模型的 ranker (基于 BERT ),對由知識檢索器過濾的知識進行排序。然后,排名靠前的知識被附加到故事上下文的末尾,作為來自 Megatron 模型的另一個條件生成器的輸入,以生成下一個故事句子。

實驗裝置

我們使用 ROC 故事數(shù)據(jù)集進行實驗。它由 98161 個故事組成,每個故事都包含五句話。按照 Guan et al.( 2020 年) ,對于每個句子,通過用特殊占位符替換故事中的所有名稱和實體來執(zhí)行去毒性。在每個故事的第一句話中,我們的模型的任務(wù)是生成故事的其余部分,對于外部知識庫,我們使用了由 600k 知識三倍組成的 概念網(wǎng) 。我們分別用 Megatron 對預(yù)雨前的 BERT 和 GPT-2 模型進行上下文知識 ranker 和生成模型的初始化。關(guān)鍵字預(yù)測器和條件句生成器都遵循相同的設(shè)置。

質(zhì)量評價

我們用自動的困惑、故事重復(fù)和 4 克的標(biāo)準(zhǔn)來評價生成的故事的質(zhì)量,以及人類對連貫性、連貫性和流利性的評價。將 Megatron-CNTRL-124M 模型與表 1 和圖 3 中的 Yao et al.( 2018 年) 進行比較,我們獲得了更高的 4 克、一致性、流利性和一致性分數(shù),這表明了大型預(yù)處理變壓器模型的好處。將 Megatron-CNTRL-124M 與 Guan et al.( 2020 年) (不可控)進行比較,該模型還使用了表 1 所示的基于 GPT-2 的模型,我們注意到,我們的模型具有明顯的更好的一致性(+ 7 . 0% )和一致性(+ 7 . 5% )。我們將這歸因于檢索到的知識的使用。通過明確提供與下一句相關(guān)的事實,條件生成模型可以集中于生成文本。

poYBAGJfqQGAIYNAAAAjt4Pk__w884.png

表 1 。評估了以前最先進的模型以及我們的算法在不同的大小。困惑,故事重復(fù),和不同的 4-gram 被自動評估。

poYBAGJfqNWAOAoDAAA92cLucRs800.png

圖 3 。我們的模型和基線之間成對比較的人類評估。

當(dāng)模型尺寸從 124M 增加到 355M 、 774M 、 2B 和 8B 時,我們觀察到在困惑、清晰、一致性、連貫性和流暢性方面的一致性改善,這表明進一步縮小模型尺寸幾乎總能提高生成質(zhì)量。為了保持一致性,我們在 8B 參數(shù)下的最佳模型達到了 93% 的分數(shù),這意味著 93% 的生成故事被注釋為邏輯一致。

可控性評價

我們首先將關(guān)鍵字改為反義詞,然后詢問注釋者生成的故事是否根據(jù)新的關(guān)鍵字而變化,以此來評估模型的可控性。表 2 中的結(jié)果表明,從Megatron-CNTRL-124M-ANT (它是通過將關(guān)鍵字改為反義詞的受控版本)生成的 77 . 5% 是由新關(guān)鍵字控制的。將發(fā)電模型從 124M 擴展到 8B ,我們觀察到可控性得分提高到 91 . 5% ,這表明大型模型對可控性有顯著的幫助。

poYBAGJfqRKAAFiLAAAOWLAsoyQ777.png

表 2 。通過將關(guān)鍵字改為反義詞,人類對可控性的評價。

可控世代樣本

在下面的例子中,我們展示了Megatron-CNTRL 的能力。我們展示了在不同的發(fā)電粒度水平下的可控性。給出一個句子,Megatron-CNTRL 提出控制關(guān)鍵字。用戶可以使用它們,也可以提供他們選擇的外部控件關(guān)鍵字。這個過程一直持續(xù)到整個故事生成的結(jié)尾。

例 1:我們提供句子“[FEMALE]在一次公路旅行中”和一開始的控制關(guān)鍵字“ driving ”。根據(jù)這個輸入 Megatron 控制產(chǎn)生“她在路上開車”的條件是“開車”。然后,該模型預(yù)測下兩步的新關(guān)鍵詞“突然”和“拉動,檢查”,并生成相應(yīng)的故事句。在生成最后一個句子之前,我們再次提供外部控制關(guān)鍵字“ help ”。我們觀察到,生成的句子“它吸煙嚴重,需要幫助”跟在控制關(guān)鍵字后面。

視頻 1 。使用“ driving ”關(guān)鍵字生成的故事。

例 2:我們給出與示例 1 相同的輸入語句:“[FEMALE]在一次公路旅行中”,但是在開始時使用了不同的控制關(guān)鍵字“ excited ”。因此,Megatron-CNTRL 基于“激動”產(chǎn)生了一個新的故事句子:“她興奮是因為她終于見到了(女性)”。在生成完整的故事之后,我們看到這個新的例子展示了一個關(guān)于一只巨大黑熊的可怕故事。由于外部情緒控制關(guān)鍵字引入的情感體驗,它比示例 1 中的更具吸引力。

視頻 2 。用“激動”關(guān)鍵字生成的故事。

結(jié)論

我們的工作證明了將大型的、經(jīng)過訓(xùn)練的模型與外部知識庫相結(jié)合的好處以及生成過程的可控性。我們未來的工作將是使知識檢索器可學(xué)習(xí),并為更長的世代引入結(jié)構(gòu)級控制。

例 2 :我們給出與示例 1 相同的輸入語句:“[FEMALE]在一次公路旅行中”,但是在開始時使用了不同的控制關(guān)鍵字“ excited ”。因此,Megatron-CNTRL 基于“激動”產(chǎn)生了一個新的故事句子:“她興奮是因為她終于見到了(女性)”。在生成完整的故事之后,我們看到這個新的例子展示了一個關(guān)于一只巨大黑熊的可怕故事。由于外部情緒控制關(guān)鍵字引入的情感體驗,它比示例 1 中的更具吸引力。

結(jié)論

我們的工作證明了將大型的、經(jīng)過訓(xùn)練的模型與外部知識庫相結(jié)合的好處以及生成過程的可控性。我們未來的工作將是使知識檢索器可學(xué)習(xí),并為更長的世代引入結(jié)構(gòu)級控制。

關(guān)于作者

Peng Xu是香港科技大學(xué)的候選人。他的研究重點是情感計算和自然語言生成。通過構(gòu)建能夠理解人類情感的系統(tǒng),他旨在實現(xiàn)更好的人機交互,并將更多自然世代的界限從機器上推出來。他在中國科學(xué)技術(shù)大學(xué)獲得電子工程和信息科學(xué)學(xué)士學(xué)位。

Mostofa Patwary 是 NVIDIA 應(yīng)用深度學(xué)習(xí)研究團隊的高級深度學(xué)習(xí)研究科學(xué)家。 Mostofa 的研究興趣遍及自然語言處理、可擴展深度學(xué)習(xí)、高性能計算和算法工程等領(lǐng)域。在加入 NVIDIA 之前, Mostofa 在百度硅谷人工智能實驗室( Silicon Valley AI Lab )致力于擴展大型語言模型和擴展深度學(xué)習(xí)應(yīng)用程序的可預(yù)測性。 Mostofa 還為能夠在超級計算機上運行的機器學(xué)習(xí)中的幾個核心內(nèi)核開發(fā)大規(guī)模代碼做出了重大貢獻。

Mohammad Shoeybi 是一位高級研究科學(xué)家,在 NVIDIA 管理應(yīng)用深度學(xué)習(xí)研究小組的 NLP 團隊。他的團隊專注于語言建模, NLP 應(yīng)用,如問答和對話系統(tǒng),以及大規(guī)模培訓(xùn)。他獲得了博士學(xué)位。 2010 年從斯坦福大學(xué)畢業(yè)。在 NVIDIA 之前,他曾在 DeepMind 和美國百度工作,致力于將深度學(xué)習(xí)和強化學(xué)習(xí)應(yīng)用到應(yīng)用程序中。

Raul Puri 是 OpenAI 的研究科學(xué)家。勞爾在加州大學(xué)伯克利分校獲得電子工程和計算機科學(xué)學(xué)士學(xué)位,重點研究生物醫(yī)學(xué)工程。

Pascale Fung 是香港香港科技大學(xué)計算機科學(xué)與工程系的 ELE 〔 ZDK0 〕電子與計算機工程系教授。馮教授獲哥倫比亞大學(xué)計算機科學(xué)博士學(xué)位。她曾在 at & T 貝爾實驗室、 BBN 系統(tǒng)與技術(shù)公司、 LIMSI 、 CNRS 、日本京都大學(xué)信息科學(xué)系和法國巴黎中央經(jīng)濟學(xué)院工作和學(xué)習(xí)。馮教授能流利地講七種歐洲和亞洲語言,他對多語種演講和自然語言問題特別感興趣。

Anima Anandkumar 在學(xué)術(shù)界和工業(yè)界擁有雙重地位。她是加州理工學(xué)院 CMS 系的布倫教授和 NVIDIA 的機器學(xué)習(xí)研究主任。在 NVIDIA ,她領(lǐng)導(dǎo)著開發(fā)下一代人工智能算法的研究小組。在加州理工學(xué)院,她是 Dolcit 的聯(lián)合主任,與 Yisong Yue 共同領(lǐng)導(dǎo) AI4science initiative 。

Bryan Catanzaro 是 NVIDIA 應(yīng)用深度學(xué)習(xí)研究的副總裁,他領(lǐng)導(dǎo)一個團隊尋找使用人工智能的新方法來改善項目,從語言理解到計算機圖形和芯片設(shè)計。布萊恩在 NVIDIA 的研究導(dǎo)致了 cuDNN 的誕生,最近,他幫助領(lǐng)導(dǎo)了發(fā)明 dlss2 。 0 的團隊。在 NVIDIA 之前,他曾在百度創(chuàng)建下一代系統(tǒng),用于培訓(xùn)和部署端到端、基于深度學(xué)習(xí)的語音識別。布萊恩在加州大學(xué)伯克利分校獲得了電子工程和計算機科學(xué)博士學(xué)位

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5598

    瀏覽量

    109810
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124420
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    知識分享-嵌入式系統(tǒng)可靠模型

    嵌入式系統(tǒng)可靠設(shè)計技術(shù)及案例解析1.3嵌入式系統(tǒng)可靠模型嵌入式系統(tǒng)可靠模型分為兩種:串聯(lián)結(jié)構(gòu)模型
    的頭像 發(fā)表于 03-11 16:43 ?46次閱讀
    <b class='flag-5'>知識</b>分享-嵌入式系統(tǒng)可靠<b class='flag-5'>性</b><b class='flag-5'>模型</b>

    開發(fā)知識庫測試添加知識

    文檔類型的知識要等待數(shù)據(jù)校驗完成后才能上架 可以點擊知識名稱查看知識詳情 等待后端處理完成可以點擊知識列表的上架 在智能體中知識庫的位置點
    發(fā)表于 03-06 15:07

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行預(yù)訓(xùn)練,學(xué)會語言
    的頭像 發(fā)表于 02-02 16:36 ?931次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    【「龍芯之光 自主可控處理器設(shè)計解析」閱讀體驗】+可測試設(shè)計章節(jié)閱讀與自己的一些感想

    可控性是指的可以通過輸入端口控制內(nèi)部引線邏輯狀態(tài) 可觀測指的是可以將內(nèi)部 引線邏輯 狀態(tài)引到指定的輸出端口,外部觀測到。 上述 兩者 是可測試 最核心的手段,舉個例子可以通過某個引
    發(fā)表于 01-15 23:30

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對研發(fā)和運維團隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型訓(xùn)練框架,提供了靈活高效的并行化
    的頭像 發(fā)表于 10-21 10:55 ?1166次閱讀
    借助NVIDIA <b class='flag-5'>Megatron</b>-Core大<b class='flag-5'>模型</b>訓(xùn)練框架提高顯存使用效率

    四款簡道云的開源替代方案:低成本 高可控 搭建專屬芯片行業(yè)業(yè)務(wù)流程管理系統(tǒng)

    具低成本與高可控性,讓您搭建出一個完全貼合芯片行業(yè)特色的業(yè)務(wù)流程管理系統(tǒng)
    的頭像 發(fā)表于 09-08 10:06 ?1110次閱讀

    知識分享 | 使用MXAM進行AUTOSAR模型的靜態(tài)分析:Embedded Coder與TargetLink模型

    知識分享在知識分享欄目中,我們會定期與讀者分享來自MES模賽思的基于模型的軟件開發(fā)相關(guān)Know-How干貨,關(guān)注公眾號,隨時掌握基于模型的軟件設(shè)計的技術(shù)
    的頭像 發(fā)表于 08-27 10:04 ?738次閱讀
    <b class='flag-5'>知識</b>分享 | 使用MXAM進行AUTOSAR<b class='flag-5'>模型</b>的靜態(tài)分析:Embedded Coder與TargetLink<b class='flag-5'>模型</b>

    移遠通信飛鳶AIoT大模型應(yīng)用算法成功通過備案

    近日,第十二批境內(nèi)深度合成服務(wù)算法備案信息發(fā)布,移遠通信"飛鳶AIoT大模型應(yīng)用算法"榜上有名。這標(biāo)志著該算法在技術(shù)合規(guī)、安全可控性及社會價值上獲得權(quán)威認可,彰顯了移遠通信在
    的頭像 發(fā)表于 08-06 08:48 ?932次閱讀
    移遠通信飛鳶AIoT大<b class='flag-5'>模型</b>應(yīng)用算法成功通過備案

    領(lǐng)跑AIoT的關(guān)鍵一步!移遠大模型應(yīng)用算法成功通過備案

    近日,第十二批境內(nèi)深度合成服務(wù)算法備案信息發(fā)布“飛鳶AIoT大模型應(yīng)用算法”榜上有名這標(biāo)志著該算法在技術(shù)合規(guī)、安全可控性以及社會價值上獲得權(quán)威認可彰顯了移遠通信在AI領(lǐng)域的深厚技術(shù)積累與行業(yè)
    的頭像 發(fā)表于 08-05 19:05 ?888次閱讀
    領(lǐng)跑AIoT的關(guān)鍵一步!移遠大<b class='flag-5'>模型</b>應(yīng)用算法成功通過備案

    【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署

    1、ollama平臺搭建 ollama可以快速地部署開源大模型,網(wǎng)址https://ollama.com, 試用該平臺,可以在多平臺上部署 Deepseek-R1, Qwen3, Llama
    發(fā)表于 07-19 15:45

    模型在半導(dǎo)體行業(yè)的應(yīng)用可行分析

    有沒有這樣的半導(dǎo)體專用大模型,能縮短芯片設(shè)計時間,提高成功率,還能幫助新工程師更快上手?;蛘哕浻布梢栽谠O(shè)計和制造環(huán)節(jié)確實有實際應(yīng)用。會不會存在AI缺陷檢測。 能否應(yīng)用在工藝優(yōu)化和預(yù)測維護中
    發(fā)表于 06-24 15:10

    小白學(xué)大模型:從零實現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1321次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    如何借助大語言模型打造人工智能生態(tài)系統(tǒng)

    語言模型(LLMs)正以革命的姿態(tài)重塑我們與科技的互動模式。然而,由于其龐大的規(guī)模,它們往往屬于資源密集型范疇,不僅大幅推高了成本,還造成了能源消耗的激增。本文深入剖析了大語言
    的頭像 發(fā)表于 04-27 09:19 ?1100次閱讀
    如何借助大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>打造人工智能生態(tài)系統(tǒng)

    PaddleNLPGPT-2模型制作FineWeb二進制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術(shù)細節(jié)。本文主要針對大語言模型
    的頭像 發(fā)表于 03-21 18:24 ?4334次閱讀
    <b class='flag-5'>用</b>PaddleNLP<b class='flag-5'>為</b>GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制預(yù)訓(xùn)練數(shù)據(jù)集

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然
    的頭像 發(fā)表于 03-17 15:32 ?8924次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析