91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

河套IT TALK94:(原創(chuàng))GPT技術(shù)揭秘:探索生成式模型的訓(xùn)練之道

共熵服務(wù)中心 ? 來(lái)源:未知 ? 2023-06-20 19:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 引言

人工智能機(jī)器學(xué)習(xí),都是由場(chǎng)景和需求驅(qū)動(dòng)的。找不到運(yùn)用場(chǎng)景的機(jī)器學(xué)習(xí)技術(shù),也沒有生命力。越有挑戰(zhàn)性的場(chǎng)景,越能激發(fā)人們用機(jī)器學(xué)習(xí)尋找解決方案的激情和動(dòng)力。人們總是在問題中尋找解決方案,砥礪前行。

最近在嘗試梳理機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容,發(fā)現(xiàn)知識(shí)量巨大,信息龐雜,需要梳理一個(gè)主線,才能更好理解相關(guān)概念。所以很多研究機(jī)器學(xué)習(xí)的技術(shù),都是順著如下的脈絡(luò)來(lái)展開的:

1. 我們準(zhǔn)備解決什么問題?

2. 我們準(zhǔn)備按照什么方式進(jìn)行訓(xùn)練學(xué)習(xí)?

3. 我們準(zhǔn)備選定什么樣的模型來(lái)應(yīng)對(duì)?

4. 針對(duì)模型,我們應(yīng)該采取什么樣特定架構(gòu)或網(wǎng)絡(luò)?

5. 針對(duì)這個(gè)模型和網(wǎng)絡(luò),我們將采用什么樣的算法

6. 這個(gè)算法有什么優(yōu)勢(shì)和劣勢(shì)?

這幾個(gè)維度的問題解答,相信能涵蓋絕大多數(shù)人對(duì)機(jī)器學(xué)習(xí)某些特定場(chǎng)景的技術(shù)和知識(shí)領(lǐng)域的理解。近期看了很多關(guān)于機(jī)器學(xué)習(xí)、自然語(yǔ)言處理以及GPT相關(guān)技術(shù)的文章,有一些心得體會(huì),今天準(zhǔn)備按照上述問題的脈絡(luò),分享給大家,希望能有所幫助。

2. 自然語(yǔ)言處理NLP(Natural Language Processing)

人類,作為智能生物,交流是離不開自然語(yǔ)言的。如何讓機(jī)器理解人的語(yǔ)言,并能正常和人類進(jìn)行語(yǔ)言互動(dòng),就成為迫切需要解決的重要問題。不管是文字類,還是語(yǔ)音類,都會(huì)存在所謂的語(yǔ)義分析理解、情感分析、機(jī)器翻譯問題。從自然語(yǔ)言處理的過(guò)程來(lái)看,不免要經(jīng)歷:分詞和詞性標(biāo)注、詞法分析、句法分析、實(shí)體識(shí)別、語(yǔ)義角色標(biāo)注、句法語(yǔ)義分析、情感分析、語(yǔ)法歸納和機(jī)器翻譯等等。人類差不多有7000種活躍的語(yǔ)言,其中有文字支撐的,特別是在很多消費(fèi)電子產(chǎn)品里能正常切換使用的,不過(guò)百種。不過(guò)這也足夠給自然語(yǔ)言處理帶來(lái)巨大的挑戰(zhàn)。不同文化背景,可能意味著完全不同的詞語(yǔ)分割、模糊和引發(fā)歧義的語(yǔ)義、或嚴(yán)格或?qū)捤傻恼Z(yǔ)法靈活性,以及俗語(yǔ)、諺語(yǔ)等等,甚至?xí)砍兜礁鞣N圖形學(xué)和圖像識(shí)別的技術(shù)。

3. 大模型(Large language model)

既然是自然語(yǔ)言處理,就一定離不開語(yǔ)言模型。我們現(xiàn)在聽的很多的所謂大模型,就是大型語(yǔ)言模型的簡(jiǎn)稱,英文是LLM,也就是 Large language model的縮寫。大模型也沒有什么神秘的,無(wú)非就是“大”。目前對(duì)于這個(gè)多“大”才算是大模型,還沒有一個(gè)官方權(quán)威的界定。但經(jīng)驗(yàn)上來(lái)講,大模型通常指的是至少具有數(shù)百萬(wàn)參數(shù)的深度學(xué)習(xí)模型。而類似GPT-4的參數(shù)已經(jīng)達(dá)到了170萬(wàn)億的量級(jí)。上圖是近年來(lái)已有的大模型LLM(大于100億參數(shù))的時(shí)間線。黃色標(biāo)記此大模型已經(jīng)開源。

6a447320-0f5a-11ee-962d-dac502259ad0.png

大模型一般是通用模型,在廣泛任務(wù)中表現(xiàn)出色,而且通常大模型已經(jīng)在大型語(yǔ)料庫(kù)上進(jìn)行了“預(yù)訓(xùn)練”。

只要是語(yǔ)言模型,不管是大還是小,其實(shí)都是一個(gè)基于統(tǒng)計(jì)學(xué)的模型。不管人們?cè)趺慈グb,把這個(gè)說(shuō)成是“推理”,但目前的技術(shù)就是建立在概率基礎(chǔ)上的。無(wú)非就是根據(jù)給定的輸入文本,預(yù)測(cè)下一個(gè)可能的單詞或字符序列。通過(guò)分析大量的文本數(shù)據(jù),學(xué)習(xí)詞匯的出現(xiàn)概率和上下文之間的關(guān)系,從而能夠生成連貫的文本或評(píng)估給定文本的合理性。

4. 大模型的最小單元Token

語(yǔ)言模型最基礎(chǔ)的模型是詞袋模型(Bag-of-Words Model)。作為一種簡(jiǎn)化的文本表示方法,將文本看作是一個(gè)袋子(或集合)中的詞語(yǔ)的無(wú)序集合,忽略了詞語(yǔ)的順序和語(yǔ)法結(jié)構(gòu)。在詞袋模型中,每個(gè)文檔或句子被表示為一個(gè)向量,向量的每個(gè)維度對(duì)應(yīng)一個(gè)詞語(yǔ),維度的值表示該詞語(yǔ)在文檔中出現(xiàn)的次數(shù)或其他統(tǒng)計(jì)信息。詞袋模型假設(shè)詞語(yǔ)的出現(xiàn)是獨(dú)立的,只關(guān)注詞語(yǔ)的頻率和出現(xiàn)情況,忽略了詞語(yǔ)之間的順序和上下文信息。這種模型簡(jiǎn)化了文本的表示和處理,常用于文本分類、信息檢索等任務(wù)。但是對(duì)于自然語(yǔ)言生成就無(wú)能為力了。在此基礎(chǔ)上將連續(xù)的文本流切分成有意義的單元,以便于模型對(duì)其進(jìn)行處理和理解,這就是Token化(Tokenization)。"token"是指文本中的最小單位或基本元素。它可以是一個(gè)單詞、一個(gè)字、一個(gè)字符或其他語(yǔ)言單位,根據(jù)任務(wù)和需求而定。下圖就是GPT-3的標(biāo)記化(Tokenization)示例:

6a991e84-0f5a-11ee-962d-dac502259ad0.png

在大模型中,token 的選擇和處理方式往往是根據(jù)具體任務(wù)和訓(xùn)練數(shù)據(jù)來(lái)確定的。在訓(xùn)練一個(gè)通用模型時(shí),可以使用更粗粒度的 tokenization 方法,如將單詞作為 token。而在某些特定任務(wù),如命名實(shí)體識(shí)別(Named Entity Recognition)或語(yǔ)言翻譯(Machine Translation)中,可能需要更細(xì)粒度的 tokenization,以便更好地捕捉特定領(lǐng)域或語(yǔ)言的信息。

不同語(yǔ)言的Token也會(huì)有很大差別。拿英文和漢語(yǔ)為例,在英語(yǔ)中,通常將單詞作為 token,而在漢語(yǔ)中,單個(gè)漢字級(jí)別的 tokenization 更為常見。漢語(yǔ)中的詞匯通常沒有復(fù)數(shù)形式、時(shí)態(tài)變化或進(jìn)行時(shí)等形態(tài)變化,因此,對(duì)于一些任務(wù),如詞性標(biāo)注或命名實(shí)體識(shí)別,將單個(gè)詞作為 token 可能更加合適。而在英語(yǔ)中,單詞的不同形式(如單數(shù)和復(fù)數(shù)、時(shí)態(tài)等)可能被視為不同的 token。漢語(yǔ)中的合成詞較為常見,可以通過(guò)將多個(gè)單字組合而成。因此,在處理漢語(yǔ)時(shí),可能需要將合成詞進(jìn)行拆分,將其組成部分作為單獨(dú)的 token 進(jìn)行處理。而在英語(yǔ)中,合成詞的形式較少,單詞本身就可以作為一個(gè)獨(dú)立的 token。在英語(yǔ)中,單詞之間由空格或標(biāo)點(diǎn)符號(hào)分隔,因此可以相對(duì)容易地進(jìn)行單詞級(jí)別的 tokenization。而在漢語(yǔ)中,字詞之間沒有明確的分隔符,需要進(jìn)行中文分詞來(lái)將連續(xù)的漢字序列劃分為有意義的詞匯。所以在漢字處理上,比英文多了分詞這個(gè)步驟。

5. 無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)

6adc1e6e-0f5a-11ee-962d-dac502259ad0.png

有了模型,我們接下來(lái)思考的就是,應(yīng)該用什么方式進(jìn)行訓(xùn)練?語(yǔ)言模型帶有很強(qiáng)的內(nèi)容生成屬性和靈活性,也就是不存在唯一解。這種模型,就絕對(duì)不能采用老是想著最優(yōu)策略的強(qiáng)化學(xué)習(xí)方式。而且,訓(xùn)練這種語(yǔ)言模型,也不適合用通過(guò)使用標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)從輸入到輸出的映射關(guān)系的監(jiān)督學(xué)習(xí)(Supervised learning),因?yàn)槿祟愓Z(yǔ)言信息量太大,標(biāo)記不過(guò)來(lái)。而最理想的方式就是從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的隱藏結(jié)構(gòu)、模式或分布的無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)。當(dāng)然,也不排除所謂的同時(shí)利用有標(biāo)簽和無(wú)標(biāo)簽的數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí)的半監(jiān)督學(xué)習(xí)(Semi-supervised learning),或者從無(wú)監(jiān)督任務(wù)中自動(dòng)生成標(biāo)簽來(lái)進(jìn)行學(xué)習(xí)。通過(guò)設(shè)計(jì)任務(wù)或目標(biāo)函數(shù),利用數(shù)據(jù)樣本中的已知信息進(jìn)行預(yù)測(cè)或重構(gòu)的自我監(jiān)督學(xué)習(xí)(Self-supervised learning)。

既然是無(wú)監(jiān)督學(xué)習(xí)為主,那么應(yīng)該采用什么樣的網(wǎng)絡(luò)架構(gòu)來(lái)學(xué)習(xí)合適呢?

6. 反饋神經(jīng)網(wǎng)絡(luò)(Feedback Neural Networks)

當(dāng)然是神經(jīng)網(wǎng)絡(luò)。最早人們想到的用于語(yǔ)言模型處理的神經(jīng)網(wǎng)絡(luò)是反饋神經(jīng)網(wǎng)絡(luò)(Feedback Neural Networks)。存在反饋連接,信息可以從后續(xù)時(shí)間步驟傳遞回前面的時(shí)間步驟??梢詫?duì)動(dòng)態(tài)系統(tǒng)的行為進(jìn)行建模和預(yù)測(cè),如控制系統(tǒng)、運(yùn)動(dòng)軌跡預(yù)測(cè)等。我們必須承認(rèn),在處理時(shí)序任務(wù)方面反饋神經(jīng)網(wǎng)絡(luò)著實(shí)表現(xiàn)出色,如語(yǔ)音識(shí)別、自然語(yǔ)言處理中的語(yǔ)言模型、機(jī)器翻譯等。

6b268bde-0f5a-11ee-962d-dac502259ad0.png

大家一般會(huì)想到的反饋神經(jīng)網(wǎng)絡(luò)就是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN),是一類具有循環(huán)連接的神經(jīng)網(wǎng)絡(luò),能夠保留先前狀態(tài)的信息,主要由循環(huán)層和激活函數(shù)組成。作為一種遞歸的神經(jīng)網(wǎng)絡(luò),適用于處理序列數(shù)據(jù)的任務(wù),如自然語(yǔ)言處理、語(yǔ)音識(shí)別、時(shí)間序列分析等。如果用于處理文本,它的核心思想是在處理每個(gè)輸入時(shí),將前一個(gè)時(shí)刻的隱藏狀態(tài)傳遞給當(dāng)前時(shí)刻,并結(jié)合當(dāng)前輸入進(jìn)行計(jì)算。這種遞歸的結(jié)構(gòu)使得RNN能夠捕捉到序列中的上下文信息。

6b4d4760-0f5a-11ee-962d-dac502259ad0.png

然而,傳統(tǒng)的RNN在處理長(zhǎng)序列時(shí)會(huì)面臨梯度消失(Vanishing Gradient)和梯度爆炸(Exploding Gradient)的問題。梯度消失指的是在深層神經(jīng)網(wǎng)絡(luò)中,反向傳播過(guò)程中梯度逐漸變小,并最終變得非常接近于零的現(xiàn)象。當(dāng)網(wǎng)絡(luò)層數(shù)較多時(shí),梯度在每一層中都會(huì)乘以網(wǎng)絡(luò)參數(shù)的權(quán)重,因此,如果權(quán)重小于1,則梯度會(huì)指數(shù)級(jí)地逐漸減小,導(dǎo)致在淺層網(wǎng)絡(luò)中梯度無(wú)法有效傳遞到較深的層,從而使得較深層的參數(shù)更新緩慢或停止更新,影響網(wǎng)絡(luò)的訓(xùn)練效果。梯度爆炸指的是在深層神經(jīng)網(wǎng)絡(luò)中,反向傳播過(guò)程中梯度逐漸增大,并最終變得非常大的現(xiàn)象。當(dāng)網(wǎng)絡(luò)層數(shù)較多時(shí),梯度在每一層中都會(huì)乘以網(wǎng)絡(luò)參數(shù)的權(quán)重,如果權(quán)重大于1,則梯度會(huì)指數(shù)級(jí)地逐漸增大,導(dǎo)致在淺層網(wǎng)絡(luò)中梯度變得非常大,進(jìn)而導(dǎo)致網(wǎng)絡(luò)參數(shù)更新過(guò)大,使得網(wǎng)絡(luò)無(wú)法收斂。不管是梯度消失,還是梯度爆炸問題,都會(huì)導(dǎo)致深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得困難,甚至無(wú)法收斂到有效的結(jié)果。

6b858ed6-0f5a-11ee-962d-dac502259ad0.png

于是人們又改進(jìn)了循環(huán)神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)變體長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),用于解決傳統(tǒng)RNN在處理長(zhǎng)期依賴問題上的挑戰(zhàn)。LSTM通過(guò)引入門控單元結(jié)構(gòu),可以更有效地處理和記憶長(zhǎng)期依賴關(guān)系。LSTM通過(guò)引入門控機(jī)制來(lái)解決梯度消失和梯度爆炸的問題。LSTM單元包含遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)。LSTM通過(guò)這些門的控制,可以有選擇性地遺忘和更新信息,能夠更好地捕捉長(zhǎng)期依賴關(guān)系,有助于控制信息的流動(dòng)和記憶的更新,從而解決了梯度消失和梯度爆炸的問題。

7. Transformer轉(zhuǎn)換器

上述的LSTM看似完美,其實(shí)也有硬傷。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)都屬于反饋神經(jīng)網(wǎng)絡(luò)(Feedback Neural Networks),在處理序列數(shù)據(jù)時(shí)是逐步進(jìn)行的,每個(gè)時(shí)間步依賴于前一個(gè)時(shí)間步的計(jì)算結(jié)果。這種順序計(jì)算導(dǎo)致了計(jì)算的串行性,無(wú)法同時(shí)進(jìn)行多個(gè)計(jì)算。而且這種局部信息交互的方式可能無(wú)法充分利用整個(gè)序列中的上下文信息。盡管LSTM緩解了梯度消失或梯度爆炸的問題,但仍然存在一定的限制。

6bb7c6bc-0f5a-11ee-962d-dac502259ad0.png

而新的技術(shù)Transformer又打破了僵局。Transformer是前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks)。前饋神經(jīng)網(wǎng)絡(luò)中,信息只沿著前向的方向傳遞,沒有循環(huán)連接。適用于各種監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)任務(wù),如分類、回歸、特征提取等。Transformer作為一種基于自注意力機(jī)制的模型,用于處理序列數(shù)據(jù),能夠在每個(gè)位置對(duì)輸入序列的所有位置進(jìn)行注意力計(jì)算。這使得模型能夠根據(jù)輸入序列的不同部分自適應(yīng)地分配注意力權(quán)重,能夠在一個(gè)序列中捕捉到不同位置之間的依賴關(guān)系,更加靈活地捕捉關(guān)鍵信息。由于Transformer是基于注意力機(jī)制的前饋神經(jīng)網(wǎng)絡(luò),可以在一次前向傳播中同時(shí)處理整個(gè)序列,因此可以進(jìn)行更有效的并行計(jì)算。這使得Transformer摒棄了傳統(tǒng)的遞歸結(jié)構(gòu),而是采用了并行計(jì)算的方式,在處理長(zhǎng)序列時(shí)更為高效。Transformer由編碼器和解碼器組成,編碼器負(fù)責(zé)將輸入序列編碼成一系列特征表示,解碼器則根據(jù)這些特征表示生成目標(biāo)序列,Transformer通過(guò)注意力機(jī)制使每個(gè)位置都能夠在編碼和解碼階段獲得序列中所有位置的信息,實(shí)現(xiàn)了全局的信息交互,能夠更好地捕捉上下文關(guān)系。使得它可以廣泛應(yīng)用于機(jī)器翻譯和生成式任務(wù)中。

8. 生成式與訓(xùn)練轉(zhuǎn)換器GPT(Generative Pre-trained Transformer)

6c05ac7e-0f5a-11ee-962d-dac502259ad0.png

而大家熟知的GPT正是使用了最后這個(gè)Transformer技術(shù)。其實(shí)這也是GPT名字的由來(lái)。GPT是生成式與訓(xùn)練轉(zhuǎn)換器(Generative Pre-trained Transformer)的縮寫。GPT通過(guò)對(duì)提出的問題進(jìn)行預(yù)測(cè)(Generate)來(lái)生成一篇回答。GPT不是在一次預(yù)測(cè)中輸出整篇回答,而是首先預(yù)測(cè)回答的第一個(gè)字,然后將預(yù)測(cè)的第一個(gè)字與問題連接起來(lái),形成一個(gè)延長(zhǎng)一個(gè)字的輸入句子,并再次輸入給GPT。GPT進(jìn)行第二次預(yù)測(cè),得到回答的第二個(gè)字,然后將這個(gè)字續(xù)在輸入句子后,再次輸入給GPT,以此類推。這個(gè)過(guò)程一直重復(fù)進(jìn)行,直到GPT預(yù)測(cè)出"結(jié)束符"(或達(dá)到約定的最大長(zhǎng)度,此時(shí)回答過(guò)程結(jié)束,GPT生成了一篇完整的回答。這種逐步地一個(gè)字一個(gè)字生成整篇回答的過(guò)程被稱為"自回歸"—— Auto-Regression。在自回歸過(guò)程中,GPT進(jìn)行多次預(yù)測(cè)而不僅僅是一次預(yù)測(cè)。因此,使用過(guò)ChatGPT的用戶可能會(huì)發(fā)現(xiàn)它在回答問題時(shí)逐字逐字地產(chǎn)生輸出,速度較慢。這是因?yàn)榇笮偷腉PT模型進(jìn)行一次預(yù)測(cè)(輸出一個(gè)字)本身就需要一定的時(shí)間。

9. 轉(zhuǎn)換器(Transformer)與注意力(Attention)

6c286c8c-0f5a-11ee-962d-dac502259ad0.png

從內(nèi)部實(shí)現(xiàn)細(xì)節(jié)來(lái)看,輸入句子首先通過(guò)一系列堆疊在一起的Transformer組件。下一層Transformer的輸出作為上一層Transformer的輸入。GPT看到的"字"是數(shù)值化的表示,即一組向量。整個(gè)語(yǔ)言中有V個(gè)字(字表)。GPT為每個(gè)字分配一個(gè)向量,這些向量也是GPT的參數(shù)。輸入句子中的每個(gè)字向量被傳遞給第一個(gè)Transformer,它對(duì)每個(gè)字生成一個(gè)向量??梢詫⑦@個(gè)過(guò)程看作是Transformer對(duì)每個(gè)字向量進(jìn)行了"變形"。下一層Transformer將其輸出的字向量傳遞給上一層Transformer,直到最頂層的Transformer為句子中的每個(gè)字生成一個(gè)向量。通過(guò)多層Transformer的處理,字向量在傳遞過(guò)程中發(fā)生了變化,這些變化可以視為Transformer對(duì)字向量進(jìn)行了"變形"。更重要的是,在這個(gè)變形的過(guò)程中,每個(gè)字的向量融合了上下文中所有字的信息。這就是Transformer中的Attention(注意力)組件的作用。Attention首先利用每個(gè)字的向量計(jì)算出query向量、key向量和value向量。query向量和key向量指示了這個(gè)字與其他字(包括自身)如何相關(guān)聯(lián),而value向量則包含了字本身的含義信息。Attention使用query向量和所有字的key向量計(jì)算出對(duì)應(yīng)的注意力得分,這個(gè)得分表示這個(gè)字在多大程度上將注意力分配給其他字。然后,Attention使用這些注意力得分對(duì)所有字的value向量進(jìn)行加權(quán)求和,得到對(duì)于該字的輸出向量。可以認(rèn)為,Attention改變了該字的向量,使得變化后的向量通過(guò)不同的注意力權(quán)重融合了上下文中所有字的信息。

GPT的全部參數(shù)包括:

  • N個(gè)Transformer中組合多個(gè)Attention頭的輸出矩陣,以及全連接神經(jīng)網(wǎng)絡(luò)的參數(shù)(包括多個(gè)權(quán)重矩陣和偏置向量);

  • 每個(gè)Transformer中H個(gè)Attention頭的Q、K和V矩陣;

  • 預(yù)測(cè)下一個(gè)字的全連接神經(jīng)網(wǎng)絡(luò)的參數(shù)(包括多個(gè)權(quán)重矩陣和偏置向量);

  • 初始的字向量。

正是這些參數(shù)使得GPT模型具有我們希望它具備的行為。例如,一個(gè)Attention頭的Q、K和V矩陣,其中V矩陣對(duì)輸入給Attention的字向量進(jìn)行線性變換,得到該字的value向量,這種線性變換在某種程度上表達(dá)了該字某個(gè)方面的含義(抽象)。Q和K矩陣分別對(duì)字向量進(jìn)行線性變換,得到該字的query和key向量,也編碼了該字與其他字相關(guān)聯(lián)的信息。再例如,位于Transformer之上的預(yù)測(cè)神經(jīng)網(wǎng)絡(luò),其參數(shù)編碼了如何根據(jù)句子的表示(即最后一個(gè)字的向量)來(lái)預(yù)測(cè)下一個(gè)字的信息。

10. GPT是如何訓(xùn)練出來(lái)的?

所有這些參數(shù)都是通過(guò)“訓(xùn)練”得到的。一開始,這些參數(shù)被初始化為隨機(jī)值,此時(shí)它們沒有任何含義和功能,GPT也無(wú)法很好地預(yù)測(cè)下一個(gè)字。訓(xùn)練者準(zhǔn)備了一個(gè)龐大的語(yǔ)料庫(kù),其中包含許多合法的句子。從合法句子中隨機(jī)選擇一部分作為訓(xùn)練樣本,以最后一個(gè)字作為標(biāo)簽,將前面的字作為輸入,從而構(gòu)造了一個(gè)訓(xùn)練樣本。許多這樣的訓(xùn)練樣本構(gòu)成了訓(xùn)練集。

將訓(xùn)練樣本的句子輸入到GPT中,GPT將預(yù)測(cè)下一個(gè)字,準(zhǔn)確地說(shuō)是生成字表中所有字的概率分布。然后將正確的下一個(gè)字(標(biāo)簽)與GPT的輸出進(jìn)行比較,計(jì)算出誤差(交叉熵?fù)p失)。接下來(lái),在GPT模型上執(zhí)行反向傳播,使用梯度下降法或其變體更新GPT的所有參數(shù)。

通過(guò)逐個(gè)樣本地(實(shí)際上是一批樣本)進(jìn)行這一過(guò)程的迭代,即“計(jì)算誤差+反向傳播+更新參數(shù)”,最終調(diào)整GPT的參數(shù)使誤差最小化。此時(shí),GPT能夠很好地預(yù)測(cè)句子的下一個(gè)字,訓(xùn)練完成。

通過(guò)對(duì)GPT技術(shù)的揭秘,今天我們深入了解了生成式模型的訓(xùn)練之道。相信大家能清晰看到從自然語(yǔ)言處理(NLP)到生成式與訓(xùn)練轉(zhuǎn)換器(GPT)的技術(shù)發(fā)展脈絡(luò)。隨著技術(shù)的不斷進(jìn)步,人們對(duì)大模型的期望也在增加。特別是如何處理不同語(yǔ)言和文化背景下的多樣性,克服詞語(yǔ)分割、語(yǔ)義模糊和語(yǔ)法靈活性等挑戰(zhàn),以實(shí)現(xiàn)全球范圍內(nèi)的語(yǔ)言處理能力。同時(shí),這種大模型的能力如何擴(kuò)展到多媒體,多模態(tài)領(lǐng)域以及如何在各種專業(yè)領(lǐng)域發(fā)揮更好的作用,讓人們產(chǎn)生更多的期待。

相信,通過(guò)不斷的研究和探索,AIGC大模型將在自然語(yǔ)言處理領(lǐng)域發(fā)揮越來(lái)越重要的作用,為人們提供更好的語(yǔ)言交流和理解體驗(yàn),進(jìn)而推動(dòng)人工智能的發(fā)展邁上新的臺(tái)階。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開源技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    389

    瀏覽量

    8748
  • OpenHarmony
    +關(guān)注

    關(guān)注

    33

    文章

    3955

    瀏覽量

    21137

原文標(biāo)題:河套IT TALK94:(原創(chuàng))GPT技術(shù)揭秘:探索生成式模型的訓(xùn)練之道

文章出處:【微信號(hào):開源技術(shù)服務(wù)中心,微信公眾號(hào):共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的算力投入。一個(gè)萬(wàn)億參數(shù)大模型訓(xùn)練可能需要數(shù)千張GPU芯片連續(xù)運(yùn)行數(shù)月,成本高
    的頭像 發(fā)表于 02-05 16:07 ?853次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實(shí)測(cè)發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大
    的頭像 發(fā)表于 11-13 15:49 ?712次閱讀

    openDACS 2025 開源EDA與芯片賽項(xiàng) 賽題七:基于大模型生成原理圖設(shè)計(jì)

    技術(shù)背景與產(chǎn)業(yè)需求下提出——“基于大模型生成原理圖設(shè)計(jì)”。其核心目標(biāo)是探索如何利用大模型的強(qiáng)
    發(fā)表于 11-13 11:49

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識(shí)別。一旦模型訓(xùn)練并保存,就可以用于對(duì)新圖像進(jìn)行推理和預(yù)
    發(fā)表于 10-22 07:03

    探索無(wú)限可能:生成推薦的演進(jìn)、前沿與挑戰(zhàn)

    )的生成推薦(Generative Recommendations, GRs)正逐步形成一種區(qū)別于判別推薦的新范式,展現(xiàn)出替代依賴復(fù)雜手工特征的傳統(tǒng)推薦系統(tǒng)的強(qiáng)大潛力。本文系統(tǒng)全面地介紹了基于LLM的
    的頭像 發(fā)表于 10-20 16:42 ?6406次閱讀
    <b class='flag-5'>探索</b>無(wú)限可能:<b class='flag-5'>生成</b><b class='flag-5'>式</b>推薦的演進(jìn)、前沿與挑戰(zhàn)

    借助NVIDIA Cosmos模型提升機(jī)器人訓(xùn)練效率

    隨著物理 AI 系統(tǒng)的不斷發(fā)展,對(duì)豐富標(biāo)記數(shù)據(jù)集的需求正在急速增長(zhǎng),已經(jīng)超出了在現(xiàn)實(shí)世界中通過(guò)人工采集所能滿足的范圍。世界基礎(chǔ)模型(WFMs)是經(jīng)過(guò)訓(xùn)練生成 AI
    的頭像 發(fā)表于 09-23 15:30 ?1027次閱讀
    借助NVIDIA Cosmos<b class='flag-5'>模型</b>提升機(jī)器人<b class='flag-5'>訓(xùn)練</b>效率

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    、分布群體智能 1)物聯(lián)網(wǎng)AGI系統(tǒng) 優(yōu)勢(shì): 組成部分: 2)分布AI訓(xùn)練 7、發(fā)展重點(diǎn):基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練與推理 8、超越大模型:神
    發(fā)表于 09-18 15:31

    摩爾線程“AI工廠”:五大核心技術(shù)支撐,打造大模型訓(xùn)練超級(jí)工廠

    演講中表示,為應(yīng)對(duì)生成AI爆發(fā)式增長(zhǎng)下的大模型訓(xùn)練效率瓶頸,摩爾線程將通過(guò)系統(tǒng)級(jí)工程創(chuàng)新,構(gòu)建新一代AI訓(xùn)練基礎(chǔ)設(shè)施,致力于為AGI時(shí)代打
    的頭像 發(fā)表于 07-28 11:28 ?4565次閱讀
    摩爾線程“AI工廠”:五大核心<b class='flag-5'>技術(shù)</b>支撐,打造大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>超級(jí)工廠

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】--全書概覽

    講解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù) 第四章關(guān)于DeepSeek-R1的
    發(fā)表于 07-21 00:04

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    ,全方位感受到 AI 大模型研發(fā)的復(fù)雜與精妙,每一項(xiàng)技術(shù)點(diǎn)都凝聚著智慧,也讓我對(duì)人工智能技術(shù)的深度與廣度有了新認(rèn)知,期待后續(xù)探索能挖掘更多技術(shù)

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書籍介紹+第一章讀后心得

    相對(duì)策略優(yōu)化**(GRPO)算法、獎(jiǎng)勵(lì)模型**等關(guān)鍵技術(shù)的深入剖析,可以幫助讀者了解 DeepSeek 在強(qiáng)化學(xué)習(xí)領(lǐng)域的創(chuàng)新性探索。對(duì)DeepSeek-R1 的訓(xùn)練過(guò)程和推理能力的蒸餾
    發(fā)表于 07-17 11:59

    【書籍評(píng)測(cè)活動(dòng)NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    的負(fù)載平衡、多token預(yù)測(cè)技術(shù)(MTP) 等,大幅提升了模型的性能。 在模型訓(xùn)練方面,DeepSeek 依托自研的輕量級(jí)分布
    發(fā)表于 06-09 14:38

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言
    的頭像 發(fā)表于 03-21 18:24 ?4338次閱讀
    用PaddleNLP為<b class='flag-5'>GPT</b>-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制預(yù)<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解、可學(xué)
    的頭像 發(fā)表于 03-21 10:30 ?3372次閱讀

    ?Diffusion生成動(dòng)作引擎技術(shù)解析

    Diffusion生成動(dòng)作引擎 Diffusion生成動(dòng)作引擎是一種基于擴(kuò)散模型(Diffusion Models)的
    的頭像 發(fā)表于 03-17 15:14 ?3085次閱讀