91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

大模型訓練和部署的關鍵技術

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-05-30 13:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)ChatGPT的出現(xiàn)讓大模型迅速出圈,事實上,在過去這些年中,模型規(guī)模在快速提升。數(shù)據(jù)顯示,自2016年至今,模型大小每18個月增長40倍,自2019年到現(xiàn)在,更是每18個月增長340倍。

然而相比之下,硬件增長速度較慢,自2016年至今,GPU的性能增長每18個月1.7倍,模型大小和硬件增長的差距逐漸擴大。顯存占用大、算力消費大、成本高昂等瓶頸嚴重阻礙AIGC行業(yè)的快速發(fā)展。在此背景下,潞晨科技創(chuàng)始人尤洋認為,分布式訓練勢在必行。

圖:潞晨科技創(chuàng)始人尤洋演講


基礎大模型結構為模型訓練提供了基礎架構

其一、Google首創(chuàng)的Transformer大模型,是現(xiàn)在所有大模型最基礎的架構?,F(xiàn)在Transformer已經(jīng)成為除了MLP、CNN、RNN以外第四種最重要的深度學習算法架構。

其二、Google發(fā)布的首個預大模型BERT,從而引爆了預練大橫型的潮流和的勢,BERT強調了不再像以往一樣采用傳統(tǒng)的單向語言模型或者把兩個單向語言橫型進行淺層拼接的方法進行預認訓練,而是采用新的masked language model(MLM),以致能生成深度的雙向語言表征。

其三、ViT Google提出的首個使用Transformert的視覺大模型,ViT作為視覺轉換器的使用,而不是CNN威混合方法來執(zhí)行圖像任務,作者假設進一步的預認訓練可以提高性能,因為與其他現(xiàn)有技術模型相比,ViT具有相對可擴展性。

其四、Google將Transformer中的Feedforward Network(FFN)層替換成了MoE層,并且將MoE層和數(shù)據(jù)并行巧妙地結合起來,在數(shù)據(jù)并行訓練時,模型在訓練集群中已經(jīng)被復制了若干份,通過在多路數(shù)據(jù)并行中引入Al-to-Al通信來實現(xiàn)MoE的功能。

在這些基礎大模型結構之上,過去這些年,在大模型的發(fā)展歷程中,出現(xiàn)了幾個具有里程碑意義性的大模型包括GPT-3、T5、Swin Transformer、Switch Transformer。

GPT-3:OpenAI發(fā)布的首個百億規(guī)模的大模型,應該非常具有開創(chuàng)性意義,現(xiàn)在的大模型都是對標GPT-3,GPT-3依舊延續(xù)自己的單向語言模型認訓練方式,只不過這次把模型尺寸增大到了1750億,并且使用45TB數(shù)據(jù)進行訓練。

T5(Text-To-Text Transfer Transformer):Google T5將所有NLP任務都轉化成Text-to-Text(文本到文本)任務。它最重要作用給整個NLP預訓型領城提供了一個通用框架,把所有任務都轉化成一種形式。

Swin Transformer:微軟亞研提出的Swin Transformer的新型視覺Transformer,它可以用作計算機視的通用backbone。在個領域之同的差異,例如視覺實體尺度的巨大差異以及與文字中的單詞相比,圖像中像素的高分率,帶來了使Transformer從語言適應視覺方面的挑戰(zhàn)。

超過萬億規(guī)模的稀疏大模型Switch Transformer:能夠訓練包含超過一萬億個參數(shù)的語言模型的技術,直接將參數(shù)量從GPT-3的1750億拉高到1.6萬億,其速度是Google以前開發(fā)的語言模型T5-XXL的4倍。

另外,更具里程碑意義的大模型,在Pathways上實現(xiàn)的大預言模型PaLM。

分布式框架Pathways:Pathways的很多重要思想來源于現(xiàn)有系統(tǒng),包括用于表達和執(zhí)行TPU計算的XLA、用于表征和執(zhí)行分布式CPU計算的TensorFlow圖和執(zhí)行器、基于Python編程框架的JAX以及TensorFlowAPL,通過有效地使用這些模塊,Pathways不需要對現(xiàn)有橫型進行很多改動就能運行。

PaLM模型:PaLM吸引人眼球的是該模型具有5400億參數(shù)以及果用新一代AI框架Pathways訓練。模型結構也給出了很多方面優(yōu)化,這些技術優(yōu)化工作汲取了現(xiàn)有突出的研究成果,具體包括SwiGLU激活函數(shù)代替ReLU、層并行技術(Parallel Layers)、多查詢注意力(Multi-Query Attention),旋轉位置編碼(RoPE)、共享輸入和輸出詞嵌入、去掉偏置參數(shù)(No Biases)等。


PaLM模型也是通過堆疊Transformer中的Decoder部分而成,該模型具有5400億參數(shù)以及采用新一代AI框架Pathways訓練。

大規(guī)模分布式訓練當前主要技術路線

大規(guī)模分布式訓練當前主要技術路線——并行訓練技術。分布式訓練并行技術即通過在訓練過程中使用GPU集群(多機多卡)來提高神經(jīng)網(wǎng)絡的訓練速度。

數(shù)據(jù)并行:相同的設置和模型被復制多份,每份每次都被饋送不同的一份數(shù)據(jù),處理是并行完成的,所有份在每個訓練步結束時同步。

張量并行:每個張量都被分成多個塊,因此張量的每個分片都位于其指定的GPU上,在處理過程中,每個分片在不同的GPU上分別并行處理,結果在步驟結束時同步。

流水線并行:模型在多個GPU上垂直(即按量)拆分,因此只有一個或多個模型層放置在單個GPU上,每個GPU并行處理流水線的不同階段,并處理batch的一部分數(shù)據(jù)。


潞晨科技成立于2021年,是一家致力于“解放AI生產(chǎn)力”的全球性公司。主要業(yè)務是通過打造分布式AI開發(fā)和部署平臺,幫助企業(yè)降低大模型的落地成本,提升訓練、推理效率。

潞晨開源的智能系統(tǒng)架構Colossal-AI技術,有兩大特性:一是最小化部署成本,Colossal-AI 可以顯著提高大規(guī)模AI模型訓練和部署的效率。僅需在筆記本電腦上寫一個簡單的源代碼,Colossal-AI 便可自動部署到云端和超級計算機上。

通常訓練大模型 (如GPT-3) 需要 100 多個GPU,而使用Colossal-AI僅需一半的計算資源。即使在低端硬件條件下,Colossal-AI也可以訓練2-3倍的大模型。

二是最大化計算效率,在并行計算技術支持下,Colossal-AI在硬件上訓練AI模型,性能顯著提高。潞晨開源的目標是提升訓練AI大模型速度10倍以上。

小結

如今,全球眾多科技企業(yè)都在研究大模型,然而大模型的訓練和部署對硬件也有極高的要求,高昂的硬件需求和訓練成本是當前亟待解決的問題??梢?,除了OpenAI、谷歌、百度、阿里等致力于大模型研究企業(yè),以及英偉達等提供硬件的企業(yè)之外,潞晨科技這類提供微調,致力于提升大模型訓練和部署效率、降低成本的企業(yè),也值得關注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大模型
    +關注

    關注

    2

    文章

    3663

    瀏覽量

    5197
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何訓練自己的AI模型——RT-Thread×富瀚微FH8626V300L模型訓練部署教程 | 技術集結

    面對消費電子中紛繁的智能檢測需求,如何讓算法持續(xù)進化?富瀚微最新發(fā)布的FH86X6V300芯片AI訓練教程,以FH8626V300L為硬件核心,手把手帶您走通從模型訓練到端側部署的完整
    的頭像 發(fā)表于 02-09 11:51 ?411次閱讀
    如何<b class='flag-5'>訓練</b>自己的AI<b class='flag-5'>模型</b>——RT-Thread×富瀚微FH8626V300L<b class='flag-5'>模型</b><b class='flag-5'>訓練</b><b class='flag-5'>部署</b>教程 | <b class='flag-5'>技術</b>集結

    低耗能藍牙信標:關鍵技術演變和部署深度選型指南詳解

    藍牙信標技術從BLE誕生到5.1厘米級定位,歷經(jīng)低功耗、抗干擾、Mesh組網(wǎng)至高精度演進。本文梳理其關鍵技術發(fā)展,并針對不同場景提供部署選型指南,助力工業(yè)安全、智慧城市等領域的精準定位應用。
    的頭像 發(fā)表于 01-07 16:44 ?1017次閱讀

    RA8P1部署ai模型指南:從訓練模型部署?|?本周六

    在嵌入式邊緣AI中,如何把“訓練好的模型”穩(wěn)定地“跑在板子上”,決定了項目能否落地。我們帶你基于RA8P1平臺,跑通從數(shù)據(jù)準備、模型訓練、量化轉換,到工程
    的頭像 發(fā)表于 11-20 18:06 ?2109次閱讀
    RA8P1<b class='flag-5'>部署</b>ai<b class='flag-5'>模型</b>指南:從<b class='flag-5'>訓練</b><b class='flag-5'>模型</b>到<b class='flag-5'>部署</b>?|?本周六

    ai_cube訓練模型最后部署失敗是什么原因?

    ai_cube訓練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發(fā)表于 07-30 08:15

    【「DeepSeek 核心技術揭秘」閱讀體驗】--全書概覽

    講解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架構、訓練框架、推理階段優(yōu)化、后訓練優(yōu)化等關鍵技術 第四章關于DeepSeek-R1的
    發(fā)表于 07-21 00:04

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構、訓練框架、推理階段優(yōu)化、后訓練優(yōu)化等關鍵技術。從混合專家模型(MoE)的起源與發(fā)展,到 DeepS
    發(fā)表于 07-17 11:59

    如何使用Docker部署模型

    隨著深度學習和大模型的快速發(fā)展,如何高效地部署這些模型成為了一個重要的挑戰(zhàn)。Docker 作為一種輕量級的容器化技術,能夠將模型及其依賴環(huán)境
    的頭像 發(fā)表于 05-24 16:39 ?1160次閱讀

    電機系統(tǒng)節(jié)能關鍵技術及展望

    節(jié)約能源既是我國經(jīng)濟和社會發(fā)展的一項長遠戰(zhàn)略和基本國策,也是當前的緊迫任務。論文在深入分析國內(nèi)外電機系統(tǒng)節(jié)能現(xiàn)狀和介紹先進的節(jié)能關鍵技術的基礎上,指出了現(xiàn)階段我國在電機系統(tǒng)節(jié)能方面存在的問題,并結合
    發(fā)表于 04-30 00:43

    首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手

    套件2.0全面支持 DeepSeek四大關鍵技術:混合專家模型(MoE)、多Token預測(MTP)多頭潛在注意力(MLA)、FP8推理(FP8 Inferencing),實現(xiàn)Token產(chǎn)生速度提升2倍以上
    發(fā)表于 04-13 19:52

    OrinNano yolov11訓練部署教程

    ORinNano yolov11訓練部署教程
    的頭像 發(fā)表于 04-10 15:26 ?2597次閱讀
    OrinNano  yolov11<b class='flag-5'>訓練</b><b class='flag-5'>部署</b>教程

    如何在RAKsmart服務器上實現(xiàn)企業(yè)AI模型部署

    AI模型訓練部署需要強大的算力支持、穩(wěn)定的網(wǎng)絡環(huán)境和專業(yè)的技術管理。RAKsmart作為全球領先的服務器托管與云計算服務提供商,已成為企業(yè)部署
    的頭像 發(fā)表于 03-27 09:46 ?948次閱讀

    淺談華為通信大模型關鍵技術

    推理、幻覺糾正及多維聯(lián)合決策等方面創(chuàng)新成果的肯定。為此,我們將分三期深入解讀華為通信大模型無線的關鍵技術和價值應用,本期聚焦于通信大模型部署訓練
    的頭像 發(fā)表于 03-26 14:35 ?1230次閱讀

    請問如何在imx8mplus上部署和運行YOLOv5訓練模型?

    我正在從事 imx8mplus yocto 項目。我已經(jīng)在自定義數(shù)據(jù)集上的 YOLOv5 上訓練了對象檢測模型。它在 ubuntu 電腦上運行良好?,F(xiàn)在我想在我的 imx8mplus 板上運行該模型
    發(fā)表于 03-25 07:23

    數(shù)據(jù)標注服務—奠定大模型訓練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎環(huán)節(jié),其質量直接影響著模型的性能表現(xiàn)。在大模型訓練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉化為機器可理解、可學
    的頭像 發(fā)表于 03-21 10:30 ?3384次閱讀

    標貝數(shù)據(jù)標注服務:奠定大模型訓練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎環(huán)節(jié),其質量直接影響著模型的性能表現(xiàn)。在大模型訓練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉化為機器可理解、可學
    的頭像 發(fā)表于 03-21 10:27 ?1135次閱讀
    標貝數(shù)據(jù)標注服務:奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>的數(shù)據(jù)基石