曰产又硬又爽免费视频,三级成人黄色电影

電子發(fā)燒友網(wǎng)報道（文/李彎彎）ChatGPT的出現(xiàn)讓大模型迅速出圈，事實上，在過去這些年中，模型規(guī)模在快速提升。數(shù)據(jù)顯示，自2016年至今，模型大小每18個月增長40倍，自2019年到現(xiàn)在，更是每18個月增長340倍。

然而相比之下，硬件增長速度較慢，自2016年至今，GPU的性能增長每18個月1.7倍，模型大小和硬件增長的差距逐漸擴大。顯存占用大、算力消費大、成本高昂等瓶頸嚴重阻礙AIGC行業(yè)的快速發(fā)展。在此背景下，潞晨科技創(chuàng)始人尤洋認為，分布式訓練勢在必行。

圖：潞晨科技創(chuàng)始人尤洋演講

基礎大模型結構為模型訓練提供了基礎架構

其一、Google首創(chuàng)的Transformer大模型，是現(xiàn)在所有大模型最基礎的架構?，F(xiàn)在Transformer已經(jīng)成為除了MLP、CNN、RNN以外第四種最重要的深度學習算法架構。

其二、Google發(fā)布的首個預大模型BERT，從而引爆了預練大橫型的潮流和的勢，BERT強調了不再像以往一樣采用傳統(tǒng)的單向語言模型或者把兩個單向語言橫型進行淺層拼接的方法進行預認訓練，而是采用新的masked language model(MLM)，以致能生成深度的雙向語言表征。

其三、ViT Google提出的首個使用Transformert的視覺大模型，ViT作為視覺轉換器的使用，而不是CNN威混合方法來執(zhí)行圖像任務，作者假設進一步的預認訓練可以提高性能，因為與其他現(xiàn)有技術模型相比，ViT具有相對可擴展性。

其四、Google將Transformer中的Feedforward Network(FFN)層替換成了MoE層，并且將MoE層和數(shù)據(jù)并行巧妙地結合起來，在數(shù)據(jù)并行訓練時，模型在訓練集群中已經(jīng)被復制了若干份，通過在多路數(shù)據(jù)并行中引入Al-to-Al通信來實現(xiàn)MoE的功能。

在這些基礎大模型結構之上，過去這些年，在大模型的發(fā)展歷程中，出現(xiàn)了幾個具有里程碑意義性的大模型包括GPT-3、T5、Swin Transformer、Switch Transformer。

GPT-3：OpenAI發(fā)布的首個百億規(guī)模的大模型，應該非常具有開創(chuàng)性意義，現(xiàn)在的大模型都是對標GPT-3，GPT-3依舊延續(xù)自己的單向語言模型認訓練方式，只不過這次把模型尺寸增大到了1750億，并且使用45TB數(shù)據(jù)進行訓練。

T5（Text-To-Text Transfer Transformer）：Google T5將所有NLP任務都轉化成Text-to-Text(文本到文本)任務。它最重要作用給整個NLP預訓型領城提供了一個通用框架，把所有任務都轉化成一種形式。

Swin Transformer：微軟亞研提出的Swin Transformer的新型視覺Transformer，它可以用作計算機視的通用backbone。在個領域之同的差異，例如視覺實體尺度的巨大差異以及與文字中的單詞相比，圖像中像素的高分率，帶來了使Transformer從語言適應視覺方面的挑戰(zhàn)。

超過萬億規(guī)模的稀疏大模型Switch Transformer：能夠訓練包含超過一萬億個參數(shù)的語言模型的技術，直接將參數(shù)量從GPT-3的1750億拉高到1.6萬億，其速度是Google以前開發(fā)的語言模型T5-XXL的4倍。

另外，更具里程碑意義的大模型，在Pathways上實現(xiàn)的大預言模型PaLM。

分布式框架Pathways：Pathways的很多重要思想來源于現(xiàn)有系統(tǒng)，包括用于表達和執(zhí)行TPU計算的XLA、用于表征和執(zhí)行分布式CPU計算的TensorFlow圖和執(zhí)行器、基于Python 編程框架的JAX以及TensorFlowAPL，通過有效地使用這些模塊，Pathways不需要對現(xiàn)有橫型進行很多改動就能運行。

PaLM模型：PaLM吸引人眼球的是該模型具有5400億參數(shù)以及果用新一代AI框架Pathways訓練。模型結構也給出了很多方面優(yōu)化，這些技術優(yōu)化工作汲取了現(xiàn)有突出的研究成果，具體包括SwiGLU激活函數(shù)代替ReLU、層并行技術(Parallel Layers)、多查詢注意力(Multi-Query Attention)，旋轉位置編碼(RoPE)、共享輸入和輸出詞嵌入、去掉偏置參數(shù)(No Biases)等。

PaLM模型也是通過堆疊Transformer中的Decoder部分而成，該模型具有5400億參數(shù)以及采用新一代AI框架Pathways訓練。

大規(guī)模分布式訓練當前主要技術路線

大規(guī)模分布式訓練當前主要技術路線——并行訓練技術。分布式訓練并行技術即通過在訓練過程中使用GPU集群（多機多卡）來提高神經(jīng)網(wǎng)絡的訓練速度。

數(shù)據(jù)并行：相同的設置和模型被復制多份，每份每次都被饋送不同的一份數(shù)據(jù)，處理是并行完成的，所有份在每個訓練步結束時同步。

張量并行：每個張量都被分成多個塊，因此張量的每個分片都位于其指定的GPU上，在處理過程中，每個分片在不同的GPU上分別并行處理，結果在步驟結束時同步。

流水線并行：模型在多個GPU上垂直（即按量）拆分，因此只有一個或多個模型層放置在單個GPU上，每個GPU并行處理流水線的不同階段，并處理batch的一部分數(shù)據(jù)。

潞晨科技成立于2021年，是一家致力于“解放AI生產(chǎn)力”的全球性公司。主要業(yè)務是通過打造分布式AI開發(fā)和部署平臺，幫助企業(yè)降低大模型的落地成本，提升訓練、推理效率。

潞晨開源的智能系統(tǒng)架構Colossal-AI技術，有兩大特性：一是最小化部署成本，Colossal-AI 可以顯著提高大規(guī)模AI模型訓練和部署的效率。僅需在筆記本電腦上寫一個簡單的源代碼，Colossal-AI 便可自動部署到云端和超級計算機上。

通常訓練大模型 (如GPT-3) 需要 100 多個GPU，而使用Colossal-AI僅需一半的計算資源。即使在低端硬件條件下，Colossal-AI也可以訓練2-3倍的大模型。

二是最大化計算效率，在并行計算技術支持下，Colossal-AI在硬件上訓練AI模型，性能顯著提高。潞晨開源的目標是提升訓練AI大模型速度10倍以上。

小結

如今，全球眾多科技企業(yè)都在研究大模型，然而大模型的訓練和部署對硬件也有極高的要求，高昂的硬件需求和訓練成本是當前亟待解決的問題?？梢?，除了OpenAI、谷歌、百度、阿里等致力于大模型研究企業(yè)，以及英偉達等提供硬件的企業(yè)之外，潞晨科技這類提供微調，致力于提升大模型訓練和部署效率、降低成本的企業(yè)，也值得關注。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

大模型

大模型

+關注

關注
2

文章
3663

瀏覽量
5197

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

大模型訓練和部署的關鍵技術

評論