91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

傳DeepSeek自研芯片,廠商們要把AI成本打下來

晶芯觀察 ? 來源:電子發(fā)燒友 ? 作者:黃晶晶 ? 2025-02-16 00:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/黃晶晶)日前業(yè)界消息稱,DeepSeek正廣泛招募芯片設計人才,加速自研芯片布局,其芯片應用于端側或云側尚不明朗。不少科技巨頭已有自研芯片的動作,一方面是自研芯片能夠節(jié)省外購芯片的成本,掌握供應鏈主動權,另一方面隨著AI推理應用的爆發(fā),AI推理芯片有機會被重新定義。

DeepSeek不完全依賴英偉達

去年12月底發(fā)布的DeepSeek-V3模型,整個訓練使用2048塊英偉達H800 GPU。H800是英偉達特供中國顯卡,相較于它的旗艦芯片H100降低了部分性能。也就是說DeepSeek-V3模型的訓練并不需要追求使用最尖端的GPU。

DeepSeek在訓練過程中采用了多種方法來優(yōu)化硬件利用效率。例如,通過繞過CUDA編程框架,直接使用英偉達的中間指令集框架Parallel Thread Execution (PTX),DeepSeek能夠更高效地利用硬件資源,提供更細粒度的操作控制,從而避免由于CUDA的通用性導致的訓練靈活性損失。這種做法使得DeepSeek能夠在五天內完成其他模型需要十天才能完成的訓練任務,極大地提高了訓練效率。

DeepSeek的V3和R1大模型得到了不少芯片廠商的適配。如1月25日AMD宣布將DeepSeek-V3模型集成到其Instinct MI300X GPU上。而適配DeepSeek-R1大模型的廠商包括英偉達、英特爾以及國內廠商昇騰、龍芯、摩爾線程、海光信息等等。而采用這些芯片所獲得的DeepSeek-R1模型推理性能不亞于英偉達GPU的效果。

DeepSeek有著對架構更深層次的理解,如若自研芯片,發(fā)揮其軟硬件結合的能力,那么研發(fā)更具性價比的訓練或推理芯片,進一步降低成本,或許將在更大程度上促進端側AI的應用爆發(fā),以及帶動AI芯片的多樣性發(fā)展。

OpenAI 3nm 推理芯片

去年,OpenAI進行硬件戰(zhàn)略調整,旨在優(yōu)化計算資源和降低成本。OpenAI將引入AMD的MI300系列芯片,并繼續(xù)使用英偉達的GPU。而其自研芯片也提上日程。去年10月,OpenAI與芯片制造商博通合作開發(fā)首款專注于推理的人工智能芯片。雙方還在與臺積電進行磋商,以推進這一項目。

據(jù)外媒最新報道OpenAI 將在未來幾個月內完成其首款內部芯片的設計,并計劃將其送往臺積電制造,臺積電將使用 3nm 技術制造 OpenAI 芯片,該芯片有望在 2025 年底進行測試以及在 2026 年開始大規(guī)模生產(chǎn),預計該芯片將具有“高帶寬內存”和“廣泛的網(wǎng)絡功能”。

根據(jù)機構測算,到2028年人工智能的推理負載占比有望達到85%,考慮到云端和邊緣側巨大的推理需求,未來推理芯片的預期市場規(guī)模將是訓練芯片的4~6倍。OpenAI自研推理芯片正好趕上這波人工智能推理應用的全面爆發(fā)。

亞馬遜3nm制程Trainium3芯片
實際上,為了擺脫對英偉達GPU的依賴,亞馬遜、微軟和 Meta 等科技巨頭也開始自研芯片。

去年12月,亞馬遜 AWS 宣布,基于其內部團隊所開發(fā) AI 訓練芯片 Trainium2 的 Trn2 實例廣泛可用,并推出了 Trn2 UltraServer 大型 AI 訓練系統(tǒng),同時還發(fā)布了下代更先進的 3nm 制程 Trainium3 芯片。

單個 Trn2 實例包含 16 顆 Trainium2 芯片,各芯片間采用超高速高帶寬低延遲 NeuronLink 互聯(lián),可提供 20.8 petaflops 的峰值算力,適合數(shù) B 參數(shù)大小模型的訓練和部署。

而亞馬遜 AWS下代 Trainium3 AI 訓練芯片,是 AWS 首款采用 3nm 制程的芯片產(chǎn)品。亞馬遜表示基于 Trainium3 的 UltraServer 性能可達 Trn2 UltraServer 的 4 倍,首批基于 Trainium3 的實例預計將于2025年底推出。

LPU語言處理單元

在AI推理大潮下,Groq公司開發(fā)的語言處理單元(Language Processing Unit,即LPU),以其獨特的架構,帶來了極高的推理性能的表現(xiàn)。

Groq的芯片采用14nm制程,搭載了230MB SRAM以保證內存帶寬,片上內存帶寬達80TB/s。在算力方面,該芯片的整型(8位)運算速度為750TOPs,浮點(16位)運算速度為188TFLOPs。

在Llama 2-70B推理任務中,LPU系統(tǒng)實現(xiàn)每秒近300 token的吞吐量,相較英偉達H100實現(xiàn)10倍性能提升,單位推理成本降低達80%。在Llama 3.1-8B推理任務中,LPU系統(tǒng)實現(xiàn)每秒736 token的吞吐量。

wKgZPGevFn2AP6-UAARLffR7VDU319.png
圖源:Groq官網(wǎng)



公開信息顯示,LPU的運作方式與GPU不同,它使用時序指令集計算機(Temporal Instruction Set Computer)架構,與GPU使用的SIMD(單指令,多數(shù)據(jù))不同。這種設計可以讓芯片不必像GPU那樣頻繁地從HBM內存重載數(shù)據(jù)。并避免了HBM短缺的問題,從而降低成本。

在能效方面,LPU 通過減少多線程管理的開銷和避免核心資源的未充分利用,實現(xiàn)了更高的每瓦特計算性能,在執(zhí)行推理任務時,從外部內存讀取的數(shù)據(jù)更少,消耗的電量也低于英偉達的GPU。

LPU的推出為AI推理芯片帶來了新的思路,但不得不說的是,Groq LPU芯片的成本相對較高,主要是購卡成本和運營成本。若以大模型運行吞吐量來計算,同等數(shù)據(jù)條件下,Groq LPU的硬件成本價格不菲。盡管這一芯片的性能表現(xiàn)突出,但對于成本優(yōu)化還需要做出很多努力。希望隨著硬件技術、生產(chǎn)制造以及規(guī)模效應的逐步成熟,其應用成本有望得到改善。

DeepSeek的出現(xiàn),以低成本特性降低了企業(yè)準入門檻,使更多企業(yè)能夠開展 AI 項目,推理端需求大幅增長。但這還不夠,要使AI訓練或推理成本進一步下探,不再局限于采用某一家的GPU,而是SoC、ASIC、FPGA等芯片都有機會,一些新的技術架構、不依賴先進工藝的芯片等有更多發(fā)展的空間,從而推動AI芯片的多元化發(fā)展。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • DeepSeek
    +關注

    關注

    2

    文章

    836

    瀏覽量

    3280
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    成功點亮并上車!對標Orin X,Momenta芯片來了

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)近日有消息稱,輔助駕駛系統(tǒng)供應商Momenta的芯片已經(jīng)成功點亮,并開始進行裝車測試。 ? 這也意味著,2023年Momenta從外部合作轉向
    的頭像 發(fā)表于 08-14 09:10 ?8304次閱讀
    成功點亮并上車!對標Orin X,Momenta<b class='flag-5'>自</b><b class='flag-5'>研</b><b class='flag-5'>芯片</b>來了

    阿里AI芯片“真武”亮相 “通云哥”黃金三角浮出水面

    1月29日上午,平頭哥官網(wǎng)悄然上線一款名為“真武810E”的高端AI芯片,此前被央視《新聞聯(lián)播》曝光的阿里芯片PPU正式亮相。這是通義實
    的頭像 發(fā)表于 01-29 09:42 ?494次閱讀
    阿里<b class='flag-5'>自</b><b class='flag-5'>研</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>“真武”亮相 “通云哥”黃金三角浮出水面

    AI業(yè)界新聞:OpenAI官宣首顆芯片 黃仁勛時隔9年再次給馬斯克“送貨”

    給大家?guī)硪恍?b class='flag-5'>AI業(yè)界新聞: OpenAI官宣首顆芯片 OpenAI宣布與博通合作
    的頭像 發(fā)表于 10-14 18:42 ?1930次閱讀

    邊緣計算AI硬件如何接入DeepSeek嗎?需要具備哪些條件?

    2025年伊始,一款來自中國初創(chuàng)公司“深度求索”的AI大模型DeepSeek橫空出世,驚艷全球。DeepSeek厲害之處在于,在中國被外國芯片封鎖的背景下,在性能上接近美國頂尖
    的頭像 發(fā)表于 08-21 10:30 ?1910次閱讀
    邊緣計算<b class='flag-5'>AI</b>硬件如何接入<b class='flag-5'>DeepSeek</b>嗎?需要具備哪些條件?

    Arm CEO:公司正在芯片

    據(jù)外媒路透社報道,Arm CEO Rene Haas透露,Arm正在投資開發(fā)自有芯片,并計劃將部分利潤投資于制造自己的芯片和其他組件。與之對應的是Arm預測的下一財季經(jīng)營業(yè)績也會因為
    的頭像 發(fā)表于 07-31 11:49 ?647次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】+混合專家

    邏輯,硬件性能的成本選擇,達到的效果, 最后是對人工智能的影響。 Deepseek在技術思路上,采用混合專家系統(tǒng)MoE架構(思維模塊),MoE則由多個專家模型組成,在處理任務時,它能夠根據(jù)任務的特性
    發(fā)表于 07-22 22:14

    信而泰×DeepSeekAI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢在于強大的推理引擎能力,融合了自然語言處理(
    發(fā)表于 07-16 15:29

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    的負載平衡、多token預測技術(MTP) 等,大幅提升了模型的性能。 在模型訓練方面,DeepSeek 依托的輕量級分布式訓練框架 HAI-LLM,通過算法、框架和硬件的緊密配合,突破了跨節(jié)點
    發(fā)表于 06-09 14:38

    高端芯片,服務器芯片傳來好消息!

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)當前,處理器已經(jīng)跨過了能用的階段,逐漸走向好用,但無論是消費級還是服務器級都面臨著如何在性能上接近國外高端產(chǎn)品,以及生態(tài)上如何更加完善的問題。國內廠商對于服務器
    的頭像 發(fā)表于 05-18 09:25 ?8024次閱讀
    高端<b class='flag-5'>芯片</b><b class='flag-5'>自</b><b class='flag-5'>研</b>,服務器<b class='flag-5'>芯片</b>傳來好消息!

    Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

    的訓練樣本和訓練 模型,具體商業(yè)價值和保密性,采用海思SD3403邊緣計算AI服務器+多路安防監(jiān)控IPC,讓差異化AI視頻系統(tǒng), 成本控制極具市場競爭力。 海思SD3403邊緣計算AI
    發(fā)表于 04-28 11:05

    首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手

    模型庫的限制,聯(lián)發(fā)科還首發(fā)了開源彈性架構。區(qū)別于過往的開放接口,只能部署特定架構模型,開放彈性架構允許開發(fā)者直接調整平臺源代碼,無需等待芯片廠商的支持,即可完成目標或其他大模型輕松
    發(fā)表于 04-13 19:52

    DeepSeek + MCP打造高效報生成神器

    DeepSeek
    jf_23871869
    發(fā)布于 :2025年04月07日 17:09:41

    DeepSeek推動AI算力需求:800G光模塊的關鍵作用

    隨著人工智能技術的飛速發(fā)展,AI算力需求正以前所未有的速度增長。DeepSeek等大模型的訓練與推理任務對算力的需求持續(xù)攀升,直接推動了服務器、光通信設備以及數(shù)據(jù)中心基礎設施的升級。特別是在大規(guī)模算
    發(fā)表于 03-25 12:00

    科通技術推出DeepSeek+AI芯片全場景方案

    2025年,隨著DeepSeek新版本的開源,AI技術掀起了全球普及的浪潮。在這股浪潮中,AI芯片作為關鍵算力支撐,其應用場景不斷拓展,從云端到本地,再到終端設備,
    的頭像 發(fā)表于 03-24 10:33 ?1286次閱讀

    接入 DeepSeek、聯(lián)合阿里云,AI戰(zhàn)略玩出新高度!

    ,旗下品牌TECNO、Infinix宣布接入DeepSeek-R1滿血版大模型,帶來全方位的智能體驗升級。這些動作標志著音正在構建全新AI全場景智能生態(tài),重塑全
    的頭像 發(fā)表于 03-19 15:20 ?1396次閱讀
    接入 <b class='flag-5'>DeepSeek</b>、聯(lián)合阿里云,<b class='flag-5'>傳</b>音<b class='flag-5'>AI</b>戰(zhàn)略玩出新高度!