91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

五年完成從0到1,國產(chǎn)TPU的算力突圍

Simon觀察 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:黃山明 ? 2025-12-30 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/黃山明)如今,AI已被全球廣泛確認為未來發(fā)展的核心驅(qū)動力,不僅是科技前沿,更是重塑經(jīng)濟、社會、產(chǎn)業(yè)乃至人類生活方式的關(guān)鍵力量。而在AI技術(shù)蓬勃發(fā)展的背后,是靠著算法、數(shù)據(jù)、算力三大支柱的系統(tǒng),而硬件是算力的唯一載體,也是數(shù)據(jù)處理、算法落地的物理基礎(chǔ)。

在過去,AI的算法硬件主要依靠GPUCPU,但隨著AI技術(shù)的發(fā)展,傳統(tǒng)GPU的弊端開始顯現(xiàn),市場需要一種更高能效比、更低延遲和更便宜的大規(guī)模部署成本的產(chǎn)品,此時TPU開始逐漸在市場中顯現(xiàn)。

從GPU到TPU

說起GPU,相信大多數(shù)人都不會陌生,作為專為圖形渲染設(shè)計,擁有數(shù)千個并行計算核心,能同時處理大量簡單任務(wù)的芯片,GPU與深度學習的海量矩陣運算需求完美契合。因此早在2011年,就有AI研究者發(fā)現(xiàn)英偉達的GPU能夠處理深度學習的巨大計算需求,谷歌、斯坦福等企業(yè)與機構(gòu)都開始使用。

而在此之前,AI的最大問題不是算法,而是神經(jīng)網(wǎng)絡(luò)算不過來,訓(xùn)練一次就需要幾周或者幾個月,模型稍微一大就“跑不動”了。

到了2012年,多倫多大學的Alex Krizhevsky用兩塊GTX 580 GPU訓(xùn)練出AlexNet,在ImageNet圖像識別大賽中準確率從74%飆升至85%,震驚業(yè)界,這是深度學習第一次碾壓傳統(tǒng)方法。以至于后來黃仁勛直言,沒有GTX 580,就沒有今天的英偉達,也沒有現(xiàn)代的AI。

不過在2013年,谷歌卻面臨了一場算力災(zāi)難,若1億安卓用戶每天使用3分鐘的語音搜索,那么現(xiàn)有數(shù)據(jù)中心算力將不足應(yīng)對,需要翻倍擴建。傳統(tǒng)CPU/GPU在處理神經(jīng)網(wǎng)絡(luò)的大規(guī)模矩陣運算時效率極低,功耗卻極高。

顯然,GPU解決了能不能做AI的問題,但面對AI太貴了、太耗電以及太難規(guī)?;膯栴}無能為力。2015年,第一代TPU(v1)在谷歌數(shù)據(jù)中心悄然部署,2016年5月Google I/O大會正式亮相,此時已內(nèi)部使用一年多。

TPU(Tensor Processing Unit)并不像GPU那樣追求通用型,而是針對神經(jīng)網(wǎng)絡(luò)犧牲一切多余能力的專用芯片。因此TPU在AI發(fā)展中解決了這三件事,成本、能效、可預(yù)測性上都要超過GPU。

具體來說,TPU采用systolic array結(jié)構(gòu),把矩陣乘法/累加操作做成硬連線流水線,數(shù)據(jù)在陣列內(nèi)部流動完成計算,幾乎省去了傳統(tǒng)GPU需要反復(fù)讀寫共享緩存或顯存的步驟。谷歌第六代Trillium與第七代Ironwood的實測數(shù)據(jù)顯示,在同等7nm工藝下,TPU的每瓦AI算力達到GPU的1.4–2.0倍;若與2018年的初代TPU相比,能效提升了近30倍。

并且由于片上HBM距離計算單元更近,且去掉了圖形渲染所需的大量控制邏輯,TPU在批量推理場景下的延遲普遍比GPU低15–40%;在谷歌搜索、推薦、Claude等線上業(yè)務(wù)中,同樣模型TPU的P99延遲顯著優(yōu)于GPU。

在成本上更是優(yōu)勢顯著,當部署到9000+芯片的Pod級別時,TPU配合光電路交換(OCS)可把網(wǎng)絡(luò)功耗再降30%,整機柜成本比同規(guī)模GPU集群低40–60%。Anthropic、Meta等選擇與谷歌合作,正是看中長期推理成本可以比GPU方案低4倍以上。

中國的TPU之路

想要制造TPU并不簡單,TPU也并非單純的芯片,而是包含了專用架構(gòu)設(shè)計、配套軟件棧與編譯器支持(例如谷歌的XLA、TensorFlow/JAX集成)、大規(guī)?;ヂ?lián)和集群調(diào)度能力以及針對深度學習訓(xùn)練與推理的整體工程設(shè)計。

而這種整體系統(tǒng)設(shè)計相比通用GPU更難拆解學習,這是需要跨領(lǐng)域積累,而非練出一塊芯片就算完,TPU背后的項目是谷歌多年針對AI任務(wù)優(yōu)化的結(jié)果。

而在TPU領(lǐng)域,中國方面起步較晚,到了2019年, 谷歌TPU核心架構(gòu)師楊龔軼凡回國創(chuàng)辦中昊芯英,國內(nèi)才首次出現(xiàn)要做真正的張量處理器的創(chuàng)業(yè)公司。

并且在2021年,在北京大學、清華等高校團隊配合下,中昊芯英完成自研指令集、脈動陣列RTL和12nm物理設(shè)計,流片前夕拿到10億元的融資。

2023年,首顆訓(xùn)練級TPU“剎那?”一次流片成功,算力可以達到A100的1.5倍,功耗降低30%,單位成本只有A100的42%,并且實現(xiàn)了量產(chǎn)交付,也讓中國首次擁有了可商用的TPU芯片。

而到了2024年,基于“剎那”打造的千卡集群“泰則?”在長三角、京津冀兩地上線,實測可穩(wěn)定訓(xùn)練千億參數(shù)模型;太極股份、浙數(shù)文化、艾布魯?shù)壬鲜泄鞠群笕牍?,形成“芯?系統(tǒng)+云運營商”小生態(tài)。

今年,天津移動TPU智算中心點亮,標志著國產(chǎn)TPU完成“單卡→整機柜→智算中心”三級跳,開始對外提供商業(yè)化算力服務(wù),官方稱同等精度下推理成本比GPU低40–60%。

值得注意的是,除了與運營商、智算中心協(xié)同部署能力,中昊芯英不僅做芯片,還在構(gòu)建支撐國產(chǎn)大模型運行的軟硬件棧,并且在行業(yè)生態(tài)中逐漸建立合作,讓產(chǎn)品從芯片實現(xiàn)向算力服務(wù)能力邁進。

此前,中昊芯英創(chuàng)始人楊龔軼凡表示,目前實現(xiàn)高性能TPU AI芯片量產(chǎn)與交付的主要是該公司。同時,該公司是少數(shù)已盈利的AI芯片企業(yè),盈利源于國家支持國產(chǎn)化進程以及創(chuàng)新帶來的高性價比產(chǎn)品結(jié)構(gòu)。

據(jù)了解,中昊芯英保持著“一年一芯、一年兩?!惫?jié)奏,第二代7nm芯片已在實驗室回片,配套軟件棧同步開發(fā),預(yù)計2026年Q2規(guī)模出貨;軟件側(cè)每季度滾動發(fā)版,持續(xù)追加PyTorch 2.x新算子與MoE并行策略。

這不僅是中國在高性能AI處理器路徑上的突破性成果之一,也能減少對國外AI算力產(chǎn)品的依賴、增強自主可控能力具有戰(zhàn)略意義,對國內(nèi)AI算力生態(tài)建設(shè)是一種實質(zhì)推動。

總結(jié)

TPU的發(fā)展,本質(zhì)上是AI算力需求與硬件供給之間矛盾不斷突破的歷程,從最初解決 算力危機 的專用推理芯片,到支撐大模型訓(xùn)練的 AI超算,再到如今面向生成式AI的推理引擎,TPU發(fā)展始終圍繞著性能、能效、架構(gòu)創(chuàng)新持續(xù)突破。正是TPU提供的超算級算力,讓大語言模型、多模態(tài)生成等前沿AI成為可能,推動AI從實驗室研究走向產(chǎn)業(yè)落地和消費級應(yīng)用。

而隨著中昊芯英等國內(nèi)企業(yè)推出了真正的高性能TPU芯片,其重要性不在于短期能否完全超越英偉達或谷歌,而是為國內(nèi)AI算力提供一個可自主控制的高級方向,推動國產(chǎn)算力生態(tài)成長,包括算力集群部署、模型適配、本地數(shù)據(jù)中心落地,這類戰(zhàn)略意義比單純單項性能更重要。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    170

    瀏覽量

    21664
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RISC-V+類TPU架構(gòu):國產(chǎn)實現(xiàn)從"堆砌""精耕"的范式躍遷

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)在AI大模型技術(shù)迅猛發(fā)展的今天,已成為決定模型性能與商業(yè)價值的關(guān)鍵因素。然而,隨著模型參數(shù)量與訓(xùn)練計算量的激增,傳統(tǒng)"堆砌"模式已難以為繼。當前,
    的頭像 發(fā)表于 02-11 09:29 ?4114次閱讀
    RISC-V+類<b class='flag-5'>TPU</b>架構(gòu):<b class='flag-5'>國產(chǎn)</b><b class='flag-5'>算</b><b class='flag-5'>力</b>實現(xiàn)從&quot;堆砌&quot;<b class='flag-5'>到</b>&quot;精耕&quot;的范式躍遷

    2025中科曙光DeepAI深智能引擎完成全面進化

    2025,中科曙光DeepAI深智能引擎完成技術(shù)突破生態(tài)建設(shè)的全面進化。2月全球開發(fā)
    的頭像 發(fā)表于 12-30 15:47 ?699次閱讀

    云端集中邊緣分布:邊緣智如何重塑網(wǎng)絡(luò)布局

    隨著大模型推理延遲進入毫秒級時代,整個科技行業(yè)都意識網(wǎng)絡(luò)的規(guī)則正在被改寫。這場變革的核心,正是云端集中式計算向邊緣分布式智能的范式轉(zhuǎn)移。據(jù)行業(yè)多家分析機構(gòu)綜合預(yù)測,全球AI基
    的頭像 發(fā)表于 12-25 11:34 ?457次閱讀
    <b class='flag-5'>從</b>云端集中<b class='flag-5'>到</b>邊緣分布:邊緣智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>網(wǎng)絡(luò)布局

    云天勵飛出席GAIR 2025 AI新十專場

    12月13日,GAIR 2025「AI 新十」專場在深圳舉行。作為國內(nèi)前沿技術(shù)與產(chǎn)業(yè)變革的重要風向標,GAIR大會歷經(jīng)七屆積淀,見證并推動了中國 AI 產(chǎn)業(yè)算法突破、硬件迭代,
    的頭像 發(fā)表于 12-22 09:38 ?428次閱讀

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    CPU、GPUNPU,美格智能持續(xù)優(yōu)化異構(gòu)計算效能

    前言AI已成為數(shù)字經(jīng)濟時代的核心生產(chǎn),但全球AI產(chǎn)業(yè)正面臨“供給不足、成本高企、生態(tài)待建”三重挑戰(zhàn)。據(jù)行業(yè)統(tǒng)計,行業(yè)資源平均利用率
    的頭像 發(fā)表于 11-21 16:05 ?1179次閱讀
    <b class='flag-5'>從</b>CPU、GPU<b class='flag-5'>到</b>NPU,美格智能持續(xù)優(yōu)化異構(gòu)<b class='flag-5'>算</b><b class='flag-5'>力</b>計算效能

    國產(chǎn)AI芯片真能扛住“內(nèi)卷”?海思昇騰的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“是AI的命門”,但國產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預(yù)期——7nm工藝下
    發(fā)表于 10-27 13:12

    擁抱DeepSeek開源生態(tài)| TPU接入TileLang,集結(jié)北大復(fù)旦山大頂尖團隊!

    TPU的TileLang-TPU項目也于近日完成工程驗證。TileLang發(fā)布之初,能聯(lián)合北京大學、復(fù)旦大學、山東大學等高校的科研團隊,共同開展TileLang接
    的頭像 發(fā)表于 10-03 19:08 ?1429次閱讀
    擁抱DeepSeek開源生態(tài)| <b class='flag-5'>算</b>能<b class='flag-5'>TPU</b>接入TileLang,集結(jié)北大復(fù)旦山大頂尖團隊!

    不夠、交付太慢?捷智裸金屬租賃對標物理機性能,讓你立馬用上高

    2025國產(chǎn)大模型升級帶動租賃需求爆發(fā),高性能服務(wù)器“一機難求”。中研普華預(yù)測,今年我
    的頭像 發(fā)表于 09-12 20:06 ?1343次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>不夠、交付太慢?捷智<b class='flag-5'>算</b>裸金屬租賃對標物理機性能,讓你立馬用上高<b class='flag-5'>算</b><b class='flag-5'>力</b>!

    國產(chǎn)飛騰工控機重大突破:推動國產(chǎn)升級!

    當下,已成為衡量國家綜合實力和產(chǎn)業(yè)競爭的關(guān)鍵指標。隨著數(shù)字化轉(zhuǎn)型的加速,各行業(yè)對的需求呈爆發(fā)式增長,
    的頭像 發(fā)表于 08-22 10:07 ?493次閱讀

    萬卡集群十萬卡集群,燧原科技始終踐行普惠

    健康、教育等垂直領(lǐng)域,對設(shè)施有著更加廣泛的需求,包括智中心和訓(xùn)推一體機等。 ? 在 2025 世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2025)上,作為國產(chǎn)人工智
    發(fā)表于 07-30 09:54 ?4559次閱讀
    <b class='flag-5'>從</b>萬卡集群<b class='flag-5'>到</b>十萬卡集群,燧原科技始終踐行<b class='flag-5'>算</b><b class='flag-5'>力</b>普惠

    國產(chǎn)新旗艦!集特GM0-5602主板:海光芯加持,重塑高性能計算版圖

    一塊精心鍛造的國產(chǎn)計算基石,正以澎湃填補中國高端計算平臺的最后空缺。在為王的時代,一顆真正的“中國芯”正在掀起巨浪。2025
    的頭像 發(fā)表于 07-04 10:44 ?2155次閱讀
    <b class='flag-5'>國產(chǎn)</b><b class='flag-5'>算</b><b class='flag-5'>力</b>新旗艦!集特GM<b class='flag-5'>0</b>-5602主板:海光芯加持,重塑高性能計算版圖

    軟通智完成超億級A輪融資,加速AI產(chǎn)業(yè)布局

    北京 20256月18日 /美通社/ -- 近日,軟通動力旗下軟通智科技(廣東)集團有限公司(以下簡稱"軟通智")完成超億級A輪融資,本輪融資由盛景嘉成創(chuàng)投領(lǐng)投,廣發(fā)信德、毅達資
    的頭像 發(fā)表于 06-18 15:37 ?588次閱讀

    加速卡是什么東西?它真能在AI戰(zhàn)場上干掉GPU和TPU!

    隨著AI技術(shù)火得一塌糊涂,大家都在談"大模型"、"AI加速"、"智能計算",可真到了落地環(huán)節(jié),才是硬通貨。你有沒有發(fā)現(xiàn),現(xiàn)在越來越多的AI企業(yè)不光用GPU,也不怎么迷信TPU了?他們嘴里多了一個新詞兒——智
    的頭像 發(fā)表于 06-05 13:39 ?1678次閱讀
    智<b class='flag-5'>算</b>加速卡是什么東西?它真能在AI戰(zhàn)場上干掉GPU和<b class='flag-5'>TPU</b>!

    芯片的生態(tài)突圍革命

    電子發(fā)燒友網(wǎng)報道(文 / 李彎彎)大芯片,即具備強大計算能力的集成電路芯片,主要應(yīng)用于高性能計算(HPC)、人工智能(AI)、數(shù)據(jù)中心、自動駕駛等需要海量數(shù)據(jù)并行計算的場景。隨著 AI 與大數(shù)
    的頭像 發(fā)表于 04-13 00:02 ?3269次閱讀