强奸中文av人人操插免费看,九九热久久99国产盗摄蜜臀

電子發(fā)燒友網(wǎng)報道（文/黃山明）如今，AI已被全球廣泛確認為未來發(fā)展的核心驅(qū)動力，不僅是科技前沿，更是重塑經(jīng)濟、社會、產(chǎn)業(yè)乃至人類生活方式的關(guān)鍵力量。而在AI技術(shù)蓬勃發(fā)展的背后，是靠著算法、數(shù)據(jù)、算力三大支柱的系統(tǒng)，而硬件是算力的唯一載體，也是數(shù)據(jù)處理、算法落地的物理基礎(chǔ)。

在過去，AI的算法硬件主要依靠GPU與CPU，但隨著AI技術(shù)的發(fā)展，傳統(tǒng)GPU的弊端開始顯現(xiàn)，市場需要一種更高能效比、更低延遲和更便宜的大規(guī)模部署成本的產(chǎn)品，此時TPU開始逐漸在市場中顯現(xiàn)。

從GPU到TPU

說起GPU，相信大多數(shù)人都不會陌生，作為專為圖形渲染設(shè)計，擁有數(shù)千個并行計算核心，能同時處理大量簡單任務(wù)的芯片，GPU與深度學習的海量矩陣運算需求完美契合。因此早在2011年，就有AI研究者發(fā)現(xiàn)英偉達的GPU能夠處理深度學習的巨大計算需求，谷歌、斯坦福等企業(yè)與機構(gòu)都開始使用。

而在此之前，AI的最大問題不是算法，而是神經(jīng)網(wǎng)絡(luò)算不過來，訓(xùn)練一次就需要幾周或者幾個月，模型稍微一大就“跑不動”了。

到了2012年，多倫多大學的Alex Krizhevsky用兩塊GTX 580 GPU訓(xùn)練出AlexNet，在ImageNet圖像識別大賽中準確率從74%飆升至85%，震驚業(yè)界，這是深度學習第一次碾壓傳統(tǒng)方法。以至于后來黃仁勛直言，沒有GTX 580，就沒有今天的英偉達，也沒有現(xiàn)代的AI。

不過在2013年，谷歌卻面臨了一場算力災(zāi)難，若1億安卓用戶每天使用3分鐘的語音搜索，那么現(xiàn)有數(shù)據(jù)中心算力將不足應(yīng)對，需要翻倍擴建。傳統(tǒng)CPU/GPU在處理神經(jīng)網(wǎng)絡(luò)的大規(guī)模矩陣運算時效率極低，功耗卻極高。

顯然，GPU解決了能不能做AI的問題，但面對AI太貴了、太耗電以及太難規(guī)?；膯栴}無能為力。2015年，第一代TPU（v1）在谷歌數(shù)據(jù)中心悄然部署，2016年5月Google I/O大會正式亮相，此時已內(nèi)部使用一年多。

TPU（Tensor Processing Unit）并不像GPU那樣追求通用型，而是針對神經(jīng)網(wǎng)絡(luò)犧牲一切多余能力的專用芯片。因此TPU在AI發(fā)展中解決了這三件事，成本、能效、可預(yù)測性上都要超過GPU。

具體來說，TPU采用systolic array結(jié)構(gòu)，把矩陣乘法/累加操作做成硬連線流水線，數(shù)據(jù)在陣列內(nèi)部流動完成計算，幾乎省去了傳統(tǒng)GPU需要反復(fù)讀寫共享緩存或顯存的步驟。谷歌第六代Trillium與第七代Ironwood的實測數(shù)據(jù)顯示，在同等7nm工藝下，TPU的每瓦AI算力達到GPU的1.4–2.0倍；若與2018年的初代TPU相比，能效提升了近30倍。

并且由于片上HBM距離計算單元更近，且去掉了圖形渲染所需的大量控制邏輯，TPU在批量推理場景下的延遲普遍比GPU低15–40%；在谷歌搜索、推薦、Claude等線上業(yè)務(wù)中，同樣模型TPU的P99延遲顯著優(yōu)于GPU。

在成本上更是優(yōu)勢顯著，當部署到9000+芯片的Pod級別時，TPU配合光電路交換（OCS）可把網(wǎng)絡(luò)功耗再降30%，整機柜成本比同規(guī)模GPU集群低40–60%。Anthropic、Meta等選擇與谷歌合作，正是看中長期推理成本可以比GPU方案低4倍以上。

中國的TPU之路

想要制造TPU并不簡單，TPU也并非單純的芯片，而是包含了專用架構(gòu)設(shè)計、配套軟件棧與編譯器支持（例如谷歌的XLA、TensorFlow/JAX集成）、大規(guī)?；ヂ?lián)和集群調(diào)度能力以及針對深度學習訓(xùn)練與推理的整體工程設(shè)計。

而這種整體系統(tǒng)設(shè)計相比通用GPU更難拆解學習，這是需要跨領(lǐng)域積累，而非練出一塊芯片就算完，TPU背后的項目是谷歌多年針對AI任務(wù)優(yōu)化的結(jié)果。

而在TPU領(lǐng)域，中國方面起步較晚，到了2019年，谷歌TPU核心架構(gòu)師楊龔軼凡回國創(chuàng)辦中昊芯英，國內(nèi)才首次出現(xiàn)要做真正的張量處理器的創(chuàng)業(yè)公司。

并且在2021年，在北京大學、清華等高校團隊配合下，中昊芯英完成自研指令集、脈動陣列RTL和12nm物理設(shè)計，流片前夕拿到10億元的融資。

2023年，首顆訓(xùn)練級TPU“剎那?”一次流片成功，算力可以達到A100的1.5倍，功耗降低30%，單位成本只有A100的42%，并且實現(xiàn)了量產(chǎn)交付，也讓中國首次擁有了可商用的TPU芯片。

而到了2024年，基于“剎那”打造的千卡集群“泰則?”在長三角、京津冀兩地上線，實測可穩(wěn)定訓(xùn)練千億參數(shù)模型；太極股份、浙數(shù)文化、艾布魯?shù)壬鲜泄鞠群笕牍?，形成“芯?系統(tǒng)+云運營商”小生態(tài)。

今年，天津移動TPU智算中心點亮，標志著國產(chǎn)TPU完成“單卡→整機柜→智算中心”三級跳，開始對外提供商業(yè)化算力服務(wù)，官方稱同等精度下推理成本比GPU低40–60%。

值得注意的是，除了與運營商、智算中心協(xié)同部署能力，中昊芯英不僅做芯片，還在構(gòu)建支撐國產(chǎn)大模型運行的軟硬件棧，并且在行業(yè)生態(tài)中逐漸建立合作，讓產(chǎn)品從芯片實現(xiàn)向算力服務(wù)能力邁進。

此前，中昊芯英創(chuàng)始人楊龔軼凡表示，目前實現(xiàn)高性能TPU AI芯片量產(chǎn)與交付的主要是該公司。同時，該公司是少數(shù)已盈利的AI芯片企業(yè)，盈利源于國家支持國產(chǎn)化進程以及創(chuàng)新帶來的高性價比產(chǎn)品結(jié)構(gòu)。

據(jù)了解，中昊芯英保持著“一年一芯、一年兩?！惫?jié)奏，第二代7nm芯片已在實驗室回片，配套軟件棧同步開發(fā)，預(yù)計2026年Q2規(guī)模出貨；軟件側(cè)每季度滾動發(fā)版，持續(xù)追加PyTorch 2.x新算子與MoE并行策略。

這不僅是中國在高性能AI處理器路徑上的突破性成果之一，也能減少對國外AI算力產(chǎn)品的依賴、增強自主可控能力具有戰(zhàn)略意義，對國內(nèi)AI算力生態(tài)建設(shè)是一種實質(zhì)推動。

總結(jié)

TPU的發(fā)展，本質(zhì)上是AI算力需求與硬件供給之間矛盾不斷突破的歷程，從最初解決算力危機的專用推理芯片，到支撐大模型訓(xùn)練的 AI超算，再到如今面向生成式AI的推理引擎，TPU發(fā)展始終圍繞著性能、能效、架構(gòu)創(chuàng)新持續(xù)突破。正是TPU提供的超算級算力，讓大語言模型、多模態(tài)生成等前沿AI成為可能，推動AI從實驗室研究走向產(chǎn)業(yè)落地和消費級應(yīng)用。

而隨著中昊芯英等國內(nèi)企業(yè)推出了真正的高性能TPU芯片，其重要性不在于短期能否完全超越英偉達或谷歌，而是為國內(nèi)AI算力提供一個可自主控制的高級方向，推動國產(chǎn)算力生態(tài)成長，包括算力集群部署、模型適配、本地數(shù)據(jù)中心落地，這類戰(zhàn)略意義比單純單項性能更重要。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴