91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新思科技SLM解決方案守護(hù)AI芯片萬(wàn)億算力

新思科技 ? 來(lái)源:新思科技 ? 2025-11-21 14:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2024年,Meta訓(xùn)練了一款AI模型“Llama 3”,并將相關(guān)訓(xùn)練成果匯總發(fā)表了一篇論文,受到廣泛關(guān)注。在為期54天的預(yù)訓(xùn)練過(guò)程中,Llama 3遭遇了466次訓(xùn)練中斷,其中意外中斷高達(dá)419次。通過(guò)進(jìn)一步調(diào)查,Meta了解到,這些異常中斷中78%源自GPU及主機(jī)組件等硬件問(wèn)題。

此類(lèi)硬件問(wèn)題不僅會(huì)導(dǎo)致工作任務(wù)中斷,還可能導(dǎo)致靜默數(shù)據(jù)損壞(SDC),造成意外數(shù)據(jù)丟失或異常,而這些問(wèn)題往往長(zhǎng)期難以被察覺(jué)。

Meta預(yù)訓(xùn)練時(shí)遭遇的中斷雖出乎意料,但這種現(xiàn)象其實(shí)不難理解。像Llama 3這樣的AI模型處理需求巨大,必須依賴(lài)超大規(guī)模計(jì)算集群支持。僅在訓(xùn)練環(huán)節(jié),AI工作負(fù)載往往需要數(shù)十萬(wàn)個(gè)計(jì)算節(jié)點(diǎn)及其配套GPU持續(xù)協(xié)同工作數(shù)周甚至數(shù)月之久。

高強(qiáng)度、大規(guī)模的AI處理和數(shù)據(jù)交換會(huì)產(chǎn)生大量熱量、電壓波動(dòng)和噪聲,這些因素給計(jì)算硬件施加了巨大的壓力。相較于以往的常規(guī)條件,GPU等底層芯片的退化速度大幅加快,性能和可靠性也隨之下降。

這種情況在5nm以下制程中尤為突出,無(wú)論是制造環(huán)境和實(shí)際應(yīng)用廠(chǎng)家,都能觀(guān)察到明顯的芯片退化和故障行為。

那么,我們?cè)撊绾螒?yīng)對(duì)此類(lèi)情況?又該如何減少意外中斷和SDC?隨著行業(yè)不斷推出更新、規(guī)模更大AI工作任務(wù),面對(duì)市場(chǎng)對(duì)處理能力與規(guī)模持續(xù)攀升的需求,芯片設(shè)計(jì)團(tuán)隊(duì)?wèi)?yīng)如何確保最佳性能和可靠性?

確保芯片可靠性、可用性和可維護(hù)性(RAS)

以Meta為代表的AI創(chuàng)新企業(yè)已構(gòu)建起完善的監(jiān)控診斷體系,旨在持續(xù)改善計(jì)算環(huán)境的可用性與可靠性。然而隨著算力需求激增、硬件故障頻發(fā)以及SDC問(wèn)題日益嚴(yán)峻,行業(yè)亟需建立更深層的測(cè)試與遙測(cè)能力,而且這種能力需要貫穿每個(gè)XPU/GPU內(nèi)部的晶粒、多芯片封裝以及互連架構(gòu)等基礎(chǔ)層面。

芯片生命周期管理(SLM)解決方案正是保障端到端RAS的關(guān)鍵所在,其覆蓋范圍貫穿芯片設(shè)計(jì)、制造、啟動(dòng)調(diào)試及現(xiàn)場(chǎng)運(yùn)維全流程。

憑借更出色的可見(jiàn)性、監(jiān)控和芯片層級(jí)診斷,設(shè)計(jì)團(tuán)隊(duì)可以:

通過(guò)遙測(cè)數(shù)據(jù)了解芯片故障或發(fā)生SDC的原因。

識(shí)別芯片組件、Multi-Die封裝和高速互連中的電壓或時(shí)序退化、過(guò)熱和機(jī)械故障。

更精確地分析AI工作任務(wù)的熱性能和功耗性能分析。

檢測(cè)、特征分析和解決輻射、電壓噪聲以及可能引發(fā)位翻轉(zhuǎn)和SDC的潛在故障機(jī)制。

提高芯片的良率、質(zhì)量和現(xiàn)場(chǎng)RAS。

寄存器傳輸級(jí)(RTL)設(shè)計(jì)階段采用triple modular redundancy and dual core lock step(三模冗余和雙核鎖步等以可靠性為核心的技術(shù)),降低SDC風(fēng)險(xiǎn)。

建立準(zhǔn)確的硅前老化仿真方法檢測(cè)敏感或脆弱電路,并用抗老化電路替換。

優(yōu)化可靠性模型中的異常檢測(cè)(識(shí)別偏離正常行為的數(shù)據(jù)點(diǎn)),最大程度減少現(xiàn)場(chǎng)SDC。

c6829ec6-c459-11f0-8c8f-92fbcf53809c.png

新思科技SLM解決方案

作為系統(tǒng)設(shè)計(jì)的全球領(lǐng)導(dǎo)者,新思科技提供SLM IP和分析解決方案,可顯著提升芯片健康狀態(tài),并在系統(tǒng)生命周期的各個(gè)階段提供關(guān)鍵運(yùn)行指標(biāo)。

該解決方案具備三大監(jiān)測(cè)特性,即環(huán)境監(jiān)測(cè)、結(jié)構(gòu)監(jiān)測(cè)和功能監(jiān)測(cè),分別可以基于器件運(yùn)行環(huán)境了解和優(yōu)化芯片性能;識(shí)別從設(shè)計(jì)到現(xiàn)場(chǎng)運(yùn)行階段的性能變化;以及用于跟蹤關(guān)鍵器件功能的健康狀況和異常情況。

我們的SLM IP和分析解決方案包括:

工藝、電壓和溫度監(jiān)測(cè)器

確保最優(yōu)運(yùn)行狀態(tài),同時(shí)最大化性能、功耗與可靠性。

全芯片高精度分布式監(jiān)測(cè),支持通過(guò)頻率調(diào)節(jié)實(shí)現(xiàn)熱管理。

支持28nm至3nm工藝節(jié)點(diǎn)。

路徑裕量監(jiān)測(cè)器

測(cè)量1000多條綜合和功能路徑(測(cè)試和現(xiàn)場(chǎng))的時(shí)序裕量。

基于實(shí)際裕量?jī)?yōu)化芯片性能。

自動(dòng)化路徑選擇、IP插入和掃描生成功能。

時(shí)鐘和延遲監(jiān)測(cè)器

測(cè)量一個(gè)或多個(gè)信號(hào)的邊緣之間的延遲。

監(jiān)測(cè)時(shí)鐘占空比的質(zhì)量。

借助內(nèi)置自測(cè)(BIST)跟蹤,測(cè)量?jī)?nèi)存讀取訪(fǎng)問(wèn)時(shí)間。

對(duì)數(shù)字延遲線(xiàn)進(jìn)行特征分析。

UCIe監(jiān)測(cè)、測(cè)試和修復(fù)

監(jiān)測(cè)Die-to-Die UCIe通道的信號(hào)完整性。

生成算法BIST向量,以檢測(cè)互連故障類(lèi)型,包括通道間串?dāng)_。

通過(guò)冗余分配執(zhí)行累積通道修復(fù)(制造和現(xiàn)場(chǎng))。

高速訪(fǎng)問(wèn)和測(cè)試

支持通過(guò)功能接口(PCIe、USB、SPI等)進(jìn)行測(cè)試。

適用于現(xiàn)場(chǎng)運(yùn)行以及晶圓分揀、最終測(cè)試和系統(tǒng)級(jí)測(cè)試。

可以與自動(dòng)化測(cè)試設(shè)備結(jié)合使用。

通過(guò)減少引腳數(shù)量,方便現(xiàn)場(chǎng)遠(yuǎn)程診斷,降低測(cè)試成本。

高帶寬內(nèi)存(HBM)外部測(cè)試和修復(fù)

全面且經(jīng)過(guò)硅驗(yàn)證的DRAM堆疊測(cè)試、修復(fù)和診斷引擎。

支持第三方HBM DRAM堆疊提供商解決方案。

高性能Die-to-Die互連測(cè)試和修復(fù)支持。

與HBM PHY協(xié)同工作,并支持一系列HBM協(xié)議和配置。

SLM分層子系統(tǒng)

面向片上系統(tǒng)(SoC)的自動(dòng)化分層SLM和測(cè)試可管理性解決方案。

借助系統(tǒng)內(nèi)調(diào)度,自動(dòng)集成和訪(fǎng)問(wèn)所有IP/核心。

預(yù)先驗(yàn)證、隨時(shí)可用的ATE向量和向量移植功能。

AI時(shí)代的芯片測(cè)試和遙測(cè)

隨著AI器件和工作任務(wù)的規(guī)模和處理需求持續(xù)上升,系統(tǒng)可靠性、芯片健康和SDC問(wèn)題愈發(fā)常見(jiàn)。雖然不存在能夠徹底規(guī)避這些問(wèn)題的單一解決方案或萬(wàn)能方法,但在芯片層級(jí)進(jìn)行更深入、更全面的測(cè)試、修復(fù)和遙測(cè),能極大緩解相關(guān)風(fēng)險(xiǎn)。其中,檢測(cè)或預(yù)測(cè)現(xiàn)場(chǎng)芯片退化的能力尤為關(guān)鍵,這使我們能夠在突發(fā)或?yàn)?zāi)難性系統(tǒng)故障發(fā)生之前及時(shí)采取糾正措施。

AI技術(shù)快速演進(jìn)的時(shí)代背景下,我們必須提供端到端的可見(jiàn)性和RAS保障,這使得芯片測(cè)試、修復(fù)和遙測(cè)的重要性與日俱增。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 新思科技
    +關(guān)注

    關(guān)注

    5

    文章

    957

    瀏覽量

    52894
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    322

    瀏覽量

    12456
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    2128

    瀏覽量

    36773

原文標(biāo)題:應(yīng)對(duì)硬件故障與靜默數(shù)據(jù)損壞:新思科技SLM方案以端到端可靠性守護(hù)AI芯片萬(wàn)億算力

文章出處:【微信號(hào):Synopsys_CN,微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    CES 2026 | 100 TOPS高AI模組領(lǐng)銜,美格智能全棧AI解決方案定義智能未來(lái)

    要點(diǎn):SNM983系列:100TOPS的高AI模組,面向“AI原生”時(shí)代的架構(gòu)革命MT2
    的頭像 發(fā)表于 01-12 17:01 ?398次閱讀
    CES 2026 | 100 TOPS高<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>AI</b>模組領(lǐng)銜,美格智能全棧<b class='flag-5'>AI</b><b class='flag-5'>解決方案</b>定義智能未來(lái)

    破解清潔難題!天數(shù)智無(wú)人清潔車(chē)解決方案重磅來(lái)襲,重新定義城市清潔新方式?

    深圳市天數(shù)智科技有限公司(簡(jiǎn)稱(chēng):天數(shù)智)是中國(guó)本土領(lǐng)先的AI模組及解決方案提供商,公司與
    的頭像 發(fā)表于 01-09 11:24 ?286次閱讀
    破解清潔難題!天數(shù)智<b class='flag-5'>算</b>無(wú)人清潔車(chē)<b class='flag-5'>解決方案</b>重磅來(lái)襲,重新定義城市清潔新方式?

    華為AI WAN解決方案推動(dòng)互聯(lián)網(wǎng)高質(zhì)量發(fā)展

    出,人工智能規(guī)?;瘧?yīng)用驅(qū)動(dòng)部署需求全面升級(jí),華為AI WAN解決方案憑借持續(xù)的技術(shù)創(chuàng)新突破,有效解決了跨域
    的頭像 發(fā)表于 12-25 15:17 ?577次閱讀

    AI服務(wù)器電源測(cè)試解決方案:為巨擘注入穩(wěn)定之魂

    在人工智能浪潮之巔,AI服務(wù)器電源作為驅(qū)動(dòng)萬(wàn)億參數(shù)模型奔騰不息的“心臟”,其性能至關(guān)重要。這顆心臟能否在極限負(fù)載下強(qiáng)勁搏動(dòng),在復(fù)雜工況中穩(wěn)定運(yùn)行,直接決定了整個(gè)AI
    的頭像 發(fā)表于 12-03 13:56 ?693次閱讀

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    國(guó)產(chǎn)AI芯片真能扛住“內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?

    最近行業(yè)都在說(shuō)“AI的命門(mén)”,但國(guó)產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實(shí)測(cè)下來(lái)有點(diǎn)超出預(yù)期——7nm工藝下
    發(fā)表于 10-27 13:12

    什么是AI模組?

    未來(lái),騰視科技將繼續(xù)深耕AI模組領(lǐng)域,全力推動(dòng)AI邊緣計(jì)算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進(jìn)和物聯(lián)網(wǎng)應(yīng)用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:26 ?1696次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    什么是AI模組?

    未來(lái),騰視科技將繼續(xù)深耕AI模組領(lǐng)域,全力推動(dòng)AI邊緣計(jì)算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進(jìn)和物聯(lián)網(wǎng)應(yīng)用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:25 ?820次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    廣電計(jì)量打造AI芯片檢測(cè)一站式解決方案

    在人工智能蓬勃發(fā)展的時(shí)代,AI芯片作為智能世界的“最強(qiáng)大腦”,正驅(qū)動(dòng)著自動(dòng)駕駛、智能安防、大數(shù)據(jù)分析等眾多前沿領(lǐng)域的飛速前進(jìn)。據(jù)弗若斯特沙利文預(yù)測(cè),中國(guó)的
    的頭像 發(fā)表于 08-21 11:49 ?1216次閱讀

    一文看懂AI集群

    最近這幾年,AI浪潮席卷全球,成為整個(gè)社會(huì)的關(guān)注焦點(diǎn)。大家在討論AI的時(shí)候,經(jīng)常會(huì)提到AI集群。AI
    的頭像 發(fā)表于 07-23 12:18 ?1607次閱讀
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    邊緣計(jì)算時(shí)代,科通技術(shù)以端AI方案重構(gòu)分配格局

    ,通過(guò)優(yōu)化大模型與芯片的協(xié)同能力,為智能終端設(shè)備提供高性能、低成本且安全可靠的解決方案,進(jìn)一步推動(dòng)AI芯片的廣泛應(yīng)用與需求增長(zhǎng),成為公司業(yè)績(jī)持續(xù)增長(zhǎng)的核心驅(qū)動(dòng)力。?? 近年來(lái),
    的頭像 發(fā)表于 05-28 14:23 ?621次閱讀

    芯片的生態(tài)突圍與革命

    電子發(fā)燒友網(wǎng)報(bào)道(文 / 李彎彎)大芯片,即具備強(qiáng)大計(jì)算能力的集成電路芯片,主要應(yīng)用于高性能計(jì)算(HPC)、人工智能(AI)、數(shù)據(jù)中心、
    的頭像 發(fā)表于 04-13 00:02 ?3244次閱讀

    RAKsmart服務(wù)器如何重塑AI高并發(fā)格局

    AI大模型參數(shù)量突破萬(wàn)億級(jí)、實(shí)時(shí)推理需求激增的當(dāng)下,傳統(tǒng)服務(wù)器架構(gòu)的并發(fā)處理能力已逼近物理極限。RAKsmart通過(guò)“硬件重構(gòu)+軟件定義”的雙引擎創(chuàng)新,推出新一代AI服務(wù)器解決方案。
    的頭像 發(fā)表于 04-03 10:37 ?913次閱讀

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    隨著人工智能技術(shù)的飛速發(fā)展,AI需求正以前所未有的速度增長(zhǎng)。DeepSeek等大模型的訓(xùn)練與推理任務(wù)對(duì)的需求持續(xù)攀升,直接推動(dòng)了服務(wù)
    發(fā)表于 03-25 12:00