91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA CUDA 13.1版本的新增功能與改進

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-12-13 10:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA CUDA 13.1 是自 CUDA 二十年前發(fā)明以來,規(guī)模最大、內(nèi)容最全面的一次更新。

最新的版本包含一系列新功能與改進,旨在提升性能并推動加速計算,主要包括:

推出NVIDIA CUDA Tile:它是基于 tile 的全新編程模型,對包括 Tensor Cores 在內(nèi)的專用硬件做了抽象

暴露了綠色上下文運行時的 API

在 NVIDIA cuBLAS 中實現(xiàn)雙精度與單精度仿真功能

全新編寫的CUDA 編程指南,面向 CUDA 初學(xué)者到資深開發(fā)者

CUDA Tile 編程

為了幫助開發(fā)者開發(fā)適配當(dāng)前及未來的 GPU 開發(fā)軟件,NVIDIA CUDA 13.1 推出了CUDA Tile。該編程模型允許開發(fā)者在 SIMT 編程模型之上更高層級編寫 GPU 內(nèi)核。在 SIMT 編程中,開發(fā)者實現(xiàn)一個內(nèi)核需要手動劃分?jǐn)?shù)據(jù),并為每個線程指定執(zhí)行路徑。而在 CUDA Tile 編程中,你可以用更高的抽象層級實現(xiàn)內(nèi)核,直接對稱為“Tile”的數(shù)據(jù)塊指定執(zhí)行路徑:只需指定要在這些 Tile 上執(zhí)行的數(shù)學(xué)運算,編譯器和運行時會自動決定如何將任務(wù)最優(yōu)地分配給各個線程。這種 Tile 編程模型隱藏了 Tensor Cores 等專用硬件的具體細(xì)節(jié),使 Tile 代碼能夠兼容未來的 GPU 架構(gòu)。

CUDA 13.1 發(fā)布了 Tile 編程的兩大組件

CUDA Tile IR:用于 NVIDIA GPU 編程的全新虛擬指令集架構(gòu)(ISA)。

cuTile Python:全新領(lǐng)域特定的編程語言(DSL),用于在 Python 中編寫基于數(shù)組和 Tile 的內(nèi)核。

如需了解更多關(guān)于 CUDA Tile IR 與cuTile Python的信息,請查看相關(guān)詳細(xì)介紹。

CUDA軟件更新

本次 CUDA 版本還包括以下重要軟件更新。

運行時暴露綠色上下文

CUDA 中的綠色上下文是傳統(tǒng) CUDA 上下文的一種輕量級替代方案,旨在為開發(fā)者提供一種對 GPU 進行更細(xì)顆粒度的空間劃分和資源分配的機制。自 CUDA 12.4 起,該功能可在驅(qū)動 API 中使用;而從本版本開始,綠色上下文也正式支持運行時 API。

綠色上下文使用戶可以定義并管理 GPU 資源(主要是 Streaming Multiprocessors,SMs)的不同分區(qū),并將特定的 SM 集合分配給某個上下文。隨后,在該綠色上下文該所擁有的資源范圍內(nèi)啟動中 CUDA 內(nèi)核并管理 CUDA 流。一個典型應(yīng)用場景是:當(dāng)應(yīng)用程序包含對延遲敏感的代碼,且其優(yōu)先級高于所有其他 GPU 任務(wù)時,可以將一部分 SM 資源分配給一個專用于此代碼的綠色上下文,其余 SM 分配給處理其他任務(wù)的另一個綠色上下文,即可確保關(guān)鍵計算始終擁有可用的 SM 資源。

CUDA 13.1 還引入了可定制程度更高的 split() API。開發(fā)者可以構(gòu)建此前需要多次 API 調(diào)用才能完成的 SM 分區(qū),并能夠配置工作隊列,以減少在不同綠色上下文中提交任務(wù)時可能產(chǎn)生的偽依賴。

有關(guān)這些功能及綠色上下文運行時的更多信息,請參閱CUDA Programming Guide。

CUDA 多進程服務(wù)(MPS)更新

CUDA 13.1 為多進程服務(wù)新增了多項功能特性。有關(guān)這些新功能的完整信息,請參閱MPS 文檔。其中的重點內(nèi)容包括:內(nèi)存局部性優(yōu)化分區(qū)、靜態(tài)流多處理器分區(qū)、cuBLAS 中的雙精度與單精度仿真。

開發(fā)者工具

開發(fā)者工具是 CUDA 平臺至關(guān)重要的一環(huán),本次發(fā)布帶來了多項創(chuàng)新與功能優(yōu)化。

CUDA Tile 內(nèi)核性能分析工具

NVIDIA Nsight Compute 2025.4 現(xiàn)可對 CUDA Tile 內(nèi)核進行性能分析。相關(guān)更新包括:在摘要頁面新增“結(jié)果類型”列,用于區(qū)分內(nèi)核屬于 Tile 還是 SIMT 類型;詳情頁面新增“Tile 統(tǒng)計信息”區(qū)域,匯總 Tile 維度及關(guān)鍵流程的利用率情況;源頁面也支持將性能指標(biāo)映射到高級別的 cuTile 內(nèi)核源代碼。此外,本次 Nsight Compute 版本還新增了兩項功能:支持對設(shè)備端啟動的 CUDA 圖節(jié)點進行性能分析;同時改進了源頁面導(dǎo)航,現(xiàn)在無論是編譯器生成的標(biāo)簽還是用戶自定義的標(biāo)簽,都支持以可點擊鏈接的形式快速跳轉(zhuǎn)。

編譯時修補

NVIDIA Compute Sanitizer 2025.4 現(xiàn)可通過編譯器標(biāo)志 -fdevice-sanitize=memcheck 對 NVIDIA CUDA 編譯器進行編譯時修補。此功能增強了內(nèi)存錯誤檢測能力并提升了 Compute Sanitizer 的運行性能。編譯時插樁可將錯誤檢測直接集成到 NVCC 中,這樣不僅運行速度更快,還能通過先進的基址-邊界分析捕捉到更隱蔽的如相鄰分配非法訪問的內(nèi)存問題。這意味著開發(fā)者可以在不犧牲調(diào)試速度的前提下,排查內(nèi)存問題,運行更多測試,從而保持開發(fā)效率。目前,該功能僅支持 memcheck。有關(guān)編譯時插樁的完整信息,請參閱 compute-sanitizer文檔。

NVIDIA Nsight Systems

NVIDIA Nsight Systems 2025.6.1 與 CUDA Toolkit 13.1 同步發(fā)布,新增多項剖析功能,主要包括:

系統(tǒng)級 CUDA 剖析:新增 -cuda-trace-scope 參數(shù),支持跨進程樹或整個系統(tǒng)進行剖析。

CUDA 主機函數(shù)剖析:支持剖析 CUDA Graph 主機函數(shù)節(jié)點及 cudaLaunchHostFunc();該函數(shù)在主機端執(zhí)行,并會阻塞所在流。

綠色上下文時間軸:現(xiàn)在其提示信息會顯示 SM 分配情況,幫助用戶了解 GPU 資源利用率。

數(shù)學(xué)函數(shù)庫

本次核心 CUDA 工具包的數(shù)學(xué)函數(shù)庫引入了多項新功能,主要包括:NVIDIA cuBLAS、NVIDIA cuSPARSE、NVIDIA cuFFT。

NVIDIA CUDA 核心計算庫

NVIDIA CUDA 核心計算庫(CCCL)為CUB庫帶來了多項創(chuàng)新與增強:

確定性浮點數(shù)縮減:作為 CUDA 13.1 一部分, NVIDIA CCCL 3.1 提供了兩種額外的浮點確定性選項,以便在確定性和性能之間進行權(quán)衡:

Not-guaranteed:使用原子操作進行單輪歸約。此選項不保證為多次運行提供位級相同的結(jié)果。

GPU-to-GPU:基于 Kate Clark 在 NVIDIAGTC 2024演講中提出的可復(fù)現(xiàn)歸約算法。其結(jié)果始終是位級相同的。

更便捷的單階段CUB API:CCCL 3.1 為部分 CUB 算法新增了重載函數(shù),它們可以直接接受內(nèi)存資源參數(shù),從而省去查詢、分配、釋放臨時存儲的步驟。

了解更多

CUDA 13.1 帶來了眾多新功能,并開啟了以 CUDA Tile 為核心的GPU 編程新時代,了解更多關(guān)于 CUDA 13.1 的更新。

歡迎探索CUDA Tile相關(guān)資源,下載CUDA Toolkit 13.1,立即開始體驗。

關(guān)于作者 —

Jonathan Bentz

領(lǐng)導(dǎo) NVIDIA 的 CUDA 技術(shù)營銷工程團隊,其團隊專注于創(chuàng)建和提供引人入勝的內(nèi)容,并與 CUDA 開發(fā)者建立聯(lián)系。Jonathan 擁有愛荷華州立大學(xué)化學(xué)博士學(xué)位和計算機科學(xué)碩士學(xué)位。

Tony Scudiero

是 CUDA 平臺的技術(shù)營銷工程師。他致力于將 CUDA 帶給各種類型和能力的開發(fā)者。在 NVIDIA 任職期間,他曾使用過大型 HPC 系統(tǒng)和應(yīng)用、實時聲學(xué)模擬 (VRWorks Audio) 和 Omniverse RTX 渲染器。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5598

    瀏覽量

    109803
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5196

    瀏覽量

    135515
  • 編程語言
    +關(guān)注

    關(guān)注

    10

    文章

    1964

    瀏覽量

    39596
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    127

    瀏覽量

    14482

原文標(biāo)題:NVIDIA CUDA 13.1 引入 NVIDIA CUDA Tile 等新功能,為下一代 GPU 編程提供更強動力

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的
    的頭像 發(fā)表于 02-10 10:31 ?267次閱讀

    如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法

    博文是系列課程的一部分,旨在幫助開發(fā)者學(xué)習(xí) NVIDIA CUDA Tile 編程,掌握構(gòu)建高性能 GPU 內(nèi)核的方法,并以矩陣乘法作為核心示例。
    的頭像 發(fā)表于 01-22 16:43 ?4865次閱讀
    如何在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile中編寫高性能矩陣乘法

    西門子PCB DFM分析工具Valor NPI 2510版本新增功能

    Valor NPI 2510 版本新增多項檢查功能、提升制造風(fēng)險識別,并推出令人矚目的 3D 可視化增強特性,這標(biāo)志著產(chǎn)品的重大升級。Valor NPI 的 3D 視圖經(jīng)過重新設(shè)計,讓可制造性設(shè)計 (DFM) 結(jié)果的查看更直觀、
    的頭像 發(fā)表于 01-04 16:10 ?414次閱讀
    西門子PCB DFM分析工具Valor NPI 2510<b class='flag-5'>版本</b>的<b class='flag-5'>新增</b><b class='flag-5'>功能</b>

    NVIDIA CUDA Tile的創(chuàng)新之處、工作原理以及使用方法

    NVIDIA CUDA 13.1 推出 NVIDIA CUDA Tile,這是自 2006 年 NVID
    的頭像 發(fā)表于 12-24 10:17 ?483次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile的創(chuàng)新之處、工作原理以及使用方法

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA
    的頭像 發(fā)表于 12-13 10:12 ?1209次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile簡化GPU編程

    AMD Vivado Design Suite 2025.2版本現(xiàn)已發(fā)布

    AMD Vivado Design Suite 2025.2 版本現(xiàn)已發(fā)布,新增對 AMD Versal 自適應(yīng) SoC 的設(shè)計支持,包含新器件支持、QoR 功能及易用性增強。
    的頭像 發(fā)表于 12-09 15:11 ?976次閱讀

    開鴻Bot系列大版本更新:體驗穩(wěn)定升級,樂享高效協(xié)同!

    V5.0.1.22版本開鴻Bot系列今日,開鴻Bot系列迎來第二次大版本更新——V5.0.1.22。此次版本更新致力于進一步提升系統(tǒng)穩(wěn)定性與用戶體驗,新增多項實用
    的頭像 發(fā)表于 09-26 17:06 ?1354次閱讀
    開鴻Bot系列大<b class='flag-5'>版本</b>更新:體驗穩(wěn)定升級,樂享高效協(xié)同!

    NVIDIA RAPIDS 25.06版本新增多項功能

    RAPIDS 是一套面向 Python 數(shù)據(jù)科學(xué)的 NVIDIA CUDA-X 庫,最新發(fā)布的 25.06 版本引入了多項亮眼新功能,其中包括 Polars GPU 流執(zhí)行引擎——這是
    的頭像 發(fā)表于 09-09 09:54 ?1077次閱讀

    匠芯創(chuàng)發(fā)布新版GUI開發(fā)工具 新增多國語言設(shè)置等功能

    。此次版本更新,為用戶帶來了諸多實用的新功能,進一步提升了設(shè)計體驗和開發(fā)效率。在V1.3.0版本中,AiUIBuilder新增了多國語言切換功能
    的頭像 發(fā)表于 08-07 15:36 ?1329次閱讀
    匠芯創(chuàng)發(fā)布新版GUI開發(fā)工具 <b class='flag-5'>新增</b>多國語言設(shè)置等<b class='flag-5'>功能</b>

    NVIDIA DOCA 3.0版本的亮點解析

    NVIDIA DOCA 框架已發(fā)展成為新一代 AI 基礎(chǔ)設(shè)施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發(fā)布,每個版本都擴展了
    的頭像 發(fā)表于 07-04 14:27 ?1254次閱讀
    <b class='flag-5'>NVIDIA</b> DOCA 3.0<b class='flag-5'>版本</b>的亮點解析

    【文章轉(zhuǎn)載】CANoe產(chǎn)品體系19版本功能(下) - 基礎(chǔ)功能與XIL測試

    版本持續(xù)為智能電動網(wǎng)聯(lián)汽車軟件開發(fā)測試帶來全新功能,IDE開發(fā)環(huán)境支持.NET8.0、Python、MATLAB2024b,VisualStudioCode集成測試開發(fā)和調(diào)試功能,支持
    的頭像 發(fā)表于 06-25 10:03 ?1779次閱讀
    【文章轉(zhuǎn)載】CANoe產(chǎn)品體系19<b class='flag-5'>版本</b>新<b class='flag-5'>功能</b>(下) - 基礎(chǔ)<b class='flag-5'>功能與</b>XIL測試

    CANoe產(chǎn)品體系19版本新特性及新增Option(上)

    版本持續(xù)助力當(dāng)前車輛E/E架構(gòu)中ECU開發(fā)驗證,同時賦能后續(xù)智能網(wǎng)聯(lián)電動車型預(yù)研驗證。新版本CANoe產(chǎn)品體系新增數(shù)據(jù)驅(qū)動的DDS、車輛互聯(lián)服務(wù)和高效電機模型庫,進一步支持CANXL
    的頭像 發(fā)表于 06-11 10:03 ?2937次閱讀
    CANoe產(chǎn)品體系19<b class='flag-5'>版本</b>新特性及<b class='flag-5'>新增</b>Option(上)

    借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造

    NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 網(wǎng)絡(luò)架構(gòu)和交換機,以及諸如 NVIDIA cuDSS 和
    的頭像 發(fā)表于 05-27 13:59 ?1118次閱讀

    NVIDIA虛擬GPU 18.0版本的亮點

    NVIDIA 虛擬 GPU(vGPU)技術(shù)可在虛擬桌面基礎(chǔ)設(shè)施(VDI)中解鎖 AI 功能,使其比以往更加強大、用途更加廣泛。vGPU 通過為各種虛擬化環(huán)境中的 AI 驅(qū)動工作負(fù)載提供動力,提高了
    的頭像 發(fā)表于 04-07 11:28 ?1444次閱讀

    使用NVIDIA CUDA-X庫加速科學(xué)和工程發(fā)展

    NVIDIA GTC 全球 AI 大會上宣布,開發(fā)者現(xiàn)在可以通過 CUDA-X 與新一代超級芯片架構(gòu)的協(xié)同,實現(xiàn) CPU 和 GPU 資源間深度自動化整合與調(diào)度,相較于傳統(tǒng)加速計算架構(gòu),該技術(shù)可使計算工程工具運行速度提升至原來的 11 倍,計算規(guī)模增加至 5 倍。
    的頭像 發(fā)表于 03-25 15:11 ?1545次閱讀