91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton 系列文章(10):模型并發(fā)執(zhí)行

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:未知 ? 2023-01-05 11:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前面已經(jīng)做好了每個(gè)推理模型的基礎(chǔ)配置,基本上就能正常讓 Triton 服務(wù)器使用這些獨(dú)立模型進(jìn)行推理。接下來(lái)的重點(diǎn),就是要讓設(shè)備的計(jì)算資源盡可能地充分使用,首先第一件事情就是模型并發(fā)執(zhí)行(concurrent model execution)的調(diào)試,這是提升 Triton 服務(wù)器性能的最基本任務(wù)。

Triton 服務(wù)器支持的模型并發(fā)能力,包括一個(gè)模型并發(fā)多個(gè)推理實(shí)例,以及多個(gè)模型的多個(gè)并發(fā)實(shí)例。至于能并發(fā)多少實(shí)例?就需要根據(jù)系統(tǒng)上的硬件配置,Triton 支持純 CPU 以及多 GPU 的計(jì)算環(huán)境。

GPU 是能夠同時(shí)執(zhí)行多個(gè)工作負(fù)載的計(jì)算引擎,Triton 推理服務(wù)器通過(guò)在 GPU上同時(shí)運(yùn)行多個(gè)模型,最大限度地提高性能并減少端到端延遲,這些模型可以完全相同也可以是不同框架的不同模型,顯存大小是唯一限制并發(fā)運(yùn)行模型數(shù)量的因素。

下圖顯示了兩個(gè)計(jì)算模型 compute model 0 與 compute model 1 的示例,假設(shè) Triton 服務(wù)器當(dāng)前處于等待狀態(tài),當(dāng) request 0 與 request 1 兩個(gè)請(qǐng)求同時(shí)到達(dá)時(shí),Triton 會(huì)立即將這兩個(gè)請(qǐng)求調(diào)度到 GPU 上(下圖左),開(kāi)始并發(fā)處理這兩個(gè)模型的推理計(jì)算。

69003688-8cac-11ed-bfe3-dac502259ad0.png

認(rèn)情況下,Triton 指定系統(tǒng)中的每個(gè)可用 GPU 為每個(gè)模型提供一個(gè)實(shí)例,如果同一模型的多個(gè)請(qǐng)求同時(shí)到達(dá),Triton 將通過(guò)在 GPU 上一次只調(diào)度一個(gè)請(qǐng)求來(lái)串行化它們的執(zhí)行(上圖中)。這樣的方式在管理上是最輕松的,但是執(zhí)行效率并不好,因?yàn)橛?jì)算性能并未被充分調(diào)用。

Triton 提供了一個(gè) “instance_group” 的模型配置選項(xiàng),通過(guò)在模型配置中使用這個(gè)字段,可以更改模型的執(zhí)行實(shí)例數(shù),調(diào)整每個(gè)模型的并發(fā)執(zhí)行數(shù)量。

上圖右就是在 model 1 配置文件中,添加 “instance_group” 配置,并且設(shè)置 “count: 3” 的參數(shù),這樣就允許一個(gè) GPU 上可以并發(fā)三個(gè)實(shí)例的模型計(jì)算,如果用戶端發(fā)出超過(guò) 3 個(gè)推理請(qǐng)求時(shí),則第 4 個(gè) model 1 推理請(qǐng)求就必須等到前三個(gè)實(shí)例中的任一個(gè)執(zhí)行完之后,才能開(kāi)始執(zhí)行。

Triton可以提供一個(gè)模型的多個(gè)實(shí)例,從而可以同時(shí)處理該模型的多條推理請(qǐng)求。模型配置 ModelInstanceGroup 屬性用于指定應(yīng)可用的執(zhí)行實(shí)例的數(shù)量以及應(yīng)為這些實(shí)例使用的計(jì)算資源。接下來(lái)就看看幾個(gè)標(biāo)準(zhǔn)用法:

1. 單 CPU 或 GPU 單實(shí)例

未添加任何 instance_group 參數(shù)時(shí),表示這個(gè)模型使用默認(rèn)的配置,這時(shí)該模型可以在系統(tǒng)中可用的每個(gè) GPU 中創(chuàng)建單個(gè)執(zhí)行實(shí)例。如果用戶端提出多個(gè)請(qǐng)求時(shí),就會(huì)在 GPU 設(shè)備上按照串行方式執(zhí)行計(jì)算,如同上圖中 compute model 1 的狀態(tài)。

2. 單 CPU 或 GPU 并發(fā)多實(shí)例

實(shí)例組設(shè)置可用于在每個(gè) GPU 上或僅在某些 GPU 上放置模型的多個(gè)執(zhí)行實(shí)例。例如,以下配置將在每個(gè)系統(tǒng) GPU 上放置模型的兩個(gè)執(zhí)行實(shí)例。如果要讓模型在一個(gè) GPU 上執(zhí)行多個(gè)并行實(shí)例,就將以下的內(nèi)容寫入模型配置文件內(nèi),這里配置的是 2 個(gè)并發(fā)實(shí)例:

instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
  } 
]
如果將上面配置的計(jì)算設(shè)備配置為 “kind:KIND_CPU” ,就是指定在 CPU 可以并發(fā)兩個(gè)推理計(jì)算。 3. 多 CPU 或 GPU 并發(fā)多實(shí)例 如果設(shè)備上有多個(gè)計(jì)算設(shè)備,不管是 CPU 或 GPU,都可以使用以下配置方式,為模型配置多個(gè)并發(fā)推理實(shí)例:
instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0 ] 
  }, 
  { 
    count: 2 
    kind: KIND_GPU 
    gpus: [ 1, 2 ] 
  } 
]
這里的內(nèi)容,表示 Triton 服務(wù)器至少啟動(dòng) 3 個(gè) GPU 計(jì)算設(shè)備,這個(gè)推理模型在編號(hào)為 0 的 GPU 上啟動(dòng) 1 個(gè)并發(fā)實(shí)例,在編號(hào)為 1 與 2 的 GPU 上可以同時(shí)啟動(dòng) 2 個(gè)并發(fā)實(shí)例,以此類推。 以上是 instance_group 的基礎(chǔ)配置內(nèi)容,如果要對(duì)每個(gè) GPU 設(shè)備的計(jì)算資源進(jìn)行更深層的配置,還可以配合一個(gè)“比例限制器配置(Rate Limiter Configuration)”參數(shù)設(shè)置,對(duì)于執(zhí)行實(shí)例進(jìn)行資源的限制,以便于在不同實(shí)例直接取得計(jì)算平衡。 這個(gè)比例限制器的配置,主要有以下兩部分:
  • 資源(Reousrces)限制:
這個(gè)資源主要指的是 GPU 的顯存調(diào)用,因?yàn)閿?shù)據(jù)在 CPU 與 GPU 之間的交換傳輸,經(jīng)常在整個(gè)計(jì)算環(huán)節(jié)中造成很大的影響,如果當(dāng)我們需要對(duì)同一組數(shù)據(jù)進(jìn)行不同的計(jì)算,或者計(jì)算過(guò)程中有流水線前后關(guān)系的話,那么將這些需要重復(fù)使用的數(shù)據(jù)保留在 GPU 顯存上,就能非常有效減少數(shù)據(jù)傳輸次數(shù),進(jìn)而提升計(jì)算效率。 因此我們可以對(duì)模型實(shí)例提出限制,只有當(dāng)系統(tǒng)閑置資源能滿足資源需求時(shí),才進(jìn)行這個(gè)推理模型的計(jì)算。如果模型配置里沒(méi)有提供任何資源限制的需求,那么 Triton 服務(wù)器就認(rèn)定這個(gè)模型實(shí)例的執(zhí)行并不需要任何資源,并將在模型實(shí)例可用時(shí)立即開(kāi)始執(zhí)行。 這個(gè)配置項(xiàng)里有三個(gè)參數(shù)內(nèi)容: (1)“name”字段:資源名稱; (2)“count”字段:組中模型實(shí)例需要運(yùn)行的資源副本數(shù); (3)“global”字段:指定資源是按設(shè)備還是在系統(tǒng)中全局共享。 下面是一個(gè)簡(jiǎn)單的模型配置內(nèi)容的 instance_group 參數(shù)組:
instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
gpus: [ 0 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        } 
] 
    } 
  }, 
  { 
    count: 4 
    kind: KIND_GPU 
gpus: [ 1, 2 ] 
    rate_limiter { 
      resources [        
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
} 
  } 
]

  • 第 1 組配置:可并發(fā)執(zhí)行數(shù)量為 2,指定使用 gpu[0] 設(shè)備,需要名為 “R1” 的計(jì)算資源,其內(nèi)容是需要 2 份設(shè)備內(nèi)存的副本;

  • 第 2 組配置:可并發(fā)執(zhí)行數(shù)量為 4,指定使用 gpu[1, 2] 兩個(gè)設(shè)備,需要名為 “R2” 的計(jì)算資源,其內(nèi)容是需要 4 份全局共享內(nèi)存的副本,

這里面的并發(fā)數(shù)量與資源配置數(shù)量并不存在線性關(guān)系,開(kāi)發(fā)人員必須根據(jù)模型所需要數(shù)據(jù)的張量尺度,以及 GPU 卡顯存大小去進(jìn)行調(diào)配。 Triton 允許我們指定要為推理提供的每個(gè)模型的副本數(shù)量,默認(rèn)情況下會(huì)獲得每個(gè)模型的一個(gè)副本,但可以使用 instance_group 在模型配置中指定任意數(shù)量的實(shí)例。通常擁有一個(gè)模型的兩個(gè)實(shí)例會(huì)提高性能,因?yàn)樗试S CPU 與 GPU 之間的內(nèi)存?zhèn)鬏敳僮髋c推理計(jì)算重疊。多個(gè)實(shí)例還通過(guò)允許在 GPU 上并發(fā)更多推理工作來(lái)提高GPU 利用率。
  • 優(yōu)先級(jí)(Priority)設(shè)置:
因?yàn)橛?jì)算資源是有限的,因此也可以在資源配置是對(duì)其進(jìn)行優(yōu)先級(jí)的配置,如此也會(huì)影響實(shí)例進(jìn)行的先后順序。下面是一個(gè)簡(jiǎn)單的優(yōu)先級(jí)配置示范:
instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0, 1, 2 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        }, 
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
      priority: 2 
    } 
  } 
] 
上面配置組的 3 個(gè)模型實(shí)例,每個(gè)設(shè)備(0、1和2)上執(zhí)行一個(gè),每個(gè)實(shí)例需要 4 個(gè) “R1” 和 2 個(gè)具有全局資源的 “R2” 資源才能執(zhí)行,并將比例限制器的優(yōu)先級(jí)設(shè)置為 2。 這三個(gè)實(shí)例之間不會(huì)爭(zhēng)奪 “R1” 資源,因?yàn)?“R1” 對(duì)于它們自己的設(shè)備是本地的,但是會(huì)爭(zhēng)奪 “R2” 資源,因?yàn)樗恢付槿仲Y源,這意味著 “R2” 在整個(gè)系統(tǒng)中共享。雖然這些實(shí)例之間不爭(zhēng) “R1”,但它們將與其他模型實(shí)例爭(zhēng)奪 “R1“,這些模型實(shí)例在資源需求中包含 “R1” 并與它們?cè)谕辉O(shè)備上運(yùn)行。 這是對(duì)所有模型的所有實(shí)例進(jìn)行優(yōu)先級(jí)排序,優(yōu)先級(jí) 2 的實(shí)例將被賦予優(yōu)先級(jí) 1 的實(shí)例 1/2 的調(diào)度機(jī)會(huì)數(shù)。 以上是關(guān)于 Triton 服務(wù)器“模型并發(fā)執(zhí)行”的基礎(chǔ)內(nèi)容,后面還有更多關(guān)于調(diào)度器(scheduler)與批量處理器(batcher)的配合內(nèi)容,能更進(jìn)一步地協(xié)助開(kāi)發(fā)人員調(diào)試系統(tǒng)的總體性能。


原文標(biāo)題:NVIDIA Triton 系列文章(10):模型并發(fā)執(zhí)行

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4086

    瀏覽量

    99169

原文標(biāo)題:NVIDIA Triton 系列文章(10):模型并發(fā)執(zhí)行

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計(jì)目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢(shì)是允許開(kāi)發(fā)者基于其構(gòu)建自定義的 DS
    的頭像 發(fā)表于 02-10 10:31 ?238次閱讀

    NVIDIA 推出 Nemotron 3 系列開(kāi)放模型

    新聞?wù)?● Nemotron 3 系列開(kāi)放模型包含 Nano、Super 和 Ultra 三種規(guī)模,具有極高的效率和領(lǐng)先的精度,適用于代理式 AI 應(yīng)用開(kāi)發(fā)。 ● Nemotron 3 Nano
    的頭像 發(fā)表于 12-16 09:27 ?625次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Nemotron 3 <b class='flag-5'>系列</b>開(kāi)放<b class='flag-5'>模型</b>

    NVIDIA攜手Mistral AI發(fā)布全新開(kāi)源大語(yǔ)言模型系列

    全新 Mistral 3 系列涵蓋從前沿級(jí)到緊湊型模型,針對(duì) NVIDIA 平臺(tái)進(jìn)行了優(yōu)化,助力 Mistral AI 實(shí)現(xiàn)云到邊緣分布式智能愿景。
    的頭像 發(fā)表于 12-13 09:58 ?1237次閱讀

    NVIDIA推動(dòng)面向數(shù)字與物理AI的開(kāi)源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語(yǔ)音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動(dòng)出行領(lǐng)域的行業(yè)級(jí)開(kāi)源視覺(jué)-語(yǔ)言-動(dòng)作推理模型(Reasoning VLA) NVIDIA DRI
    的頭像 發(fā)表于 12-13 09:50 ?1330次閱讀

    利用NVIDIA Cosmos開(kāi)放世界基礎(chǔ)模型加速物理AI開(kāi)發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開(kāi)放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測(cè)試與驗(yàn)證數(shù)據(jù)生成。借助 NVID
    的頭像 發(fā)表于 12-01 09:25 ?1131次閱讀

    面向科學(xué)仿真的開(kāi)放模型系列NVIDIA Apollo正式發(fā)布

    用于加速工業(yè)和計(jì)算工程的開(kāi)放模型系列 NVIDIA Apollo 于近日舉行的 SC25 大會(huì)上正式發(fā)布。
    的頭像 發(fā)表于 11-25 11:15 ?7.4w次閱讀

    NVIDIA開(kāi)源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開(kāi)源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開(kāi)發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動(dòng)畫(huà)的高精度角色。NVIDIA 開(kāi)源 Audio2Face 的訓(xùn)練框架,任何人都可以針對(duì)特定用例對(duì)現(xiàn)有
    的頭像 發(fā)表于 10-21 11:11 ?816次閱讀
    <b class='flag-5'>NVIDIA</b>開(kāi)源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA 利用全新開(kāi)源模型與仿真庫(kù)加速機(jī)器人研發(fā)進(jìn)程

    科研人員及開(kāi)發(fā)者打造功能更強(qiáng)大、適應(yīng)性更強(qiáng)的機(jī)器人。 ? 全新的 NVIDIA Isaac GR00T 開(kāi)源基礎(chǔ)模型將為機(jī)器人賦予接近人類的推理能力,使其能夠拆解復(fù)雜指令,并借助已有知識(shí)與常識(shí)執(zhí)行
    的頭像 發(fā)表于 09-30 09:52 ?3067次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開(kāi)源<b class='flag-5'>模型</b>與仿真庫(kù)加速機(jī)器人研發(fā)進(jìn)程

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1777次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 開(kāi)源其物理 AI 平臺(tái) NVIDIA Cosmos 中的關(guān)鍵模型——NVIDIA Cosmos Reason-1-7B。這款先進(jìn)的多模態(tài)大
    的頭像 發(fā)表于 07-09 10:17 ?808次閱讀

    鴻蒙5開(kāi)發(fā)寶藏案例分享---應(yīng)用并發(fā)設(shè)計(jì)

    到性能調(diào)優(yōu),這些案例都是華為工程師的血淚經(jīng)驗(yàn)結(jié)晶。下面用最直白的語(yǔ)言+代碼示例,帶你玩轉(zhuǎn)HarmonyOS并發(fā)開(kāi)發(fā)! ?一、ArkTS并發(fā)模型:顛覆傳統(tǒng)的設(shè)計(jì) 傳統(tǒng)模型痛點(diǎn) graph
    發(fā)表于 06-12 16:19

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1871次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    【幸狐Omni3576邊緣計(jì)算套件試用體驗(yàn)】幸狐Omni3576開(kāi)發(fā)板移植YOLOV10和推理測(cè)試

    /rknn_model_zoo.git (二)下載模型 執(zhí)行如下命令下載ONNX模型用于轉(zhuǎn)換。 chmod a+x download_model.sh ./download_model.sh (三)
    發(fā)表于 05-24 12:27

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千個(gè) GPU 之間的推理通信,并使用分離服務(wù)將
    的頭像 發(fā)表于 03-20 15:03 ?1231次閱讀

    NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開(kāi)源 Llama Nemotron 模型系列,旨在為開(kāi)發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜任務(wù)的高級(jí) AI 智能體。
    發(fā)表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開(kāi)放推理 AI <b class='flag-5'>模型</b><b class='flag-5'>系列</b>,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)